近日,国际会议CVPR 2018 公布录用结果,我校信息科学与技术学院有6篇论文入选,在国内高校中名列前茅。CVPR(IEEE Conference on Computer Vision and Pattern Recognition)即“国际计算机视觉与模式识别会议”,是由IEEE举办的计算机视觉领域三大国际会议之一,被中国计算机学会(CCF)推荐为计算机学科领域A类国际会议。与其他理工科学科不同,在全国学科评估中,唯有“计算机科学与技术”一级学科将CCF推荐的A类国际会议计入评估。CVPR有着严苛的录用标准,论文录用率一般在20%左右。2018年总的量达4000多篇,最终录取了900多篇,录取率不到23%。信息学院纪荣嵘教授团队率先于2015年实现厦门大学CVPR2015论文零的突破,在2015-2018年期间,信息学院师生(含纪荣嵘教授、丁兴号教授、李绍滋教授和李军教授团队)被CVPR录用的论文数分别共计为3篇、2篇、4篇和6篇,标志着信息科学与技术学院的研究得到了国际同行的认可。此次,我校被CVPR2018录用的是以下这6篇论文。
智能科学系2015届博士研究生钟准作为第一作者,导师李绍滋教授作为通讯作者,发表题为“Camera Style Adaptation for Person Re-identification”的论文。在多摄像机检索任务中,身份重识别受到由不同摄像机导致的不同风格的图像干扰。之前的解决方法通过隐式地学习一个摄像机无关的描述子空间。该论文显式地引入摄像机风格适应方法。该方法可以看成是一种数据扩充。有标签的训练样本的风格可以被转换到不同摄像机的风格,并和原来的样本形成扩充后的训练集。通过这个方法不但增加了数据集的差异性,也加入了一定的噪声。为了减少噪声,在学习过程加入样本平滑正则化。因为过度拟合, 原始的样本平滑正则化只能在很少的摄像机系统里取得好结果。实验结果表明, 该论文提出的新方法在加入了样本平滑正则化后在所有摄像机系统里都取得了一致的性能改进, 性能明显优于现有的其它方法。
智能科学系2017级博士研究生沈云航作为第一作者,导师纪荣嵘教授作为通讯作者,发表题为“Generative Adversarial Learning towards Fast Weakly Supervised Detection”的论文。该论文提出一种面向快速弱监督目标检测的生成对抗学习算法。近年来弱监督目标检测领域有着大量的工作。在没有人工标注包围盒的情况下,现有的方法大多是多阶段流程,其中包括了候域提取阶段。这使得在线测试的速度比快速有监督目标检测(如SSD、YOLO等)慢一个数量级。该论文通过一种新颖的生成对抗学习算法来加速。在这过程中,生成器是一个单阶段的目标检测器,同时算法引入了一个代理器来挖掘高质量的包围盒。最后算法结合了结构相似损失和对抗损失来训练模型。实验结果表明该算法取得了优异的性能。
智能科学系2016级博士研究生陈福海作为第一作者,导师纪荣嵘教授作为通讯作者,发表题为“GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints”的论文。该论文提出了一种基于组群图像结构化语义关联性分析的图像自动描述方法(GroupCap),对图像间的语义相关性和差异性进行建模。具体而言,该论文首先利用深度卷积神经网络(CNN)提取图像的语义特征并利用提出的视觉解析模型构建语义关联结构树,然后在结构树基础上采用三联损失和分类损失对图像间语义关联性(相关性和差异性)进行建模,最后将关联性作为约束来引导深度循环神经网络生成文本。该方法新颖且有效,很好解决了当前图像自动描述方法对于生成结果精确度不高且判别性不强的缺陷。
航空航天大学博士研究生王晓迪作为第一作者,智能科学系纪荣嵘教授作为通讯作者,发表题为“Modulated Convolutional Networks”的论文,是王晓迪在厦门大学纪荣嵘教授实验室访问期间完成的工作。该论文提出一个新的调制卷积神经网络来改进基于二值卷积核的卷积神经网络的便携性。论文在端对端的框架里采用了一种把卷积核损失、中心损失和SoftMax损失结合起来的损失函数。算法首先使用调制卷积核来恢复二值卷积核,然后考虑类内紧凑来逼近卷机操作。实验结果表明,该模型可以减少32倍的存储空间,而且性能优于其它现有的二值化模型。更重要的是,该方法取得了和全精度模型Resnets、WideResnet相似的性能。该论文的代码会很快开源。
智能科学系2017级年硕士研究生丰一帆作为第一作者(导师为纪荣嵘教授),发表题为“GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition”的论文。3D形状的识别近几年颇受关注,采用多视图卷积神经网络(MVCNN)已取得了目前最好的结果。然而使用深层特征的框架受到视图-特征的模式约束,尚未充分利用视图间的层次关系。该论文提出GVCNN包含单一视图-组视图-特征的架构,采用层级关系模型获取可辨别的形状描述符。然后用一个分组模块计算每个视图的可辨别度分数,再根据分数将每个视图分组,最终根据每个组的权重将组级别特征融合成形状级别的特征。对比实验表明我们提出的GVCNN在3D识别和检索两方面均显著优于现有的方法。
通信工程系博士后陈一平作为第一作者,李军教授作为第一通讯作者,发表题为“LiDAR-Video Driving Dataset: Learning Driving Policies Effectively”的论文。该论文针对学习自动驾驶策略这一计算机视觉领域中最具挑战的课题之一开展数据实验研究。现有的研究表明,未来自动驾驶的研究和应用应该结合机、行车记录仪和激光雷达从语义上全面理解现实中的交通。然而,目前的方法限于通过大规模视频数据学习而缺少实验基准。该论文首次提出使用“激光雷达-视频”数据集,采用激光雷达获取大规模点云数据,并通过仪表板摄像机来记录视频图像以及标准的驾驶行为。大量的实验表明,使用由激光雷达采集的点云数据中附加的深度信息可以帮助神经网络决定驾驶策略。该论文的所有数据、代码和模型都将在论文发表后公开。