CVPR 2015会议总结报告 张觅*武汉大学遥感信息工程学院 国际计算机视觉与模式识别会议(CVPR)是计算机视觉领域“三大顶级”(ICCV, ECCV)会议之一,在国内外有着广泛的影响力。CVPR 2015会议于2015年6月7日至2015年6月13日在美国波士顿召开。会议分为两部分:主场会议main conference以及专题会议workshop。主场会议论文的录用率极低,CVPR 2015年主场会议论文录用率为28.4%。会议共提交论文2123篇,录用论文602篇。 CVPR 2015会议主要有以下特点: 第一, 参会人数多,影响力大。本次会议注册人数为2000余人,实际参加人数为3000多人。参会人数为历届会议人数最多一次。参会人员除了美国本土顶级高校以外,如哈佛大学,MIT,UCLA等,还包括世界其他国家和地区的科研机构和大学人员,如日本东京大学,新加坡国立大学,台湾国立清华大学等;涵盖的领域除了计算机视觉领域外,交叉学科也凸显出来,如生物医学,物理学等。会议特邀嘉宾Jack Gallant即为生物医学领域的专家,其口头报告“Reverse Engineering the Human Visual System”(图1)从生物学的角度,阐释了人体大脑的运作机理,并将其应用于计算机视觉领域进行视觉分析。
第二, 深度学习及三维重建仍是主角。本次会议的一大看点,就是深度学习。特邀嘉宾Yann LeCun现为纽约大学教授,Facebook公司人工智能(AI)首席科学家,其为深度学习(Deep Learning)的创始人之一。在CVPR2105会议上,LeCun作了题为“What’s Wrong with Deep Learning”(图2)的主旨报告,从三个层次,阐述了深度学习在模式识别领域仍存在的三个问题。1)目前的深度学习机制仍然缺乏推理、搜索方面的能力;2)耗用存储空间大。深度学习需要处理大量的数据,这将会占用极大地存储空间;3)缺少非监督学习的能力。本次会议的另一大看点,就是三维重建。在主会以及专题会议中,有4个专题报告,都是关于三维重建领域最新进展的。分别是:Depth/3D/Surface; 3D Shape—Matching,Reognition, Reconstruction; 3D Models & Images; 3D From a Single Image. 这些报告的最大特点就是结合了实际问题,如RGBD相机,3D数据集SUN RGB-D,时间序列影像变化特点等,来分析和解决三维重建所遇到的问题,比如光照、云雾等对重建效果的影响。此外,在三维重建方面,一个突出的特点,就是实时性和快速性,如论文“Reconstructing the world in Six Days”(图3)就是采用众源影像数据,重建世界范围内的三维模型。
图2 Yann LeCun深度学习专题口
图3 论文“Reconstrucing the Wrold in SixDays”口头报告 第三, 参展企业多,交流机会广。CVPR 2015会议的参展企业共52家,世界级企业,如谷歌,微软,因特尔,英伟达,特斯拉,亚马逊,iRobot,facebook,Matlab等都参加会议,并展示了相关企业在计算机视觉与模式识别领域最新的产品。国内的企业,比如知图,Minieye等公司,也展示了最新的研究成果。在参展的企业中,最为引人注意,就是Matlab公司推出的视频三维建模软件包,它可以用于实时的视频三维建模,并进行行人检测(图4),此外3DMD公司推出的人体三维重建系统(如图5),可以快速实现人体三维重建,从影像采集到三维模型构建,只需要不到半分钟时间即可完成。KitWare(图6)公司研发的OpenSFM系列软件,可以跨平台开源使用,不仅可以实现航空影像的三维建模,而且还可以针对地面物体,从序列影像中进行追踪。
图4 Matlab公司的视频三维重建软件包执行效果
图6Kitware软件航空影像三维重建效果 总之,CVPR 2015会议,除了让我了解国内外同行所做研究成果进展,带给我视觉盛宴外,更多的是在科研方向方面更深层次的把握,让自己更有了方向感和目标。
|