也许因为如此,我认为本次的评奖有些指引方向的感觉。本次大会的最佳论文颁给了研究camera motion和shape recovery关系的文章What Camera Motion Reveals About Shape with Unknown BRDF(single author!), Honorable mention给了利用structured light研究shape的论文3D Shape and Indirect Appearance by Structured Light Transport。这两篇论文都可以算是研究3D几何模型的。不仅评奖如此,计算机视觉领域的前辈也亲自站出来力挺一下基础模型的研究,其中Jean Ponce亲自写了一篇论文(oral)来继续探讨trinocular geometry的传统假设不成立时如何保证三个相机visual rays相交的情况。这些论文无一不是对计算机视觉基础问题和基础模型的深入研究,考虑前人没有研究过的问题的系统分析。这些文章的获奖也是鼓励我们年轻研究人员静下心来做基础问题的研究,不轻易追赶当下热潮。做追赶浪潮的弄潮儿容易,可是怎么样保证研究工作不会轻易被遗忘在时间里,或者说怎么做对领域有贡献的研究工作,绝对是我们研究者们需要思考的问题。另外,并不要认为已经写入教科书的内容就已经板上钉钉没有研究价值了。有一些理论也是建立在理想的假设满足的前提下,所以它们仍然可以在质疑的眼光下去进行深造。
三、尚未被深度学习渗透的Low-level Vision
计算机视觉的问题可以根据他们的研究对象和目标分成三大类,low-level,mid-level, 和high-level。Low-level问题主要是针对图像本身及其内在属性的分析及处理,比如判断图片拍摄时所接受的光照,反射影响以及光线方向,进一步推断拍摄物体的几何结构;再如图片修复,如何去除图片拍摄中所遇到的抖动和噪声等不良影响。High-level问题主要是针对图像内容的理解和认知层面的,比如说识别与跟踪图像中的特定物体与其行为;根据已识别物体的深入推断,比如预测物体所处的场景和即将要进行的行为。Mid-level是介于以上两者之间的一个层面,个人理解是着重于特征表示,比如说如何描述high-level问题中的目标物体,使得这种描述有别于其他的物体。可以大致认为,low-level的内容可以服务于mid-level的问题,而mid-level的内容可以服务于high-level的问题。由于这种分类不是很严格,所以也会出现交叉的情况。深度学习在计算机视觉界主要是作为一种特征学习的工具,可以姑且认为是mid-level的。所以之前提到的high-level的问题受深度学习的影响很大就是这个原因。相比较而言low-level问题受到深度学习的冲击会小很多,当然也有深度学习用于去噪(denoise)和去模糊(deblur)等low-level问题的研究。对于受到深度学习良好表现困扰的年轻研究者们,也不妨来探寻low-level很多有意思的研究。这些年,MIT的Bill Freeman组就做了一些很有趣的low-level问题,比如放大视频中出现的肉眼难以察觉的细小变化(Eulerian Video Magnification for Revealing Subtle Changes in the World),还有这次CVPR的文章Camouflaging an Object from Many Viewpoints就是讲如何在自然环境中放置和涂染一个立方体,让其产生变色龙般的隐藏效果。诸如此类的研究也让研究这件事变得有趣和好玩。
微软亚洲研究院在这个方向上也有一篇利用depth sensor做手部跟踪的oral论文(Realtime and Robust Hand Tracking from Depth)。通过重新定义手的模型和能量方程,这个工作将手部跟踪做到了实时并且算法也很鲁棒。在PC上不用GPU也达到了25FPS(每秒显示帧数),而平均误差在测试数据上降低到10mm,相比其他方法提升50%左右。对手势的准确识别是现在很流行的一个问题。因为技术的进步已经让传统的输入方式(比如鼠标)处于更新换代的边缘了,如今通过depth sensor与手势来实现人机的实时交互将可能带来下一个输入方式的革命。所以这个工作是很有价值与深远影响的,也因此而获得了oral演讲的资格。