从CVPR 2014看计算机视觉领域的最新热点

贾伟中科院合肥 · 发表于 2015-10-13 18:31:45

http://blog.sina.com.cn/s/blog_4caedc7a0102uyjj.html

编者按：2014年度计算机视觉方向的顶级会议CVPR上月落下帷幕。在这次大会中，微软亚洲研究院共有15篇论文入选。今年的CVPR上有哪些让人眼前一亮的研究，又反映出哪些趋势？来听赴美参加会议的微软亚洲研究院实习生胡哲的所见所闻。

作者：胡哲

微软亚洲研究院实习生

计算机视觉（Computer Vision）是近十几年来计算机科学中最热门的方向之一，而国际计算机视觉与模式识别大会（Conference on Computer Vision and Pattern Recognition，简称CVPR）绝对是计算机视觉会议中的翘楚。

今年的CVPR在美国俄亥俄州首府哥伦布市（Columbus）召开，地点有点前不着村后不着店的感觉，大多数人都只好老老实实开会。但即便在如此偏远的地方举行会议，CVPR的参会人数还是毫无缩减，这一点在中午领饭的时候可以深深体会到。当然，开会的核心绝对不在于地点和提供的饮食，虽然这也很重要。所有人千里迢迢从全世界过来汇聚在一起的主要目的还是感受流行的研究趋势以及与大家交流各自的研究突破和创新的想法。非常荣幸我这次能有三篇论文被大会录取，这既是对我个人在计算机视觉领域研究的巨大肯定，也让我得以有机会能够去往CVPR大会的现场去感受这个领域最前沿的研究成果和前瞻的趋势。接下来，我就与大家分享一下这次的参会感受。

一、繁荣的深度学习

深度学习（Deep Learning）是当下最热门的方向之一，今年的论文中标题带deep字眼的论文就有16篇（其中oral presentation 4篇——在CVPR等大型会议中，由于论文数量众多，大部分的论文都是以海报的形式作讲演。而大会的委员会在所有其中挑选少量出色的工作（占所有投稿的5%）面对所有研究者演讲）。深度学习热潮爆发以来，诸多研究者都在不懈地努力着，希望能够把它应用于解决计算机视觉的各种任务上，从高层次（high-level）的识别（recognition），分类（classification）到低层次（low-level）的去噪（denoising）。让人不禁联想起当年的稀疏表达（sparse representation）的热潮，而深度学习如今的风靡程度看上去是有过之而无不及。深度学习也有横扫high-level问题的趋势，high-level的很多方向都在被其不断刷新着数据。以往的改进都是1，2个点的增长，如今使用深度学习轻松刷出5，6点，这给很多非深度学习方法研究者巨大的压力。虽说深度学习是大热方向，可计算机视觉界的研究者对深度学习的态度也是很鲜明的两派——支持与观望，也给其他研究趋势带来了一些影响（原因接下来说）。作为强大的特征（feature）学习工具，获得大量的支持与推广自然不必说，很多原本观望的研究者们在目睹深度学习的优秀表现后也都开始投身于此。持观望态度的人们一部分可能仍并不了解深度学习的机理，另外一大部分相信是对深度学习将给计算机视觉带来的贡献持保守态度。虽然笔者赞叹于深度学习的强大能力，可对此也是持保守态度。诚然深度学习作为一个工具异常强大。在给定足够多的训练集的情况下，它可以帮助用户学习到这个任务下的具有很强分辨能力的特征。可是这个训练过程近乎黑箱，学习出的系统也很难给解决的问题带来更深刻的理解。

二、为基础模型研究正名

也许因为如此，我认为本次的评奖有些指引方向的感觉。本次大会的最佳论文颁给了研究camera motion和shape recovery关系的文章What Camera Motion Reveals About Shape with Unknown BRDF（single author!）, Honorable mention给了利用structured light研究shape的论文3D Shape and Indirect Appearance by Structured Light Transport。这两篇论文都可以算是研究3D几何模型的。不仅评奖如此，计算机视觉领域的前辈也亲自站出来力挺一下基础模型的研究，其中Jean Ponce亲自写了一篇论文(oral)来继续探讨trinocular geometry的传统假设不成立时如何保证三个相机visual rays相交的情况。这些论文无一不是对计算机视觉基础问题和基础模型的深入研究，考虑前人没有研究过的问题的系统分析。这些文章的获奖也是鼓励我们年轻研究人员静下心来做基础问题的研究，不轻易追赶当下热潮。做追赶浪潮的弄潮儿容易，可是怎么样保证研究工作不会轻易被遗忘在时间里，或者说怎么做对领域有贡献的研究工作，绝对是我们研究者们需要思考的问题。另外，并不要认为已经写入教科书的内容就已经板上钉钉没有研究价值了。有一些理论也是建立在理想的假设满足的前提下，所以它们仍然可以在质疑的眼光下去进行深造。

三、尚未被深度学习渗透的Low-level Vision

计算机视觉的问题可以根据他们的研究对象和目标分成三大类，low-level，mid-level, 和high-level。Low-level问题主要是针对图像本身及其内在属性的分析及处理，比如判断图片拍摄时所接受的光照，反射影响以及光线方向，进一步推断拍摄物体的几何结构；再如图片修复，如何去除图片拍摄中所遇到的抖动和噪声等不良影响。High-level问题主要是针对图像内容的理解和认知层面的，比如说识别与跟踪图像中的特定物体与其行为；根据已识别物体的深入推断，比如预测物体所处的场景和即将要进行的行为。Mid-level是介于以上两者之间的一个层面，个人理解是着重于特征表示，比如说如何描述high-level问题中的目标物体，使得这种描述有别于其他的物体。可以大致认为，low-level的内容可以服务于mid-level的问题，而mid-level的内容可以服务于high-level的问题。由于这种分类不是很严格，所以也会出现交叉的情况。深度学习在计算机视觉界主要是作为一种特征学习的工具，可以姑且认为是mid-level的。所以之前提到的high-level的问题受深度学习的影响很大就是这个原因。相比较而言low-level问题受到深度学习的冲击会小很多，当然也有深度学习用于去噪（denoise）和去模糊（deblur）等low-level问题的研究。对于受到深度学习良好表现困扰的年轻研究者们，也不妨来探寻low-level很多有意思的研究。这些年，MIT的Bill Freeman组就做了一些很有趣的low-level问题，比如放大视频中出现的肉眼难以察觉的细小变化（Eulerian Video Magnification for Revealing Subtle Changes in the World），还有这次CVPR的文章Camouflaging an Object from Many Viewpoints就是讲如何在自然环境中放置和涂染一个立方体，让其产生变色龙般的隐藏效果。诸如此类的研究也让研究这件事变得有趣和好玩。

笔者目前也正专注于low-level中去模糊（deblur）的研究。去模糊的意思是借助某种方法将拍照中出现的模糊图像恢复成清晰图像。这个问题是一个已经被研究了很多年的问题——去卷积（deconvolution），自上世纪5，60年代起，就有很多知名研究工作出现。这方面研究到近十年取得了很多突破，在处理相机抖动引起的模糊中出现了不少有影响力的的工作。而Adobe公司2013年将这方面的算法作为一个重要特征放进了Photoshop中，更是成了鼓舞该领域的研究动力。美国FBI就有利用Photoshop的去模糊功能修复图片并帮助破案的例子，笔者去年在Adobe实习期间看到了FBI发来的感谢信。

这次笔者被CVPR 2014录取的三篇文章都是关于去模糊的研究。一篇是针对模糊图像的一个主要来源——暗光照情况下的图像，设计的一个基于光斑（light streak）的去模糊算法（Deblurring Low-light Images with Light Streaks）。<IMG style="TEXT-ALIGN: center; MARGIN: 0px auto; DISPLAY: block" title="从CVPR 2014看计算机视觉领域的最新热点" alt="从CVPR 2014看计算机视觉领域的最新热点" src="http://s12.sinaimg.cn/mw690/001p48JAgy6KQYVOMaLdb&690" action-type="show-slide" action-data="http%3A%2F%2Fs12.sinaimg.cn%2Fmw690%2F001p48JAgy6KQYVOMaLdb%26690" real_src="http://s12.sinaimg.cn/mw690/001p48JAgy6KQYVOMaLdb&690">

这个算法自动检测暗光情况下常见的光斑，并利用光斑作为模糊核（blur kernel）的约束。它对解决暗光下模糊图片非常有效，而且光斑这一现象不仅出现在低光下，在普通的模糊图像中也会出现，只需要场景中有与周边环境有颜色差别的小型物体出现。读者可以在我的个人主页上下载代码进行尝试。还有一篇是说从一张模糊图像中，我们不仅可以估计相机的抖动，还可以发掘出场景的深度（Joint Depth Estimation and Camera Shake Removal from Single）。这乍听上去像是不可能完成的任务，可实际上图像的模糊是同时包含了相机抖动和场景深度信息的。读者也可以这样认为，我们拍摄模糊图像的过程也可以看作是拍摄一小段video的过程，这样的话我们相当于拥有了一个多角度立体（stereo）的输入！第三篇是针对文字模糊图片设计的一个简单有效的算法，可以用于文字识别前的预处理（Deblurring Text Image via L0-Regularized Intensity and Gradient Prior）。

四、Depth Sensor（深度传感器）及深度图像相关

近几年来从Depth Sensor得到的深度图像的相关研究一直是学术界以及工业界重点关注的问题。特别是工业界，很多Depth Sensor相关的创业公司如雨后春笋般在业界涌现，他们也获得了广泛的关注和不菲的投资，这次赞助CVPR的就有多家这样的创业公司。不仅如此，很多大公司也都积极的投身于做自己的Depth Sensor，或者嵌入到自己的产品中。Depth Sensor为何有如此大的影响力，大家肯定早已有诸多见解。它作为一种新的输入数据，给了传统输入数据（2D）一个新的像素级别的维度——深度。这不仅给研究者们开拓了以RGBD输入数据为核心的旧问题新方向，而且由于深度图像的帮助下也让很多算法更加实用。这也让CV研究离工业界的产品更紧密了。Depth Sensor的成熟以及CV领域相关研究的发展，也提供给增强现实（Augmented Reality）这个未来科技感十足的方向一个重要的接口。所有的这些都昭示着Depth Sensor是一个非常有价值而且在一段时间内还将是非常热门的方向。

微软亚洲研究院在这个方向上也有一篇利用depth sensor做手部跟踪的oral论文（Realtime and Robust Hand Tracking from Depth）。通过重新定义手的模型和能量方程，这个工作将手部跟踪做到了实时并且算法也很鲁棒。在PC上不用GPU也达到了25FPS（每秒显示帧数），而平均误差在测试数据上降低到10mm，相比其他方法提升50%左右。对手势的准确识别是现在很流行的一个问题。因为技术的进步已经让传统的输入方式（比如鼠标）处于更新换代的边缘了，如今通过depth sensor与手势来实现人机的实时交互将可能带来下一个输入方式的革命。所以这个工作是很有价值与深远影响的，也因此而获得了oral演讲的资格。

另外，微软亚洲研究院在今年的CVPR发表的另外一篇oral论文也是应用很广的一个问题——人脸对准（Face Alignment at 3000 FPS via Regressing Local Binary Features）。<IMG title="从CVPR 2014看计算机视觉领域的最新热点" alt="从CVPR 2014看计算机视觉领域的最新热点" src="http://s13.sinaimg.cn/mw690/001p48JAgy6KQZ1gF4wac&690" width=619 height=274 action-type="show-slide" action-data="http%3A%2F%2Fs13.sinaimg.cn%2Fmw690%2F001p48JAgy6KQZ1gF4wac%26690" real_src="http://s13.sinaimg.cn/mw690/001p48JAgy6KQZ1gF4wac&690">

通过采用局部学习的准则降低随机森林（random forest）的任务难度，以得到更好的局部特征（local feature）。同时，整体上的结构学习帮助算法更加鲁棒。这个项目实现了快速的人脸对准以及人脸跟踪。在相同精度下，它比以往的方法快了数十倍，在PC上单核3000FPS，手机上单核300FPS。这个结果很令人振奋，因为手机及移动设备已经很大程度的改变人们的生活方式，可是相比PC，手机的处理能力有限，那么就需要更加快速稳定的算法。这个工作就为在手机及移动设备对人脸的实时处理提供了坚实的基础。

从CVPR 2014看计算机视觉领域的最新热点

相关帖子