沈向洋：计算机的“眼”进化到哪一步了

贾伟中科院合肥 · 发表于 2015-5-10 00:51:56

http://blog.sina.com.cn/s/blog_4caedc7a0102vnzu.html
计算机的“眼”进化到哪一步了

(2015-05-08 19:09:07)

编者按：以下内容编译自微软全球执行副总裁沈向洋在Ignite 2015大会上做的主题演讲。在演讲中，作为一名深耕于计算机视觉领域长达25年的研究人员，他讲述了最初进入这个领域进行探索的原由，并与我们分享了微软近期在计算机视觉方面的最新进展。

从去年开始， “人工智能”开始成为最热门的流行词。不仅仅是我们这些做研究的人，商务人士、电影人也对这个话题津津乐道，甚至还把它搬上了电影荧幕。

然而，你是否也曾担忧：有一天人工智能空前发展，衍生出人类无法控制的超级智能？目前，的确有一些人持有这样极端的看法。但作为一个科学领域的从业者，在我看来，人工智能更像是人类能力的补充，帮助我们拥有更强大的计算能力。

由于时间有限，今天我将对人工智能的一个代表领域——计算机视觉与你们进行深度探讨。我在这个领域做研究已有25年。接下来就让我们一起来看看最近在计算机视觉领域都有哪些有趣的事件和里程碑式的进展。

人工智能的研究之路要追溯到20世纪60年代早期，当时麻省理工学院（MIT）的Marvin Minsky教授提出，作为人工智能研究的一部分，我们应该试着把计算机和照相机连接起来，然后看看计算机会告诉我们哪些信息。我还记得当我进入卡内基梅隆大学（CMU）攻读博士学位时，我和我的导师沟通，希望可以进行计算机视觉领域的研究。他问及原因时我说，我了解到我们人类每天获取的信息有超过90%都是通过视觉系统来接收的，我希望可以在这方面有所突破。

但这的确是一条漫漫长路，如今我将要为你们展示的这些令人欣喜的成果，都是经由几代伟大的研究者们数十年的潜心钻研才得到的。去年夏天，我们第一次真正意义上向大家展示出我们创建的、可以识别不同种类的狗的系统。这个基于深度学习创建的分布式系统非常复杂，但也十分高效，它的识别效率较当时的领先技术提高了30倍。

如今我们可以辨别狗的种类，这已经是很了不起的一件事，尽管它实现的还不是那么的快。但仅仅几个月之后，我们就取得了另一阶段性成果——再次运用深层神经网络搭建的一个系统，在对上千种物体分类进行识别这一功能上，第一次真正意义上超过了人类。你可能会觉得图片分类靠我们人类自己就足以完成，但我们发现，当有成千的分类目录在你面前时，即使通过一定量的校对调整，我们还是会有近5%的错误率。因此我们让计算机的表现第一次真正超过了人类。

那么接下来我们就要开始思考我们要利用这些成果去做些什么？最终我们达成共识，希望通过与我们的开发者和合作伙伴分享这些API，使得从计算机视觉到机器学习的整个领域变得大众化。因此在上周的Build开发者大会上，我公布了一系列我们称为“Project Oxford”的API。你也可以简单把它理解为一个跨平台的API，因为它真的实现了帮助你搭建属于自己的应用，将智能的概念应用到你的数据分析和APP开发中。

不久前我们的一些开发人员用了不到一天的时间搭建了一个网站，初衷只是为了展示下我们已经实现了的酷炫实力。出人意料地，它竟然像病毒般传播开来——这就是最近在全球社交网络风靡的How-Old.net网站。如果你还没有尝试过，赶快去上传一张照片看看你的年龄是多少，并和你的朋友们分享吧！我最后一次查看数据的时候，仅仅几天这个网站在Facebook的分享量已经超过了130万次。

这是不是很令人振奋？但我们仍然在不懈努力着创造出更多计算机视觉方面非常有意思的成果。接下来我会为你们展示我们最近刚刚取得的一些成果，实际上，它们刚刚诞生才几个星期的时间——这就是细化到像素级精确度的物体识别和视频分割技术。

让我们先看一段视频……

我希望你们都可以感受到它的魅力。我在这个领域摸爬滚打了很长时间，深深体会着其中的艰辛，因此我真的为我们所取得的成果感到非常非常的骄傲。坦白讲，甚至仅在几年前都没有人可以想象我们会对物体识别和视频分割达到如此细化的精度。而这一切都是我们通过训练深层神经网络自动实现的。你仔细观察，就会看到其中的复杂程度——图片是室内还是室外，物体的大与小，以及不同光线条件下的区分。这之后还会有一系列有趣的应用。

接下来我来快速的为大家展示一些计算机视觉技术在不同领域的应用。医疗保健方面，你可以准确识别出假药，并通过观察病人的情绪、表达来判断他们是否真的需要帮助。当然你也可以将这项技术应用到其他不同的行业部门。例如现在那些在流水线上工作的机器人，大部分可以很精准、高效的完成工作，但它们并没有具备可视化的能力，因此还不能真正称之为智能。因此我们可以运用这项技术赋予它们这样的能力。

当然你无需专程跑到流水线上去感受计算机视觉带给我们的便利。在日常生活中，我们越来越关注每餐卡路里的摄入量是否超标。现在你可以创建一个应用，拍下你的食物照片，就可以根据图片的数据得到这顿饭摄入的卡路里总量。

那么让我们回到最初的那页幻灯片内容——Satya提出的三个愿景。你看到的仅是我们在微软研究院所做工作中很小的一部分，未来你将会看到我们在机器学习、增强现实技术和人工智能等方面更多的成果，来帮助人类建立更好的个人计算。我们将通过一系列新工具和可视化成果、新的用户接口和智能环境研究等，颠覆个人和企业的生产力。

你也会看到微软将诞生更多的颠覆性技术，因为我们创建了最智能、可靠的云平台，这里有良好的经济模型、完善的硬件和软件基础，还有最重要的是有帮助你们创建APP时的群体智慧。

让我们回到最初引用Arthur C. Clarke的那句话，但我想在他的基础上更进一步。我想说的是，任何伟大的技术都是影响我们于无形的。例如当计算来到云端后，便隐于无形，能力却变得更加强大；当机器学习发挥它最大效用时你甚至都没有注意到它，但我展示给你们的这些成果却是令人叹为观止的;用户体验是计算机与周围环境的综合体，我们虽然看不到这些计算机，但可以通过姿势、声音、面部表情和注视与它们进行互动，而这些也都是无形的。

在我看来，一场无形的变革正在推进着，我们正处在其中通过有趣的商业模型把恰当的技术应用到合适的产品中这样一个阶段。正如我们最近和Skype团队合作的Skype Translator，打破了人与人之间语言交流的障碍。未来我们将携手共创更多这样的奇迹

沈向洋：计算机的“眼”进化到哪一步了

相关帖子