【独家·观点】机器识别：感知世界的缤纷、嘈杂与律动

贾伟中科院合肥 · 发表于 2015-11-19 15:07:45

【独家·观点】机器识别：感知世界的缤纷、嘈杂与律动原创 2015-11-19 思想坦克 [url=]思想坦克[/url]

★思想坦克原创★

感知能力对于智能机器人来说无疑非常重要，机器识别便是感知能力的重要因素。如果把深度学习看做智能机器人的大脑，那么各种传感器就是机器人的五官和四肢。这些“能力”综合起来就让钢铁做成的冰冷机器人有了像人类一样温度，也让它有了感知这个世界的能力。

传统的人工智能，尤其是符号学派，往往重视的是机器的抽象思维能力和逻辑推理能力，其目的在于问题求解和提供决策建议。也就是说，传统人工智能更加重视模拟人类的思维能力而非感知能力，但其发展结果与当初“模拟人类智能”初衷南辕北辙。哪怕机器求解能力再强，我们也仅能制造出“终极机器”，但它却不会意识到自己的存在。

人工智能学家越来越意识到感知能力重要性，机器识别便是感知能力重要因素。如果说深度学习是人工智能机器人的大脑，那么各式各样的传感器就是机器人的五官与四肢，它们不断地为大脑提供着经验材料。机器人需要先睁开“眼睛”看世界，然后才能根据“眼睛”传来的信息进行分析和总结，进行抽象与判断——我们不需要闭着眼睛做梦的机器人。另一方面，机器识别不仅是机器对自然界的感知，更是对人类的感知。你我肯定不希望机器看待人类就像看待砖头一样，那么冷漠，那么无动于衷。我们希望机器与人类展开互动，这样机器识别就在人机交互领域有了更高的要求。

而在目前，随着各种各样传感器的发明，以及配套算法的革新，人类为机器不仅装上了五官和四肢，还插上了三头六臂。机器有能力识别人类无法查知的特征与信息，且更加迅速准确。那么，这些先进的机器识别技术到底有哪些？又是如何实现的呢？

下面就为大家介绍几种常见的机器识别技术——

3.3.1机器视觉

人类大脑通过视觉获得的信息占总信息量的80%以上。而大脑中有接近1000亿个神经元，它们绝大多数只做一件事情，就是处理我们的视觉信息。

拥有视觉的意义在于三方面：首先，视觉的存在促进了主体对事物概念的形成。物体在三维空间中存在，其呈现的形状、颜色等特征复杂多样，把握住视觉，就能很大程度上把握事物的概念，对事物进行归纳分类，形成抽象思维；第二，视觉不像触觉，主体可以运用视觉进行远距离感知，从而对环境进行预判，控制自己的活动；第三，由于人类通过文字进行信息交流，通过表情进行情感表达，拥有视觉意味着拥有了沟通能力的重要基础。

而机器视觉，是指用计算机来模拟人的视觉功能，用计算机来实现对客观的三维世界的识别。机器视觉应包含图像获取能力、处理分析能力、输出显示能力。摄像机具有图像获取能力和图形处理系统处理分析能力，但机器视觉技术强调的是以上能力的综合性、准确度、及时性。通过对三维物体形状、颜色、尺寸、距离、质地和运动特征的理解，机器视觉要对物体进行信息收集、识别区分、理解记忆、分析综合、预判决策，最后达到控制行为与活动的目的。

在硬件组成上，机器视觉系统一般由摄像机、图像摄取装置（CCD或者CMOS）、采集卡、照明、计算机、外围运动控制部分组成。机器视觉系统通过摄像机抓取目标图像，将被摄取目标转换成图像信号，传送给专用的图像处理系统，根据像素分布和亮度、颜色等信息，转变成数字化信号；图像系统对这些信号进行各种运算来抓取目标的特征，并通过计算机做出分析判断，最终实现控制机器动作的功能。

在以往，机器视觉系统往往被用于制造业中的质量检测、工况（设备在和其动作有直接关系的条件下的工作状态）监视等领域。较高的技术壁垒和高昂的成本，使其应用范围局限在工业自动化行业。但如今，随着图像摄取装置等传感器成本的下降，以及人工智能、模式识别技术的成熟，机器视觉被越来越多地用在娱乐、交通、医疗等与人们日常生活息息相关的领域。

如果你是一个游戏爱好者，你肯定对微软的Kinect体感外设不会陌生。它是一款基于微软XBOX360游戏平台研发的3D体感摄影机。它通过动态捕捉、影像识别、语音识别等功能，获取游戏者的肢体活动信息和语言信息，能够在屏幕上反映出相应的动作，与游戏世界中的事物形成交互。它甚至可以捕捉到游戏者动作的深度和力度，使游戏中“3D化身”的动作更加灵敏和逼真，给用户带来了更加真实有趣的游戏体验。

在交通领域，机器视觉最常见的应用就是倒车雷达了。当然，自动泊车、自动巡航等辅助驾驶系统也在慢慢普及。而机器视觉便是汽车感知外部世界的关键所在。当然，要说机器视觉为人类交通出行带来的最大变革，那还得提到无人驾驶汽车。目前，包括谷歌公司在内的众多汽车厂商纷纷将目光集中于无人驾驶汽车技术和相关解决方案。机器视觉、算法以及控制，是无人驾驶汽车的三大技术难关，但目前已被人们一一解决，机器视觉令机器低风险的自主活动成为可能。

在医疗领域，尤其是外科手术中，机器视觉延伸了医生的视觉，确定了手术区域和坐标系，提高了精准度和稳定性。目前，医生借助机器视觉技术可以完整地做到“为葡萄剥皮而不会伤到果肉分毫”。机器视觉的成熟，也必然会使医疗机器人发展为一种重要的医疗手段。

3.3.2指纹识别

指纹识别，具有悠久而光辉的历史。1891年英国科学家高尔顿（Galton）提出了著名的高尔顿指纹分类系统，由此指纹识别开始广泛用于犯罪侦查、身份认证等工作之中，令无数犯罪份子无处遁形。20世纪60年代，随着计算机和信息技术的发展，FBI和法国巴黎警察局研究开发了指纹自动识别系统（AFIS），从此人类的身份问题便与机器指纹识别技术的发展息息相关。

指纹具有唯一性和稳定性，而且相比于其他体征，指纹在测量上更加方便迅速。指纹的另一个特点还在于，通过汗液等介质，它可以留存于许多物体之上。而汗液中亦含有氨基酸等化学物质，不会随水分蒸发而消失，指纹痕迹往往是犯罪侦查的关键物证。

机器指纹识别，是指机器收集手指皮肤的脉络纹理、大小粗细等特征信息，将之与留存于数据库的信息进行对照，从而进行同一性认定。机器指纹识别是人工智能中模式识别的一种具体应用。借助先进的指纹传感器和成熟的算法，机器指纹识别已经成为生物检测和身份认证中应用最广泛、社会价值最大的识别技术。

随着现代社会对人类身份意识和隐私权的愈加重视，机器指纹识别基于其高安全性和便捷性，开始被普遍应用于安防、企业及社会管理、移动支付等领域。比如在手机解锁功能上，从iPhone 6开始，其home键上便集成了指纹识别系统，手机解锁不必再输入密码，方便快捷，凸显人性化。想必以后的智能手机，指纹解锁将成为主流。

而利用机器指纹识别技术所做的最令人“痛恨”的发明，非指纹考勤机莫属——众多白领和工人们都逃不掉这台机器的无情监督。不过从另一个角度来看，指纹识别考勤机是对抗人类懒惰与罪恶的最佳发明。

3.3.3语音识别

语音识别是人工智能学科中自然语言处理的研究组成部分，是模式识别的重要分支。语音识别的研究目标在于让机器知道人类到底说了些什么？其表现在于令机器可以分析、理解、生成、检索、变换及翻译人类语音，并转变为相应的文本或命令。这是人工智能领域基础中的基础，在实现语音识别之后，人类语言背后所传达的信息才能被机器理解和处理，否则就会造成答非所问、对牛弹琴的窘境。

语言不仅是人类思想的载体，更能传达人类的生理状况、情感波动等信息。人类智能的神奇之处，在于我们能察觉到语言背后的隐含信息。而这就令语音识别的研究横跨语言学、心理学、生理学、计算机科学、信号学。我们希望高级的语音识别总有一天能更加体贴，会察觉并理解语言的“背书”。

语音识别的研究工作大约开始于20世纪50年代，当时AT& T Bell实验室实现了第一个可识别10个英文数字的语音识别系统——Audry系统。进入20世纪70年代后，人们展开了大规模语音识别研究，并在小词汇量以及孤立词的识别方面取得重大进展。而连续语音识别技术的重大进步则是20世纪80年代人工神经网络的复兴和隐马尔科夫模型（HMM）等算法广泛应用的结果。

今天，语音识别技术已日趋成熟，大规模商业化运作已经展开并创造了巨大的经济价值。苹果Siri、微软小冰以及Cortana等语音助手早已深入人心，有的甚至已经融入我们的生活，成为了我们不可或缺的重要工具。就连我们最常用的微信语音功能也运用了语音识别技术。

语音识别是目前我们最常接触到的人工智能成果，它令机器理解人心不再是幻想，我们也越来越在机器的身上看见了人类的影子。将来的机器人不一定会是人类的形象，但你一定希望它讲着人类的语言。语音识别将架起人类与机器沟通的桥梁。

——本文摘自《智能爆炸：开启智人新时代》一书

作者：王汉华、刘兴亮、张小平