李彦宏在今天的联想TechWord大会上展示了百度最新的Image QA图文问答技术,图像问答技术是百度IDL研究院最新技术成果,通过优异的语音和图像识别功能,百度大脑完全根据自身对图片的认知,以及对于人类提问的理解,自行判断并且组织语言给出答案,这体现出了百度在人工智能领域的最新进展,也体现出了对人工智能各项技术,比如说语音识别、图像识别和问答系统的有效综合。
推出这样的图文问答技术,首先需要图像识别技术的积累。图像识别是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。简单来说,就是让机器能够通过对感知信息的处理像人类一样读懂图片的内容,而不是只看到像素。目前,伴随着图片成为互联网中的主要信息载体,难题随之出现。当信息由文字记载时,我们可以通过关键词搜索轻易找到所需内容并进行任意编辑,而当信息是由图片记载时,我们却无法对图片中的内容进行检索,从而影响了我们从图片中找到关键内容的效率。图片给我们带来了快捷的信息记录和分享方式,却降低了我们的信息检索效率。在这个环境下,计算机的图像识别技术就显得尤为重要。
这也是众多科技巨头在这方面投入重大研发资源的原因,Google在收购Jetpac后,他们的图形识别引擎不仅仅能够识别出照片的对象,还能够对整个场景进行简短而准确的描述。Facebook在Yann LeCun的帮助下也发布了识别率达到97.25%的人脸识别系统DeepFace,并将图像识别技术应用在了社交网络的图片搜索中,正在开发一个智能助手,如果用户上传的照片中又令人尴尬的内容会进行识别和提醒。百度在此之前也发布了许多在图像识别领域取得的进展,推出了云端图像识别功能和基于模拟神经网络的“智能读图”,可以使用类似人脑思维的方式去识别、搜索图片中的物体和其他内容。在人脸识别方面,吴恩达在IT领袖峰会上称, Google的6000对人脸识别错误百分比为0.37%,百度为0.16%。此外,百度还加洲大学洛彬矶分校(UCLA)合作研发了一种人工智能系统,其可以学习识别图片细致的视觉特点以及与之相关的文字,进而将二者整合为词典收录在数字大脑中。
其次,除了图像识别之外,还需要一种更加智能化的交互体系,传统的交互是需要用户进行手工输入和操作,这其实不是效率最高的方式,而语音识别技术的研究恰恰是为Image QA图文问答提供了一种全新的交互方式。李彦宏早在去年就表示,未来五年语音图像搜索会超过文字,而目前百度10%的搜索请求来自语音搜索。可以预见的是,随着语音识别,我们在进行人机交互时会越来越倾向使用语音,而非手动操作。从本质上来说,语音是一种较为底层的入口类工具,可以成为智能手机以及接下来智能可穿戴式设备的核心功能,它会成为一切互联网的触发点和我们与机器进行交流的最为重要的途径。借助语音命令,我们可以进行搜索,获得O2O服务,等等。而百度在语音识别计算方面也有着深厚积累,百度在国内最先上线了语音识别界领先的基于长短时记忆模型(LSTM)的深度学习技术,使得安静环境下普通话识别的错误率降低了15%,目前的识别率已经从95%提升到96%。”百度开发的Deep Speech是一款采用深度学习技术的语音识别系统系统,在嘈杂环境下实现将近 81% 的辨识准确率。
第三,还需要自然语言处理和语义理解技术的支撑。因为不仅要让机器对用户的语音进行识别,还需要理解用户语言的含义,只有这样,机器才能真正成为一个智能化的助手,才能真正实现用户的机器之间的那种语音交互。百度在自然语言处理方面也积累了一些研究成果,
比如刚刚发布了融合统计和深度学习方法的在线翻译系统。核心是一个拥有无数结点(神经元)的深度神经网络。一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以“理解”的表示形式,再经过多层复杂的传导运算,生成另一种语言的译文。
Image QA图文问答技术其实只是一个开始,它代表着人工智能技术的实际应用以及各项人工智能技术的融合,对于我们自身来说,我们对于外界的感知主要就是来源于视觉、听觉和语义理解,当人工智能的图像识别、语音识别、自然语言处理等技术发到的一定程度并可以进行融合和交叉时,我们就可以用这些综合技术去完成那些以前只能靠人类自身才能完成的真正智能化的工作,这是人工智能发展的必然趋势,也是用户需求的自然延伸。其中的图像识别技术会为我们自身的人类视觉提供强有力的辅助和增强,让机器帮助我们获得某些视觉信息,而语音识别则是带给我们一种全新的与机器的交互方式,让我们能够更加方便的启动这个需求,自然语言处理是让机器能够更懂我们,以一种真正智能化的方式反馈给我们服务。将这些综合起来其实是一个可以帮我们处理更多事情的智能化助手,而这将逐渐渗透在我们的智能手机、可穿戴设备、自动驾驶汽车和机器人当中,不管这些硬件载体如何更迭,这类技术都将成为其中永恒不变的灵魂