深度学习:从 AI 到 True-AI
http://digi.163.com/15/0927/12/B4H3V0HD00162OUT.html深度学习:从 AI 到 True-AI2015-09-27 12:03:32 来源: cnbeta网站(台州)
分享到:
[*]
[*]
[*]
[*]
[*]
[*]
[*]
[*]
0
摘要:颜水成,现任360研究院负责人,前新加坡国立大学视觉分析研究室主任。由于在计算机视觉和多媒体通信等领域的杰出贡献,被授予新加坡青年科学家奖 (YSA)和青年教授研究成就奖。上个月颜水成加入奇虎360,并组建了一个研究院,把一些思想用到了360的产品线。关于人工智能的研究,颜水成有自己 的观点。http://img1.cache.netease.com/catchpic/6/60/60A9DD3C7DD7CBBD9C447A68100FBF53.jpghttp://img1.cache.netease.com/catchpic/B/B1/B130041C34752C87DBE0F344EE979B36.jpg人工智能是非常广泛的范畴,现在的研究分为三个层次:1、算法模拟神经元(Neuron),转换成电信号;2、算法模拟大脑(Human Brain),这里面有抽象的理解,并转变成电信号;3、算法自学习(Baby Learning),和周围环境接触过程中,智能水平会提高。这就像《超能查派》,最开始只有基本功能,当把人工智能植入的时候,它开始模仿人类,最后和人类的沟通就非常流畅。http://img1.cache.netease.com/catchpic/0/02/02FCCFE6CBAAD26EC1E24A553A482D9E.jpg在这种理解下,我们把人工智能分成两方面:Brain-Like 和 Baby-Like。Brain-Like 擅长做语音识别和人脸识别,Baby-Like 可以放在环境里自适应,做识别和理解。http://img1.cache.netease.com/catchpic/B/BD/BD056CBBC5C1681E02BCF6E5EBC29D15.jpg那么什么样的模型能达到这种效果?它会有多种状态,模式之间可以互相指导,例如图像指导语音,语音指导图像。它可以在不同层之间互相沟通,这时候就得用到深度学习的工具。http://img1.cache.netease.com/catchpic/3/31/31BE887DA824618C4F424FE6BC154CF1.jpg在深度学习上面,我们过去看到的是模型越大性能越好。在这里我想用iPhone的一个宣传口号:岂止于大。http://img1.cache.netease.com/catchpic/6/64/64CB49B4844AC59AD2FD9E85C643BAC3.jpg这里面有三个点:1、Pixel-to-Pixel Inference(像素到像素);2、Neuron Nonlinearity(非线性神经元);3、Feedback Strategies(回馈策略)。http://img1.cache.netease.com/catchpic/C/C9/C9ABC19A9681493982447AFF2C2E30DF.jpgPixel-to-Pixel Inference:在 P2P(Pixel to Pixel)上,这是一种端对端的训练,可以从 P2P 进入到 P2P-aware。http://img1.cache.netease.com/catchpic/2/23/23C2D72696E4A6E7E977FB2C75E4AAEE.jpg它还可以做图像分割,过去我们认为是不可能的,而现在由于加上了结构性模型,它也可以做到。http://img1.cache.netease.com/catchpic/8/82/821A234F60CBE90045455B1439A5DB46.jpg这样即便是一些有遮挡的图片,图像的模拟效果都还不错。http://img1.cache.netease.com/catchpic/7/78/78E9E347B7BEAFAADC28F8C06C4D1F86.jpgNeuron Nonlinearity:这方面最好用小网络来处理,去设计不同的尺寸。当你做的足够小的时候,就能更好的拟合它应该具备的功能。这样的话你就得到了 Network in Network,它就有很不错的性能。http://img1.cache.netease.com/catchpic/1/16/16B87B463B7EF62F06FEA142DF5B7E8E.jpg我们把 NIN 放到GoogleNet上面测试了一下,LFW( Labeled Faces in the Wild数据库,对应研究非受限情况下人脸识别问题)可以达到 99.7%,最好的百度已经能做到 99.8%。http://img1.cache.netease.com/catchpic/B/BC/BC1743AD0A2B6D8443B5F88561797E2F.jpg这是一个朋友,她上传了两张照片,左边和右边看起来其实差别很大,但在系统里面能够识别出是同一个人。http://img1.cache.netease.com/catchpic/4/43/43140D262802E8594BB55465F1798660.jpgFeedback Strategies:在Feedback层面,不同的Layer和Task之间可以做很多工作。假如每层的数据一样,很自然的它就是在上面逐步测试。这样虽然第一次调的不一定准,但它可以帮助网络,最终实现很高的性能。http://img1.cache.netease.com/catchpic/F/F9/F9B1DD1ED510011D7E61194ED140D5B3.jpg比如说给你一张图像,找出帽子、包和衣服。有些层的尺寸是一样的,我们就可以拿这些层做对比。http://img1.cache.netease.com/catchpic/A/A4/A4DEBE23A5D29B8CE2B3B61BD5EA3723.jpg还有一些小尺寸的维度,如果把这些也加入到网络里面,就会有比较好的提升。http://img1.cache.netease.com/catchpic/C/C3/C3A7C2F8EDFB8E8E38C6CB00ABCA75BD.jpg最后你可以把这些都合在一起,你可以得到连在一起的 Network。这样就能很好识别出哪个是眼镜、哪个是包、哪个是袜子。这些都能看得清楚。http://img1.cache.netease.com/catchpic/E/EE/EE7727F609439A6A39ECCA7A28E9BD5E.jpg从定量的角度说,它的性能会有很大的提升。如果用到高性能计算的GPU,基本可以处理到 20%,而且系统非常稳定。http://img1.cache.netease.com/catchpic/8/88/88C0C5916E53FB68524F2315DAB2E359.jpg有时候即便衣服是部分的,也可以识别出来。这方面的成功案例非常多。http://img1.cache.netease.com/catchpic/B/BF/BF20A2BB67A6E48AF99B2EF8C71F5890.jpg这部分是关于 Baby-Like 的研究,也是 True AI。http://img1.cache.netease.com/catchpic/0/03/03C97C7F98AF0379ADA704A17589FE48.jpg当你和真实世界进行交互的时候,其实会有自我学习在里面。这里面的核心是能够理解上下文。http://img1.cache.netease.com/catchpic/3/3E/3E87C4809A0EE29F501F461E80C8D9A0.jpgBaby-Like 是一种多特征的角度。包含了视觉、语音和自然语言理解。我们可以从过去的知识中,去学习和积累经验。http://img1.cache.netease.com/catchpic/8/86/864E28ABBE9A1B6427900B8E421A1FBE.jpg那么小孩是怎么学习的呢?他不需要太多的案例,只需要很小的训练样本(Prior Knowledge,先验知识),就能够在和真实世界的交互中,进行自学习。比如有了先验知识,当他看到了新事物(斑马),他会问妈妈说:这是一只马吗?http://img1.cache.netease.com/catchpic/0/06/0655949BBF20EBCE426E612ADF5573FC.jpg这张图是两种学习模式的抽象表示。http://img1.cache.netease.com/catchpic/A/A1/A11C1291B56C84B64D8ADA66D2041C29.jpg相比起来,Prior Knowledge(先验知识,指先于经验的知识)的模式取得了不错的成绩,它的性能指标从 53% 上升到了 56%。http://img1.cache.netease.com/catchpic/3/39/398097D0A3B9EAA69B163ABA9DD6A8EA.jpg这是Baby Learning 在脸部识别的应用,通过观看录像进行自我学习。http://img1.cache.netease.com/catchpic/4/46/4629B51B40F173D7A1EA6088821EA4BE.jpg
目前来说,基于注释的数据 Deep Learning,这是一种比较成熟的技术。但是未来的希望肯定会是 Baby Learning。它会有聪明的办法,在缺少或者弱标签的情况下学习,而且可以和人们的学习机制一致,包括自学习和终生学习的理念
很受启发,估计未来五年之内 相关成果会大量出来吧。
页:
[1]