AI100_机器学习日报 2017-11-01 神经网络模型压缩和加速方法综述

解应春BW · 发表于 2017-11-7 15:05:40

AI100_机器学习日报 2017-11-01

神经网络模型压缩和加速方法综述 @东北大学自然语言处理实验室
神经网络基础知识：激活函数以及损失函数 @wx:
百度发布 Deep Speech 3，不同应用场景下轻松部署高精度语音识别模型 @wx:晓凡
深度网络图像分割通俗指南 @爱可可-爱生活
ROC曲线——分类器的性能表现评价 @大数据_机器学习

@好东西传送门出品,由@AI100运营， 过往目录 见http://ai100.com.cn

订阅：关注微信公众号 AI100（ID：rgznai100，扫二维码），回复“机器学习日报”，加你进日报群

邮件版包括11条，本期的Web版有完整内容15条

用日报搜索找到以前分享的内容： http://ml.memect.com/search/

今日焦点 (5)

东北大学自然语言处理实验室 网页链接 2017-11-01 11:18
深度学习算法神经网络
这篇论文讨论了深度神经网络模型压缩和加速方法综述，分为四类：参数修剪和共享、低秩分解、迁移/压缩卷积滤波器和知识精炼等。基于参数修剪和共享的方法关注于探索模型参数中冗余的部分，并尝试去除冗余和不重要的参数。基于低秩分解技术的方法使用矩阵/张量分解以估计深层 CNN 中最具信息量的参数。...全文： http://m.weibo.cn/2838423930/4169233909019673

[img=20,20][/img] wx: 网页链接 2017-11-02 06:52
深度学习算法自然语言处理 Kaiming He 分类回归可视化神经网络
「干货|神经网络最容易被忽视的基础知识二-激活函数以及损失函数知识」上篇讲解了神经网络最容易被忽视的基础知识一干货|神经网络最容易被忽视的基础知识一上图可看做普通的线性分类器，也就是线性回归方程。这个比较基础，效果如右图。当然有时候我们发现这样的线性分类器不符合我们要求时，我们很自然的想到那我们就加多一层，这样可以拟合更加复杂的函数，如下图a：但同时当我们动笔算下, 就会发现, 这样一个神经网络组合起来,输出的时候无论如何都还是一个线性方程。如上图b右边，就只能这样分类。（那也太蠢了吧）。下图表示一层加如激活函数的情况！一层很多时候是远远不够的，前面讲过，简单的线性分类器就可以看成是一层的神经网络，比如上图，激活函数是signmoid，那就可以看成是二分类的逻辑回归！下面扩展到多层，如下图1,2：图1是一个简单的MLP（全链接神经网络），图2的右边课简单表示左图的可视化，那么对比之前的无激活函数的图，很明显是更加的非线性，拟合能力也会更强，同时可以想到，当层数更多，其能力也会越来越强！简单来说：就是使得神经网络具有的拟合非线性函数的能力，使得其具有强大的表达能力！简单扩展，神经网络的万能近似定理:一个前馈神经网络如果具有线性层和至少一层具有"挤压"性质的激活函数（如signmoid等），给定网络足够数量的隐藏单元，它可以以任意精度来近似任何从一个有限维空间到另一个有限维空间的borel可测函数。要相符上面的定理，也就是想拟合任意函数，一个必须点是“要有带有“挤压”性质的激活函数”。这里的“挤压”性质是因为早期对神经网络的研究用的是sigmoid类函数，所以对其数学性质的研究也主要基于这一类性质：将输入数值范围挤压到一定的输出数值范围。（后来发现，其他性质的激活函数也可以使得网络具有普适近似器的性质，如ReLU 。优点：有较好的解释性缺点：1.Sigmoid函数饱和使梯度消失。sigmoid神经元有一个不好的特性，就是当神经元的激活在接近0或1处时会饱和：在这些区域，梯度几乎为0。2.输出不是零中心的，这一情况将影响梯度下降的运作，因为如果输入神经元的数据总是正数，那么关于w的梯度在反向传播的过程中，将会要么全部是正数，要么全部是负数，这样梯度下降权重更新时出现z字型的下降。这样收敛会变得异常的慢。（这也是为什么要一直保持为数据的0中心化）—–但这个问题比较小3.exp（）在深度神经网络时候相比其他运算就比较慢优点：1.它的输出是零中心的。因此，在实际操作中，tanh非线性函数比sigmoid非线性函数更受欢迎。缺点：1.和Sigmoid函数一样，饱和使梯度消失。计算慢优点：1.ReLU对于随机梯度下降的收敛有巨大的加速作用（ Krizhevsky 等的论文alexnet指出有6倍之多）。据称这是由它的线性，非饱和的公式导致的；2.注意：现在大部分的DNN用的激活函数就是ReLu缺点：1.当x是小于0的时候，那么从此所以流过这个神经元的梯度将都变成0；这个时候这个ReLU单元在训练中将死亡（也就是参数无法更新），这也导致了数据多样化的丢失（因为数据一旦使得梯度为0，也就说明这些数据已不起作用）。优点：1.非饱和的公式;2.Leaky ReLU是为解决“ReLU死亡”问题的尝试缺点：1.有些研究者的论文指出这个激活函数表现很不错，但是其效果并不是很稳定Kaiming He等人在2015年发布的论文Delving Deep into Rectifiers中介绍了一种新方法PReLU，把负区间上的斜率当做每个神经元中的一个参数。然而该激活函数在在不同任务中均有益处的一致性并没有特别清晰。 Maxout是对ReLU和leaky ReLU的一般化归纳优点：1.拥有ReLU单元的所有优点（线性操作和不饱和），而没有它的缺点（死亡的ReLU单元）缺点：1.每个神经元的参数数量增加了一倍，这就导致整体参数的数量激增。难训练,容易过拟合转自：机器学习算法与自然语言处理完整内容请点击“阅读原文” via: http://mp.weixin.qq.com/s?__biz= ... e=0#wechat_redirect

[img=20,20][/img] wx:晓凡 网页链接 2017-11-02 00:26
经验总结深度学习视觉算法语音自然语言处理博客产业行业动态论文神经网络王蓁
「动态 | 百度发布 Deep Speech 3，不同应用场景下轻松部署高精度语音识别模型」AI 科技评论按：美国时间10月31日，百度研究院发出博文，宣布发布新一代深度语音识别系统 Deep Speech 3。继2014首秀的第一代Deep Speech和被MIT科技评论评为“2016年十大突破技术之一”的 Deep Speech 2之后，百度再一次展现出自己的研究水平以及技术应用的愿景。AI 科技评论把百度研究院这篇博文编译如下。准确的语音识别系统是许多商业应用中不可或缺的一环，比如虚拟助手接收命令、能理解用户反馈的视频评价，或者是用来提升客户服务质量。不过，目前想要构建一个水平领先的语音识别系统，要么需要从第三方数据提供商购买用户数据，要么就要从全球排名前几位的语音和语言技术机构挖人。百度研究院的研究人员们一直都在努力开发一个语音识别系统，它不仅要有好的表现，而且系统的构建、调试、改进的时候都只需要一支语音识别入门水平、甚至完全不了解语音识别技术的团队就可以（不过他们还是需要对机器学习有深入的理解）。百度的研究人员们相信，一个高度易用的语音识别流水线可以让语音识别平民化，就像卷积神经网络带来了计算机视觉领域的革命一样。在这个持续的努力过程中，百度首先开发出了第一代Deep Speech，这是一个概念验证性的产品，但它也表明了一个简单模型的表现就可以和当时顶尖模型的表现相媲美。随着Deep Speech 2的发布，百度表明了这样的模型对不同的语言具有良好的泛化性，并开始把它部署在许多实际应用中。10月31日，百度的硅谷AI实验室发布了Deep Speech 3，这是下一代的语音识别模型，它进一步简化了模型，并且可以在使用预训练过的语言模型时继续进行端到端训练。在论文中，百度研究院的研究员们首先对三个模型进行了实证比较：Deep Speech 2的核心CTC、其它一些 Listend-Attend-Spell 语音识别系统中使用的基于注意力的Seq2Seq模型，以及端到端语音识别中应用的RNN变换器。这个RNN变换器可以看作一个编码器-解码器模型，其中假设输入和输出标识之间的对应关系是局部的、单调的。这就让RNN变换器的损失比基于注意力的Seq2Seq更适合用于语音识别（尤其在互联网应用中），它去除了带有注意力的模型中用来鼓励单调性的额外剪枝。并且，CTC需要一个外部的语言模型用来输出有意义的结果，RNN变换器就不需要这样，它可以支持一个纯粹由神经网络构成的解码器，模型的训练和测试阶段之间也不会产生错位。所以自然地，RNN变换器比CTC模型具有更好的表现，都不需要一个外部的语言模型。Seq2Seq和RNN变换器无需外部语言模型就可以达到良好表现的状况也提出了一个挑战。语言模型对语音识别很关键，因为语言模型可以用大得多的数据集快速训练；而且语言模型可以对语音识别模型做特定的优化，让它更好地识别特定内容（用户，地理，应用等等），同时无需给每一类的内容都提供有标注的语音语料。百度的研究人员们在部署Deep Speech 2的过程中发现，这后一条特点对用于生产环境的语音识别系统来说尤其重要。为了支持这些应用场景，百度开发了Cold Fusion，它可以在训练Seq2Seq模型的时候使用一个预训练的语言模型。百度在论文中表明，带有Cold Fusion的Seq2Seq模型可以更好地运用语言信息，带来了更好的泛化效果和更快的收敛，同时只需用不到10%的标注训练数据就可以完全迁移到一个新领域。Cold Fusion还可以在测试过程中切换不同的语言模型以便为任何内容优化。Cold Fusion能够用在Seq2Seq模型上的同时，它在RNN变换器上应当也能发挥出同样好的效果。这样，RNN变换器的损失和利用语言模型的Cold Fusion一起构成出了语音识别的下一个前沿。百度的研究人员们也会继续探索未来，期待看到这些技术带来更大的进步。相关论文： Exploring Neural Transducers for End-to-End Speech Recognition（ASRU 2017收录论文）： https://arxiv.org/abs/1707.07413 Cold Fusion: Training Seq2Seq Models Together with Language Models： https://arxiv.org/abs/1708.06426 AI 科技评论编译————— 给爱学习的你的福利 —————随着大众互联网理财观念的逐步普及，理财规模随之扩大，应运而生的智能投顾，成本低、风险分散、无情绪化，越来越多的中产阶层、大众富裕阶层已然在慢慢接受。王蓁博士将以真实项目带你走上智能投顾之路，详情请识别下图二维码或点击文末阅读原文～———————————————————— via: http://mp.weixin.qq.com/s?__biz= ... e=0#wechat_redirect

爱可可-爱生活 网页链接 2017-11-01 05:52
深度学习视觉
【深度网络图像分割通俗指南】《A Non-Expert’s Guide to Image Segmentation Using Deep Neural Nets》by Rohan Relan @hanrelan/a-non-experts-guide-to-image-segmentation-using-deep-neural-nets-dda5022f6282">[url]http://t.cn/RWs1jIP[/url] pdf:http://t.cn/RWs1jIh

大数据_机器学习 网页链接 2017-11-01 02:25
算法自然语言处理 R语言分类集成学习
R语言︱ROC曲线——分类器的性能表现评价 >>>> 相关内容：1、 R语言︱ROC曲线——分类器的性能表现评价2、机器学习中的过拟合问题3、R语言︱机器学习模型评估方案（以随机森林算法为例）———————————...法最后都会有一个预测精度，而预测精度都会写一个混淆矩阵，所有的训练数据都...全文： http://m.weibo.cn/5291384903/4169099807910770

最新动态
[img=20,20][/img] wx: 网页链接 2017-11-01 20:14
公告板会议活动深度学习视觉算法应用资源自然语言处理 Chris Rowen Geoffrey Hinton James Vincent Yann Lecun 广告系统行业动态华先胜会议活动机器翻译机器人贾佳亚强化学习神经网络书籍孙剑王永东智能汽车
「【LeCun专访】别再拿“终结者”说事儿，人们过度解读Hinton的话」【AI WORLD 2017世界人工智能大会倒计时 7 天】在2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上，我们邀请到微软全球资深副总裁，微软（亚洲）互联网工程院院长王永东发表演讲，他将介绍《未来AI的点定义》。此外，在计算机视觉这一领域，阿里巴巴副总裁、iDST副院长华先胜，旷视科技Face++首席科学家、旷视研究院院长孙剑博士，腾讯优图实验室杰出科学家贾佳亚教授，以及硅谷知名企业家、IEEE Fellow Chris Rowen等多位领袖将共论人脸识别等前沿技术。抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026大会官网：http://www.aiworld2017.com 新智元编译来源：The Verge作者：James Vincent编译：Cecilia【新智元导读】Yann LeCun近日在接受The Verge采访时表示，近期到中期范围内，人工智能并不具备危险，“AI终结者”的言论完全是错的。人工智能若要发展到婴儿水平的智商，还有漫漫长路。 Yann LeCun是AI界最负盛名的人之一。所以当他说目前人工智能的最新进展并没有使我们更接近于超级智能时，您就需要注意了。 LeCun已经在AI界工作了数十年，并且是卷积神经网络的共同发明者之一。现在，作为Facebook AI研究机构FAIR的负责人，他帮助AI从实验室走向现实世界。其团队研发的软件能够自动为盲人用户描述照片，每天机器翻译次数达45亿次。 Facebook使用人工智能为盲人用户／视觉受损用户提供照片描述。用户在iOS设备上使用这款屏幕阅读器时，该工具可对照片进行自动文本处理，从而让用户听到照片上的内容描述。 Facebook为用户提供自动翻译功能。 “我们对产品的影响比Zuckerberg预期的大。”LeCun近日表示。但是，正如他在采访中所解释的那样，很明显人工智能在达到婴儿甚至动物的智商之前，仍然有很长的路要走。 LeCun 会因为我们不在文章中使用类似“终结者”的配图而感到高兴。 Q: 最近关于Facebook AI工作的最大新闻之一是“AI机器人” 在发明自己的语言后遭到关闭。有很多报道严重歪曲了最初的研究。你和同事如何应对这些报道？第一次看到时，会笑。当这种报道被广泛传播后，我们的感觉就像被扯住头发一样痛苦：“他们完全错了！” 这件事启发了我们，我们了解到媒体所能造成的影响，也明白了我们能有好几种应对方法。我在Facebook上发表了一个帖子，试图以幽默的方式说明这很荒谬。我们和一些注重新闻真实性的记者交谈，并写了一些报道，表明之前的报道完全失实陈述。 Q:在过去几年中，您认为这种报道变得更多还是更少了？少一些。感觉媒体人士和公众在逐渐了解事实。之前，关于人工智能的新闻里配图永远是终结者。百分之百。现在少了很多，这是一件好事。但偶尔也会出现完全误读的报道。 Facebook Prineville数据中心 Q:当你看到这种报道时，你想跟公众解释清楚哪些内容？每当我和公众进行交谈时，我都会重复一遍：我们离建立真正的智能机器还很远。你现在看到所有AI的成就，如无人驾驶、自动医学图像识别、AlphaGo击败围棋冠军等，都是非常局限的智能。它们是为特定的目的进行训练。我们能够做到这些是因为可以为它们收集很多的数据来做训练。我并不是说DeepMind在AlphaGo上所做的工作不重要，但是人们将AlphaGo的发展解读为通用智能的重要一步，是错误的。一台机器赢得了人类棋手，不代表很多机器人能在街上跑来跑去。这是两个完全分离的问题。其他人可能会有别的看法，但这是我个人的意见。距离机器以人类和动物的方式学习最基本的事情还很远。的确，机器在某些领域具有超人的表现。但在通用智能方面，甚至比不上一只老鼠。因此很多人的提问都为时过早。这不代表我们不应该考虑这些问题，而是因为在眼下甚至中期人工智能都没有什么危险。 AI的确存在着一系列风险，但绝不是终结者。 Q：DeepMind谈起AlphaGo的工作时，提到了他们创建的算法可用于科学研究（蛋白质折叠和药物研究）。你认为在世界其他领域应用这种技术容易吗？ AlphaGo使用强化学习。强化学习适用于游戏; 它适用于只有少量离散动作的情况，并且它能够运行是因为它需要大量试验来运行复杂的操作。AlphaGo Zero（AlphaGo的最新版本）在几天或几周内打过数百万场围棋比赛，这远远超过了几千年来围棋大师下过的围棋局数总和。这是很有可能的。因为围棋是一个非常简单的环境，你可以在多台计算机上以每秒几千帧的速度进行模拟。但是，这在现实世界中不起作用，因为你不能比时间跑得更快。解决这个问题的唯一办法就是让机器能够通过学习建立自己的内部世界模型，从而模拟比真实时间还快的世界。我们缺少的关键科学技术是如何用机器建立世界模型。举个例子，当一个人学开车时，他有一个真实世界的模型。这会让他意识到，如果他开错路或撞到树，就会发生不好的事儿，这并不是一个好主意。我们有一个很好的整体模型，即使我们在开车时，我们知道：在道路上开车，不要冲下悬崖或者撞到树上。但是，如果你使用纯粹的强化学习技术，用模拟器训练出一套系统来驾驶汽车，那么在撞了四万次树之后，它才能意识到这样做是不对的。所以需要强调：“强化学习是智能进步的关键”这种观点是错误的。 Q: 你是否认为，AI仍然缺少一些基本工具来克服目前的局限性？ AI先驱Geoffrey Hinton 最近提到了这个话题，他说这个领域需要“把它全部丢弃，重新开始” 我认为人们对他的话有点过度解读，（但）我完全同意（我们需要更多的AI基础研究）。例如，Hinton喜欢的模型之一就是他在1985年提出的一个名叫Boltzmann的机器。对他而言，这是一个美丽的算法，但实际上它并不好用。我们想要找到的东西，不仅要具有Boltzmann机器般的优美性和简单性，还要有反向传播的效率（用于优化AI系统的一种计算）。这正是我们许多人（Bengio,Geoff和我）在21世纪初期重新开始研究深度学习时一直求索的。让我们惊讶的是，最终在实践中奏效的是深度网络。 Q: 因此，鉴于AI的巨大变化，您认为短期内对消费者来说，用处最大的是什么？ Facebook在这方面的计划是什么？我认为虚拟助手会成为爆点。目前的助手大多数基于脚本化和一些可能答案树形结构，从而回答用户的问题。尽管机器人在某些场景下能发挥作用，如客户服务，但创建那种机器人真的很乏味，昂贵和脆弱。下一步将是具有学习能力的系统，这是Facebook正在做的。当你有一台能够阅读长文本并且回答相关问题的机器，这就很有用了。接下来一步就是是常识，机器与人有相同的背景知识。但是，除非能找到一些方法来让机器通过观察来了解世界如何运行（比如看视频或看书），否则我们做不到。这就是未来几年的关键科技挑战。我称之为预测学习，有人称之为无监督学习。在接下来的几年里会有不断的进步，虚拟助手变得越来越有用，人们和它们交流也会越来越不费劲。它们将拥有更多的背景知识，并为人们做很多设计者没有写到脚本中的事情。Facebook对此非常感兴趣。 Facebook 正大力研发虚拟助手，但目前仍远落后于亚马逊 Alexa 等竞争对手原文地址：https://www.theverge.com/2017/10 ... ann-lecun-interview 11月8日，欢迎来新智元世界人工智能大会，深入了解AI 技术进展和产业情况，马上抢票！【AI WORLD 2017世界人工智能大会倒计时 7 天】点击图片查看嘉宾与日程。抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026AI WORLD 2017 世界人工智能大会购票二维码： via: http://mp.weixin.qq.com/s?__biz= ... e=0#wechat_redirect

爱可可-爱生活 网页链接 2017-11-01 17:52
深度学习
《目前深度学习在量化投资领域应用的程度如何？ - 知乎》 http://t.cn/Rl7AXGG

爱可可-爱生活 网页链接 2017-11-01 17:40
视觉应用代码机器人
【Keras实现的RetinaNet目标检测】“Keras RetinaNet - Keras implementation of RetinaNet object detection” by Delft Robotics GitHub: https://github.com/delftrobotics/keras-retinanet

机器之心Synced 网页链接 2017-11-01 17:17
深度学习行业动态
【终于！TensorFlow引入了动态图机制Eager Execution】PyTorch 的动态图一直是 TensorFlow 用户求之不得的功能，谷歌也一直试图在 TensorFlow 中实现类似的功能。Google Brain 团队发布了 Eager Execution，让 TensorFlow 开发变得简单许多。http://t.cn/RlhD9XW

网路冷眼 网页链接 2017-11-01 12:30
经验总结自然语言处理博客情感分析
【Machine learning of neural representations of emotion identifies suicidal youth】http://t.cn/RlPaQXO 对情绪的神经表征的机器学习识别出自杀的青少年。

爱可可-爱生活 网页链接 2017-11-01 06:10
算法自然语言处理 Jason Brownlee 神经网络统计
【统计语言模型与神经网络语言模型简介】《Gentle Introduction to Statistical Language Modeling and Neural Language Models | Machine Learning Mastery》by Jason Brownlee http://t.cn/RWsBBMJ