AI100_机器学习日报 2017-10-16 理解情感：从 Keras 移植到 pyTorch

解应春BW · 发表于 2017-10-20 15:24:36

AI100_机器学习日报 2017-10-16

@好东西传送门出品,由@AI100运营， 过往目录 见http://ai100.com.cn

订阅：关注微信公众号 AI100（ID：rgznai100，扫二维码），回复“机器学习日报”，加你进日报群

邮件版包括17条，本期的Web版有完整内容22条

用日报搜索找到以前分享的内容： http://ml.memect.com/search/

今日焦点 (5)
[img=20,20][/img] wx:钱曙光 网页链接 2017-10-17 07:01
深度学习算法自然语言处理 GPU Python 代码分类行业动态神经网络
「理解情感：从 Keras 移植到 pyTorch」导语：情感情绪检测是自然语言理解的关键要素。最近，我们将原来的项目迁移到了新的集成系统上，该系统基于麻省理工学院媒体实验室推出的NLP模型搭建而成。情感情绪检测是自然语言理解的关键要素。最近，我们将原来的项目迁移到了新的集成系统上，该系统基于麻省理工学院媒体实验室推出的NLP模型搭建而成。代码已经开源了！（详见GitHub：https://github.com/huggingface/torchMoji ）该模型最初的设计使用了TensorFlow、Theano和Keras，接着我们将其移植到了pyTorch上。与Keras相比，pyTorch能让我们更自由地开发和测试各种定制化的神经网络模块，并使用易于阅读的numpy风格来编写代码。在这篇文章中，我将详细说明在移植过程中出现的几个有趣的问题：如何使用自定义激活功能定制pyTorch LSTMPackedSequence对象的工作原理及其构建如何将关注层从Keras转换成pyTorch如何在pyTorch中加载数据：DataSet和Smart Batching如何在pyTorch中实现Keras的权重初始化首先，我们来看看torchMoji/DeepMoji的模型。它是一个相当标准而强大的人工语言处理神经网络，具有两个双LSTM层，其后是关注层和分类器：torchMoji/DeepMoji模型DeepMoji有一个很不错的特点：Bjarke Felbo及其协作者能够在一个拥有16亿条记录的海量数据集上训练该模型。因此，预先训练的模型在此训练集中具有非常丰富的情感和情绪表征，我们可以很方便地使用这个训练过的模型。该模型是使用针对LSTM的回归内核的Theano/Keras默认激活函数hard sigmoid训练的，而pyTorch是基于NVIDIA的cuDNN库建模的，这样，可获得原生支持LSTM的GPU加速与标准的sigmoid回归激活函数：Keras默认的LSTM和pyTorch默认的LSTM因此，我写了一个具有hard sigmoid回归激活函数的自定义LSTM层：这个LSTM单元必须集成在一个完整的模块中，这样才可以使用pyTorch所有的功能。这个集成相关的代码很长，建议直接引用到Github中的相关源代码。模型的关注层是一个有趣的模块，我们可以分别在Keras和pyTorch的代码中进行比较：如你所见，主要的算法大致相同，但PyTorch代码中的大部分都是注释，而Keras则需要编写几个附加函数并进行调用。在编写和调试自定义模块和层时，pyTorch是一个更快的选择；而对于快速训练和测试由标准层构建的模型时，Keras显然更加合适。Keras有一个不错的掩码功能可以用来处理可变长度序列。那么在pyTorch中又该如何处理这个呢？可以使用PackedSequences！ pyTorch文档中有关PackedSequence的介绍并不是很详细，所以这里会详细描述它的细节。转自：腾讯云完整内容请点击“阅读原文” via: http://mp.weixin.qq.com/s?__biz= ... e=0#wechat_redirect

[img=20,20][/img] wx: 网页链接 2017-10-17 07:01
深度学习视觉算法应用语音自然语言处理 Christopher Manning Ilya Sutskever Jianpeng Cheng Tim Rocktaschel 柏晓鹏回归机器翻译可视化李斌神经网络统计问答系统信息检索薛念文语言学
「深度神经网络机器翻译」2013年，在Brandeis大学聆听薛念文老师（计算语言学领域引用率最高的华人之一，下图居中, 薛老师右边是好友柏晓鹏和李斌）讨论小组研究语言模型的时候，已经感到神经网络语言模型的力度。但是还是非常难以想象到3年不到的这么短时间，就突破到这个程度。去年年底Google神经网络机器翻译出来的时候，本人有感于突破之快，把当年的讨论的部分收获写到了 “概率估值的光滑（Smoothing）”里面。今天有时间和大家一起讨论下下，深度神经网络机器翻译。前言2016年年底， Google公布了神经网络机器翻译（GNMT），从此宣告，机器翻译经过27年左右，正式从1989年的IBM机器翻译模型(PBMT，基于短语的机器翻译)，过渡到了神经网络机器翻译模型。已经极大接近了普通人的翻译了。而从基于短语的翻译到神经网络翻译，相对提升可以达到60%以上，因此一下子引起了欢呼和惊叹。而这背后的大功臣，就是sequence to sequence (seq2seq)的端到端的模型。而这个seq2seq模型，除了机器翻译，还极大改变了整个自然语言处理相关应用。包括基本的NLP功能：Parsing, NER等；传统的NLP应用：Summarization, QA, Conversation等；还有多模的世界：图像和文字，语音和文字等。譬如， Google除了GNMT以外还有基于seq2seq的TTS系统Tacotron：基于seq2seq的问答系统：基于seq2seq的概要提取系统：接下来，我们按如下顺序介绍seq2seq模型：Seq2Seq的简史PBMT 时代的基石和问题端到端模型的出现神经网络语言模型的出现RNN-LM的出现RNN的发展Seq2Seq的出现Seq2Seq的发展一. Seq2Seq的简史目前seq2seq的突破，离不开：a. Attention机制：现在Attention机制几乎将IBM模型中alignment对齐机制发挥出新的境界。b. RNN模型升级： RNN出现了双向RNN，堆栈RNN，和残差RNN。在GNMT里面把这些技术统统用上了。使得RNN模型的学习能力达到空前高度。 c. RNN-LM模型： RNN的使用开启解决长距离依赖的问题，也引发记忆计算在语言模型的新思考。 d. NNLM模型突破：NNLM模型的发展使得非线性的投影和Softmax的近似计算得到突破。 e. 端到端的编解码模型：端到端的早期突破使得多模融合成为可能。 2015年，两个小组： Tim Rocktaschel为代表的伦敦大学院、牛津大学、还有DeepMind的小组（Reasoning about Entailment with Neural Attention），和爱丁堡大学的Jianpeng Cheng（Long Short-Term Memory-Networks for Machine Reading），发表了基于Attention的对齐机制细分和相关的可视化的分析。尤其Jianpeng Cheng对Shallow Attention Fusion 和 Deep Attention Fusion的区分，代表了Attention机制在NLP里面的成熟。 2014年 - 2015年，斯坦福计算机系Manning组的 Minh-Thang Luong 的论文 Effective Approaches to Attention-based Neural Machine Translation 正式基于高斯分布推导了Local Attention，比较了Global Align Attention和Local Align Attention，和视频处理里面 Soft Attention 和 Hard Attention建立了联系。 2015年 Bengio的团队中来自德国的Dzmitry Bahdanau （NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE），将Attention机制引入到机器翻译中，正式开启了Attention作为Alignment的大门！2014年两个人， Bengio团队的Kyunghyun Cho (Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation) 和 Google的 Ilya Sutskever (Sequence to Sequence Learning with Neural Networks) 正式将RNN Encoder-Decoder搬上神经网络机器翻译NMT的历史舞台，并且命名为Seq2Seq模型！从上面，我们看到从Seq2Seq简单模型到有Attention模型的Seq2Seq的经历。二. PBMT 时代的基石和问题首先基于短语的机器翻译，从IBM模型一路发展而来，已经相当成熟。并且开源系统也很多，极大促进了机器翻译的研究和应用。最重要的是完成机器翻译的功能模块的分解：双语对齐，语言模型，翻译模型，解码器，测试。这个使得，神经网络语言模型诞生后，可以进行独立测试，逐步发展替代。其中n-gram语言模型，基于全概率公式和马尔可夫假设，但是问题也出现在这个n-gram模型，主要的3大问题：1. 通过频率计算概率，存在数据稀疏，概率为0的情况难以轻易搞定。虽然，众多概率光滑的算法（尤其 Modified Kneser-Ney 算法）纷纷出现，依然对人为先验设计要求太高。 2. 长距离依赖的问题难以解决（短语N-Gram中N的局限性）3. 线性模型学习的局限性如何解决基于频率的概率估算问题，解决长距离依赖，解决线性模型的问题在基于短语的机器翻译PBMT框架下难以彻底截距。其实，还有两个神器在PBMT时代已经广泛应用了： 1. Log-Linear模型的提出在“概率分布の三奥义” 里面，我们就提出了，概率估计发展，从基于频率，到基于经验，再到基于最大熵。需要的数据越来越少。而Log-Linear就是基于最大熵的概率模型（细节参考““66天写的逻辑回归” 引”）如果想深入了解的，简单说来Log-Linear和最大交互熵之间的关系就是著名的Donsker-Varadhan定理：Log-Linear表现为Softmax输出。2. 束查询 Beam Search当把翻译的词拼成句子的时候，要求整个句子的似然概率最大，这时候Beam Search是介于贪心和动态规划（譬如 Viterbi Algorithm）之间个一种均衡了效果和计算量的选择。转自：AI2ML人工智能to机器学习完整内容请点击“阅读原文” via: http://mp.weixin.qq.com/s?__biz= ... e=0#wechat_redirect

[img=20,20][/img] wx: 网页链接 2017-10-16 21:40
会议活动视觉算法应用 Dave Gershgorn Ian Goodfellow 广告系统会议刘小芹神经网络
「Ian Goodfellow推荐：GAN生成模特照片媲美真人」【AI WORLD 2017世界人工智能大会倒计时 23 天】抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026 大会官网：http://www.aiworld2017.com 新智元编译来源：qz.com作者：Dave Gershgorn 编译：刘小芹【新智元导读】在线时尚科技公司 Vue.ai 开发了一种或将取代模特的自动生成试装照片的系统，该系统使用GAN技术，可以控制所需模特照片的体型、肤色、身高、鞋子等等，不仅是模特，摄影师和工作室都可以不需要了，对于电商和零售业来说是好消息。令人向往的模特工作或许也会被自动化取代。在线时尚科技创业公司 Vue.ai 正在销售一种技术，它可以分析服装，并自动生成人穿着这套服装的图像，无论这个人是什么身高、体型或穿着任何类型的鞋子。该公司目前正在与零售商商谈，以取代时装零售商在每一款新服装款式出现时都需要为模特连续拍摄照片的形式。不再需要雇佣专业摄影师、模特和工作室，零售商只需要拍摄一张简单的服装平铺的照片就可以了。AI能够生成一个人形，然后预测服装如何适合这个人。由于没有真实的模特，AI可以产生任何类型的体型或皮肤类型。虽然这不会取代高端时尚摄影或艺术封面拍摄，但在白色背景下拍摄无头模特的日子将很快结束。图中只有2张照片是真实拍摄的模特照，其余是GAN生成的（答案在文末）该技术由 Vue.ai 的 Anand Chandrasekaran 和 Costa Colbert 开发，使用了生成对抗网络（GAN）的机器学习方法。这个系统由两个AI组成：一个生成器（generative）和一个评论家（critic），生成器试图生成一张看起来很好的图像，而批评家则决定这张图像是否看起来足够好。GAN是一个相对较新的概念，由 Ian Goodfellow 于2014年提出，在生成图像方面表现特别好。 Vue.ai 的创新使GAN能够指定如何生成每个图像。神经网络是GAN的技术基础，它模拟我们大脑运作的方式：数以百万计的微小的、分散的神经元处理数据并将它们传递给下一个神经元。通过将一个图像分解成数百万个不同抽象层次的图像，每个神经元都能学到一小部分关于它要处理的数据的信息：我们将看到的是肘部、臀部的形状或颜色。这些神经网络接受了数千幅图像的训练，神经元学会分辨不同种类的肘部、臀部和不同的颜色。但是，这些信号的传输所需要的数以百万计的小小神经元，意味着这个网络比它的创造者所理解的要复杂得多。举个例子，软件程序员写代码并不需要知道计算机处理器是如何工作的。 Vue.ai目前正与北美的零售商合作实施这项技术。Vue.ai没有公开它正在与哪些公司合作，但有可能你已经在某处看到过它生成的AI创作。（答案：图中只有两张真实拍摄的模特照，分别是上排第3张，下排第4张）原文：https://qz.com/1090267/artificia ... ose-pants-will-fit/ 【AI WORLD 2017世界人工智能大会倒计时 23天】点击图片查看嘉宾与日程。大会门票销售火热，抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026【扫一扫或点击阅读原文抢购大会门票】AI WORLD 2017 世界人工智能大会购票二维码： via: http://mp.weixin.qq.com/s?__biz= ... e=0#wechat_redirect

机器之心Synced 网页链接 2017-10-16 18:30
深度学习统计
【提升DNN参数准确度：MILA提出贝叶斯超网络】近日，来自蒙特利尔 MILA、Element AI 和麦吉尔大学等机构的学者共同提出了「贝叶斯超网络」，使用新方法提升了 DNN 参数的准确性。http://t.cn/ROnzCSP

机器之心Synced 网页链接 2017-10-16 17:57
会议活动自然语言处理 CCL 会议活动语言学
【CCL 2017最佳论文公布，看全国计算语言学前沿研究】10 月 14 日、15 日，由中国中文信息学会（CIPS）举办的第十六届全国计算语言学会议（CCL 2017）暨第五届自然标注大数据的自然语言处理国际学术研讨会（NLP -NABD 2017）于江苏南京召开。http://t.cn/ROEFhJZ

最新动态

机器之心Synced 网页链接 2017-10-16 18:17
【机器学习新手工程师常犯的6大错误】很多时候，如何找到合理的假设并不容易。机器学习初学者经常会犯一些事后觉得蠢爆了的错误。本文作者创建了一个机器学习新手工程师常犯的错误清单。希望大家可以从中学习，创建更鲁棒的解决方案。http://t.cn/ROnhLRF

中科院之声 网页链接 2017-10-16 16:30
经验总结博客彭思龙
最近人工智能很火爆，不光是投资界火爆，国家也提出了未来人工智能发展战略和规划。中科院自动化所研究员彭思龙认为人工智能未来的一个很重要研究方向是如何提高人类的教育水平。http://t.cn/RpkkB5Y

PaperWeekly 网页链接 2017-10-16 15:52
知识工程知识库周张泉
【基于知识图谱的推理技术】本次 Guru Talk，东南大学计算机学院在读博士周张泉将以接地气的方式带大家重拾推理技术。在知识图谱的语境下，我们一起看看推理技术在当下扮演着怎样的角色。报名地址：http://t.cn/ROEaIgK

IT技术头条 网页链接 2017-10-16 15:46
经验总结自然语言处理博客机器翻译
【机器翻译评测——一种检测批量译文是否参考机器翻译的方法】1◆版权声明：本文出自胖喵~的博客，转载必须注明出处。转载请注明出处：http://t.cn/ROE6R6O 首先解释一下几个名词，由于... 详戳→http://t.cn/ROE6R6O 作者→ (胖喵~)

蚁工厂 网页链接 2017-10-16 15:26
深度学习算法资源 Kaggle KNN 聚类课程强化学习
来自 Udacity x Kaggle #机器学习#在线课程的精彩内容，3分钟明白什么是 K-means 聚类算法。这门“机器学习”纳米学位项目将带你从零开始，全面掌握机器学习领域的监督式学习、非监督式学习、强化学习和深度学习。 ↓真实内容抢先看↓戳这里了解更多>>http://t.cn/ROEAc4T http://t.cn/ROEf6M2

南京轻搜 网页链接 2017-10-16 12:40
深度学习算法神经网络
【新研究称机器或能通过照片判断性取向】斯坦福大学据某约会网站开展的一项新研究总结称，面部携带信息可透露你的性取向。该研究指出，深度神经网络根据男性和女性照片判断性取向的准确率分别可达91%和83%。而人类判断的准确率则低得多，少了20个百分点。此刻你的心情是…… http://t.cn/RqQCBk2 ...全文： http://m.weibo.cn/5897818869/4163456397765662

技术头条 网页链接 2017-10-16 12:10
算法应用推荐系统
【衰减方程（函数）小结 Decay Function Review ：推荐算法、排序算法。如果原始数据是一堆时间序列数据（如每天销售数据）。进行计算时，常见的想法是给近期的指标更大的权重（理由：客户近期购买的产品更能反映当前客户的偏... 详见：http://t.cn/RORIUos 分享自@shengting

新浪科技 网页链接 2017-10-16 11:50
深度学习算法神经网络新闻
【新研究称机器或能通过照片判断性取向】斯坦福大学据某约会网站开展的一项新研究总结称，面部携带信息可透露你的性取向。该研究指出，深度神经网络根据男性和女性照片判断性取向的准确率分别可达91%和83%。而人类判断的准确率则低得多，少了20个百分点。此刻你的心情是……[吃瓜]http://t.cn/RO8iFkC

网路冷眼 网页链接 2017-10-16 06:15
算法回归集成学习
【Logistic Regression by Discretizing Continuous Variables via Gradient Boosting】http://t.cn/RO85Znf 通过梯度增强离散化连续变量的逻辑回归。

爱可可-爱生活 网页链接 2017-10-16 05:38
视觉 Tu Grazaustrian Institute 论文
《Semantic 3D Reconstruction with Finite Element Bases》A Richard, C Vogel, M Blaha, T Pock, K Schindler [ETH Zurich & Institute of Computer Graphics & Vision & TU GrazAustrian Institute of Technology] (2017)http://t.cn/RO8GTBu

爱可可-爱生活 网页链接 2017-10-16 05:18
算法论文神经网络
《A Unified Neural Network Approach for Estimating Travel Time and Distance for a Taxi Trip》I Jindal, T (Zhiwei)Qin, X Chen, M Nokleby, J Ye [Wayne State University & DiDi Research] (2017) http://t.cn/RO8GARg

爱可可-爱生活 网页链接 2017-10-16 05:05
深度学习算法论文神经网络
《Keynote: Small Neural Nets Are Beautiful: Enabling Embedded Systems with Small Deep-Neural-Network Architectures》F Iandola, K Keutzer [DeepScale & UC Berkeley] (2017) http://t.cn/RO8bnWu

AI100_机器学习日报 2017-10-16 理解情感 ：从 Keras 移植到 pyTorch

AI100_机器学习日报 2017-10-16 理解情感：从 Keras 移植到 pyTorch