机器学习日报 2015-08-10 机器翻译中的深度学习综述;KDD2015十年最佳论文;基于图的用户行为...

解应春BW · 发表于 2015-8-11 09:42:15

机器学习日报 2015-08-10

机器翻译中的深度学习综述 @张家俊MT
From Language Modelling to Machine Translation @闫安Jon
KDD教程：基于图的用户行为建模 @zwner
KDD2015十年最佳论文 @王威廉
Nvidia DIGITS DevBox ，深度学习专用机器 @星空下的巫师

@好东西传送门出品, 过往目录 见http://ml.memect.com

订阅：给 hao@memect.com 发封空信，标题: 订阅机器学习日报

邮件版包括20条，本期的Web版有完整内容30条

用日报搜索找到以前分享的内容： http://ml.memect.com/search/

今日焦点 (5)

张家俊MT 网页链接 2015-08-10 10:28
深度学习资源自然语言处理机器翻译
近两年，深度学习在自然语言处理领域遍地开花，统计机器翻译研究范式的变化是其中的典型代表。深度学习在传统SMT中如何应用？新的范式是什么？深度学习会是解决机器翻译的良药吗？我们最近写了篇DL4MT的Review，比较简短，适合入门看看（DL发展太快，今年一些新进展未能包含）。 http://t.cn/RLEu85x

闫安Jon 网页链接 2015-08-10 23:28
深度学习资源自然语言处理 PDF Phil Blunsom 课程
From Language Modelling to Machine Translation (pdf) http://t.cn/RLnELS4 presentation by Phil Blunsom, Deep Learning Summer School, Montreal, August 10, 2015

zwner 网页链接 2015-08-10 19:53
会议活动算法应用资源 KDD 幻灯片会议课程预测
KDD第一天挤爆会场的tutorial: Graph-Based User Behavior Modeling: From Prediction to Fraud Detectionhttp://t.cn/RLnKI6R 我更关注这里的fraud detection，虽然slides大都以推荐作为实例，这些算法也能用在广告fraud detection上。

王威廉 网页链接 2015-08-10 09:36
应用资源 PDF 教育网站信息检索
#KDD2015#十年最佳论文：Joachims, Optimizing Search Engines using Clickthrough Datahttp://t.cn/RhG9G4d Domingos and Hulten: Mining High-Speed Data Streams http://t.cn/RLMhyNy Hu and Liu: Mining and summarizing customer reviews http://t.cn/RLMhyNL

星空下的巫师 网页链接 2015-08-10 07:49
深度学习
看到Nvidia DIGITS DevBox ，深度学习专用机器，4块Titan X，64GB DDR4，i7-5930K 6 Core 3.5GHz，1600W电源，口水不已啊[馋嘴]。。售价15000刀[泪]。。。http://t.cn/RAvrsd0

最新动态

程序师视野 网页链接 2015-08-10 19:13
视觉
【给计算机“大脑”全新的“思维”】　最近，美国加州大学圣巴巴拉分校研究人员演示了一种包含 100 个人工突触的简单人工神经元线路，第一次证明了这种线路能执行简单的人类视觉功能——给图像分类，这标志着人工智能的一项重大进步。 [...] http://t.cn/RLnaXQj

ICT_朱亚东 网页链接 2015-08-10 17:39
会议活动 KDD 行业动态会议集成学习
#KDD 2015# 今年的best paper颁给了social领域的一个工作，alex也混了个best student，丫在我前面一直玩手机，估计是在泡妞；cup的冠军是扎扎实实的国际ensemble；哦，顺便替我大阿里占了个台http://t.cn/z8VxIP8

agentzh 网页链接 2015-08-10 17:23
算法正则表达式
书鑫老师给了我一些从生产 WAF 系统提取出来的极耗 CPU 的正则及对应的输入数据样本。我用这些样本对 PCRE/PCRE2 JIT、RE2 和我自己的 sregex DFA 进行了性能比较（见下面几张图）。显然对这组样本 DFA 方法完胜回溯方法和 NFA 仿真方法。当然，NFA 仿真算法至少不对这些样本感冒，但还是不及 DFA 快。

agentzh 网页链接转发于2015-08-10 17:32
我们可以看到在这组样本中，前两个例子，PCRE2/PCRE JIT 及解释器的匹配速度几乎是 0.0 MB/s 了。虽然这些回溯引擎仍然可以最终顺利结束，但需要好几秒的时间，而输入串才不过 150KB 的大小。在 Web 的上下文中并不算大。这也是我为什么要重新发明轮子的一个重要原因。

agentzh 网页链接 2015-08-10 16:33
正则表达式
由于幂集构造，DFA 倾向于比 NFA 更加复杂。为了方便调试我的 sregex DFA 引擎，我给引擎添加了一个功能，可以记录匹配过程中实际走过的 DFA 状态和 DFA 边，然后调用 Graphviz 绘制出对应的 DFA 子图。比如正则 /(a{3})+/ 匹配字符串 "aaaaa" 对应的 DFA 子图如下图一。图二是正则对应的完整的 DFA.

agentzh 网页链接转发于2015-08-10 16:41
这个 DFA 子图同时也算是 DFA 状态转换的路径图，因为在实际走过的 DFA 边上会打上标签，标识转换发生时输入字符串的当前位置（即字符偏移量）。当然了，一个 DFA 边可能会对应多个输入位置。所有实例都会在边上标记出来。为方便分析，走过的 DFA 状态的兄弟节点也会画出，但没有填充色以示区别。

agentzh 网页链接转发于2015-08-10 16:53
类似地，我还写了一个小工具，可以根据引擎实际执行的代码路径，反向追踪我指定的某个子匹配捕获的值的产生和在 DFA 状态间的传递过程。由于子匹配捕获的赋值和传递信息很碎很复杂，所以不便在 DFA 状态图上直接标记出。利用这些工具，我才得以让我的 counting-fa 分支通过整个测试集。否则调试太痛苦

物联中国 网页链接 2015-08-10 16:16
应用机器人
【人工智能未来前景可期有赖云端计算】如果说，万物智能为人类走向机器人的世界打下了“群众基础”，那么，如何让机器人从能力上更像人，则是机器人发展道路上一项“可望还应可即”的目标。 http://t.cn/RLnqJc3

FPGA开发圈 网页链接 2015-08-10 15:20
经验总结视觉博客
【机器视觉系统设计】从功能上来看，典型的机器视觉系统可以分为：图像采集部分、图像处理部分和运动控制部分。一个完整的机器视觉系统的主要工作过程如下：http://t.cn/RLnykP1

中国云计算论坛 网页链接 2015-08-10 15:09
算法自然语言处理 KNN 聚类统计
【数据挖掘十大经典算法之K最近邻算法】K最近邻(K-Nearest Neighbor,KNN)算法，是著名的模式识别统计学方法，在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一，也是基于实例的学习方法中最基本的，又是最好的文本分类算法之一http://t.cn/RLH1OGX

iB37 网页链接 2015-08-10 13:38
会议活动深度学习资源自然语言处理 EMNLP PDF 会议论文
针对富形态语言，通过利用词之间的表层拼字法相似性，学习词的基于字的编码，从而进一步提升连续状态的依存句法分析；另外，学习字的编码也缓解了未登录词问题。Improved Transition-Based Parsing by Modeling Characters instead of Words with LSTMs [Ballesteros,EMNLP15] http://t.cn/RLnhkCl

agentzh 网页链接 2015-08-10 12:40
正则表达式
经过近两周的不懈努力，终于把 Becchi 和 Crowley 提出的所谓“counting FA”（即“计数有穷自动机”）整合进了我的 sregex DFA 原型引擎中，并且通过了 sregex 整个测试集。目前只实现了 x{n} 这种最简单的计数约束类型。x{n} 并不依赖于正则本身，而是通过对正则 VM 的字节码序列进行重复结构发现。

agentzh 网页链接转发于2015-08-10 12:45
下面的图一是正则表达式 /_.{9}/ 对应的经典 DFA 状态图，而图二则是 sregex DFA 生成的对应的“计数 DFA”图。很明显，状态数和边数得到了极大的降低。同时“计数 DFA”的状态数与 x{n} 中的正整数 n 无关，所以即使 n 上千上万对“计数 DFA”也没有任何影响（除了计数器的上限随 n 变化）。

agentzh 网页链接转发于2015-08-10 12:51
Becchi 和 Browley 的算法本身非常简单，但若要支持一般的子匹配捕获就困难多了，需要进行许多扩展和调整。这是因为它其实是一种 DFA 压缩算法，把多个大同小异的 DFA 状态压缩为一个带若干 0 宽度断言的 DFA 状态。这个新的 DFA 状态其实是原先多个 DFA 状态的折叠，因此多个子匹配捕获也须折叠起来。

agentzh 网页链接转发于2015-08-10 12:57
当然，sregex DFA 引擎目前生成的“计数 DFA”冗余度还是很大的。眼下的实现为了方便起见，我在 NFA 中把 x{n} 转化为 x{n-1}x 后再生成 DFA. 这会导致生成很多不必要的 DFA 状态和边，但处理起来简单一些，因为不用考虑计数 DFA 状态存在多个到自身的 DFA 边的复杂情况。另外还有很多可以化简的地方。

agentzh 网页链接转发于2015-08-10 14:10 回复 @LeoLiuYan “根本听不懂。。”
回复@LeoLiuYan:稍微温习一下计算机专业的编译原理课程中的自动机理论部分，或者专门的自动机理论课程，就很容易理解我这里讨论的东西啦！其实就是正则语言、非确定性有穷自动机和确定性有穷自动机这些基本的概念。

agentzh 网页链接转发于2015-08-10 17:57
原先 sregex DFA 引擎处理正则表达式 /[a-q][^u-z]{13}x/ 会生成 30MB 的 C 代码，gcc -O3 编译则需要 40 多分钟之久（clang 则需要十几个钟头，这里就不提了）。而现在使用支持“计数DFA”，生成的 C 只有 187KB，gcc -O3 编译也只需 500ms. 当然，我这个计数 DFA 其实还有很大的化简和优化空间。

环球科学杂志社 网页链接 2015-08-10 11:55
应用机器人
【FDA说，机器人可以给人做手术了】来自卡耐基梅隆大学的公司Medrobotics Corp.发表声明，称其生产的手术机器人系统Flex®已经得到美国食品及药物管理局的批准，可以在市场上销售了。这款机器人的内窥镜系统能够让外科医生看到并到达非常难到达的解剖区域，让更多的患者受益：http://t.cn/RLH1zIJ

伯乐在线官方微博 网页链接 2015-08-10 11:40
经验总结算法 R语言博客决策树刘昭东
《决策树算法介绍及应用》本文介绍了机器学习的相关概念、常见的算法分类和决策树模型及应用。通过一个决策树案例，着重从特征选择、剪枝等方面描述决策树的构建，讨论并研究决策树模型评估准则。最后基于 R 语言和 SPSS 工具，设计与实现了决策树模型的应用实例http://t.cn/RLQXuab (by IBM刘昭东)

iB37 网页链接 2015-08-10 08:59
会议活动深度学习视觉算法资源自然语言处理 EMNLP ICML PDF 会议论文期刊神经网络统计
计算机视觉#调超参#法SMBO [Bergstra, ICML13]http://t.cn/RLEQv5T 应用于自然语言处理中文本表示的自动选择Bayesian Optimization of Text Representations [Yogatama,EMNLP15s]http://t.cn/RLEQv5H 以对数线性模型LR为例在话题和情感分类上达到与非线性模型神经网络/卷积网络/张量网络可竞争的性能

好东西传送门 网页链接 2015-08-10 08:48
深度学习视觉 Python 李飞飞
第137期计算机视觉日报(2015-08-09) 1) 李飞飞关于计算机视觉智能研究的报告 2) 当机器有了“世界观”，机器视觉都能干点啥 3) (图像)选择性搜索的Python实现 4) 用于大规模图像识别的超深度卷积网络完整版5条http://t.cn/RLEHc7E

好东西传送门 网页链接 2015-08-10 08:32
会议活动深度学习视觉算法资源自然语言处理 Chris Manning Christopher Manning 活动简报课程李飞飞
第325期机器学习日报(2015-08-09)http://t.cn/RLETcpk 1) 李飞飞关于计算机视觉智能研究的报告 2) Chris Manning在DLSS上关于深度学习和NLP的教程 3) 讨论：基于算法的用户偏好学习靠谱吗？ 4) 在线展示广告套利算法 5) 学术研讨会：从大数据中得出因果推断完整版23条 http://t.cn/RLETcpF

爱可可-爱生活 网页链接 2015-08-10 07:38
应用安全
【黑帽大会:面向网络安全的机器学习多样化对抗仍待加强】《Black Hat 2015: Machine learning security must add variety》"Machine learning is better at detecting malware than systems that scan for known signatures...but adding a twist widens the performance gap..." http://t.cn/RLElfqp