机器学习日报 2015-07-12 异常检测任务;RNN在统计语言模型上的综述 ;概率统计虚拟实验室

解应春BW · 发表于 2015-7-13 10:37:52

机器学习日报 2015-07-12

@好东西传送门出品, 过往目录 见http://ml.memect.com

订阅：给 hao@memect.com 发封空信，标题: 订阅机器学习日报

邮件版包括20条，本期的Web版有完整内容38条

用日报搜索找到以前分享的内容： http://ml.memect.com/search/

今日焦点 (5)

南大周志华 网页链接 2015-07-12 23:03
算法会议活动 ICML 会议异常检测行业动态
ICML上遇到国际机器学习学会首任主席Dietterich教授，对我们的iForest算法大赞，说尝试了很多方法，还是这个又快又好。前段时间澳洲某startup公司也说他们发现iForest在信息安全领域的异常检测应用中表现最佳并准备做进产品。isolation Forest，推荐给有异常检测任务的同学 http://t.cn/RLbnQ4z

Copper_PKU 网页链接 2015-07-12 22:47
算法资源深度学习 PDF 统计神经网络
http://t.cn/RLGGEZb A survey on the application of recurrent neural networks to statistical language modeling 罗列了不少trick和idea RNN在sequence Modeling上的paper越来越多这两年已经灌得不少了

吴贤毅童鞋_STATISTICS 网页链接 2015-07-12 16:51
统计教育网站
隆重推荐一个网页：Virtual Laboratories in Probability and Statistics （概率统计虚拟实验室）：http://t.cn/zHmKF8J 一个相。。。。。。当不错的教学资源。

孙明明_SmarterChina 网页链接转发于2015-07-12 16:59
很不错的统计概念学习资源，推荐。@我的印象笔记

agentzh 网页链接 2015-07-12 15:15
符成叶代码正则表达式
刚花了 1000 行 Perl 代码，为 sregex 新一代的 DFA 引擎构造了一个快速原型，根据 sregex 前端生成的正则 VM 字节码，构造出 DFA，再生成等价的 Perl 代码。除了正则断言和多正则并行匹配尚未实现之外，其他都可以工作了。测试集中相关的测试用例也都通过了。原型的实现在这里：http://t.cn/RLbdLv9

agentzh 网页链接转发于2015-07-12 15:17
这个快速原型脚本，re.pl，还能自动利用 Graphviz 输出正则对应的 NFA 和 DFA（都带有子匹配捕获标记）。该原型的目的主要是为了验证算法的有效性和正确性。待余下的正则特性都实现并测试通过后，就可以尝试移植为纯 C 实现，成为 sregex 正则引擎的第三个 VM 后端。

许扬逸Dijkstra 网页链接转发于2015-07-12 18:17 回复 @drdrxp “转发微博”
春哥这么好的微博都没人转么？操作符成干，匹配符成叶的解析树到子串匹配的SBOM啊[鼓掌]

王威廉 网页链接 2015-07-12 08:29
资源自然语言处理 PDF 书籍论文教育网站
多伦多大学一个很有意思的工作：用Skip-Thoughts Vector来连接电影和原著。论文：http://t.cn/RLbpfZu11,038本书籍的语料库：http://t.cn/RLbpfZ3

爱可可-爱生活 网页链接转发于2015-07-12 09:50
《Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books》书籍语料镜像：http://t.cn/RLblAJr

最新动态

iB37 网页链接 2015-07-12 23:29
算法深度学习自然语言处理 Jiwei Li 情感分析教育网站神经网络
Jiwei Li (李纪为)近期工作: 1) 情感分析的反思 [Reflections on Sentiment/Opinion Analysis,arxiv15] 2) 用于短语和文档生成的层次神经自编码器LSTM [A Hierarchical Neural Autoencoder for Paragraphs and Documents,ACL15];有代码;可用于文档摘要 3) 其他 http://t.cn/RLG5TOE

iB37 网页链接 2015-07-12 22:11
算法聚类论文
并列结构指同一个概念的不同实例之间,或者一个概念的直接下位之间;如果两个term是并列的,那互相替换仍是语法正确的,尽管不一定都为真 [Learning to Mine Chinese Coordinate Terms Using the Web,Huang,arXiv15] 用半监督的规则+统计从中文搜索结果为种子term抽取并列结构且聚类 http://t.cn/RLGbPyM

爱可可-爱生活 网页链接 2015-07-12 21:11
应用资源代码数据推荐系统
【面向自动推荐/机器学习的评分/标注开放数据集列表】"Recommendation and Ratings Public Data Sets For Machine Learning" Movies/Music/Books/Food/Merchandise/Healthcare/Dating/Scholarly Paper Recommendation GitHub:http://t.cn/z8Ny4Ag

红冰CV 网页链接 2015-07-12 20:10
视觉
日媒：新生儿识别人脸速度堪比专业机器（分享自 @新浪育儿）我也一直在观察我自己的宝宝，也有相同的结论，不仅识别能力很强，物体的跟踪能力也很好 http://t.cn/RLb6KMk

iB37 网页链接 2015-07-12 19:31
算法资源 PDF SVM
随机梯度下降SGD是解决带L2正则经验风险最小化问题的常用技术，对于大规模问题，分布式实现又是必要的，由此带来的通信开销需要额外考虑。 [Communication Efficient Coresets for Empirical Loss Minimization, Reddi,uai15] 基于coreset概念，并据此分析了LR和SVM收敛性。http://t.cn/RLGzkpu

翻译驴 网页链接 2015-07-12 18:30
会议活动自然语言处理 IJCAI 会议
问个问题，为什么顶级学术会议都不设同传？如今年7月底要在北京开的自然语言处理领域的顶级会议ACL，在阿根廷开的人工智能领域顶级会议IJCAI。讲的内容基本都是干货，听不懂的观众确实很痛苦。相反，我见到有同传的会议大多都是讲排场、形式大于意义、然并卵、听不听得懂都没啥区别。同传的意义何在？

翻译驴 网页链接转发于2015-07-12 18:40
我知道，就是请，给再多的钱也几乎请不到能胜任的同传：因为同传基本听不懂讲的啥。最厉害的笔译也就局限于挑战一下文学翻译，真正的专业文献又没有招了。我想说的是，其实这是专业翻译的上限，不管培训机构和大学如何鼓吹，都越不过这个上限。瞎猜：机器翻译可能有机会突破这个上限。

翻译驴 网页链接 2015-07-12 17:49
自然语言处理机器翻译
对于传统翻译流程而言，机器翻译只是一个小部件儿，甚至捣蛋的。对于某些互联网公司而言，机器翻译就是唯一选择，人工翻译倒成了捡漏的角色（只翻错得离谱或者特别重要的部分）。因此，与传统翻译流程谈机器翻译，绝对是找抽的行为！人也一样，同样一个人，放不同地方，他发挥的空间是完全不一样的。

星空下的巫师 网页链接 2015-07-12 17:42
算法深度学习 Python 神经网络
bat-country: an extendible, lightweight Python package for deep dreaming with Caffe and Convolutional Neural Networks - PyImageSearch #Inceptionsim已经被玩坏了# http://t.cn/RL2UVLd

大连理工-樊鑫 网页链接 2015-07-12 13:03
算法深度学习神经网络
Neural networks上关于深度学习上一个比较全的综述，历史讲的也比较多，蛮有意思。下载量所有爱斯维尔计算机领域的期刊排第三。http://t.cn/RzjXrMC

cvnote计算机视觉笔记 网页链接 2015-07-12 10:35
算法视觉资源 Python 课程
《OpenCV-Python Tutorials》| 翻往年的OpenCV GSoC看到得一个项目，还不错，推荐入门用。虽然很多视觉的算法用python还是不太顺手[bm内涵]http://t.cn/RLbYMNC

视觉机器人 网页链接 2015-07-12 10:28
算法经验总结博客
最快速的高斯模糊算法 Fastest Gaussian Blur (in linear time)：http://t.cn/RztoIzG 。该算法已经集成到了网页软件photopea中：http://t.cn/RLbYhg4 ，这是一个HTML5实现的类似photoshop的软件，很棒的感觉。

好东西传送门 网页链接 2015-07-12 09:12
会议活动深度学习经验总结自然语言处理 ICML 会议博客简报统计
机器学习日报 2015-07-11 http://t.cn/RLbOtCv 1) ICML专题讨论深度学习的未来 2) Julia自然语言处理 3) 概率建模语言Bayesian Logic (BLOG) 4) 80 different GoogLeNet layers 5) Reinforcement Learning: An Introduction 完整版26条 http://t.cn/RLbOtCP

爱可可-爱生活 网页链接 2015-07-12 07:14
会议活动 Yoshua Bengio NIPS Python 代码会议
【论文+代码:生成式对抗网络GAN】《Generative Adversarial Networks》IJ Goodfellow, J Pouget-Abadie, M Mirza..., Y Bengio (NIPS2014) http://t.cn/RLb9otx GitHub(Python):http://t.cn/RLb9otJ 参阅http://weibo.com/1402400261/CqzOd9CaY

好东西传送门 网页链接 2015-07-12 07:12
知识工程自然语言处理知识库语义网
NLP日报 2015-07-11 http://t.cn/RLb9XNn 1) 好东西传送门上和语义网，知识图谱有关的帖子 2) 编程语言的NLP分析 3) Julia自然语言处理完整版8条 http://t.cn/RLb9XNE

爱可可-爱生活 网页链接 2015-07-12 06:39
算法资源会议活动深度学习 ICML PDF 会议统计论文神经网络
【论文:用Dropout做贝叶斯估计】《Dropout as a Bayesian Approximation: Insights and Applications》Y Gal, Z Ghahramani (ICML2015) http://t.cn/RLbKXml 同作者另一篇《Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning》(2015) http://t.cn/RLbKWfi