解应春BW 发表于 2015-8-30 14:59:09

机器学习日报 2015-08-29 文档图像除噪;用Spark做大规模并行NLP;数据挖掘系列 关联规则

机器学习日报 2015-08-29
[*]Twitter 和 Netflix的异常检测视频教程 @hbyido
[*]标定移动APP的成人级别 @iB37
[*]@也爱数据挖掘 数据挖掘系列 关联规则 @伯乐在线官方微博
[*]用Spark做大规模并行NLP @爱可可-爱生活
[*]文档图像除噪(去背景)教程 @爱可可-爱生活

@好东西传送门 出品, 过往目录 见http://ml.memect.com

订阅:给 hao@memect.com 发封空信, 标题: 订阅机器学习日报

邮件版包括13条,本期的Web版有完整内容23条
用日报搜索找到以前分享的内容: http://ml.memect.com/search/今日焦点 (5)
http://tp4.sinaimg.cn/1646706835/50/40090027455/1 hbyido 网页链接 2015-08-29 23:57
经验总结 算法 资源 博客 幻灯片 统计 异常检测
【时间序列】【异常检测】【视频ppt】【Twitter】【Netflix】【NuPIC】http://t.cn/Ryz2d7g http://t.cn/Ryz2d7Dhttp://t.cn/Ryz2d7d http://t.cn/Ryz2d7e




http://tp1.sinaimg.cn/2536116592/50/5716095299/1 iB37 网页链接 2015-08-29 22:03
会议活动 算法 自然语言处理 CIKM SVM 行业动态 会议
标定移动APP的成人级别。Mobile Apps: An Automatic Maturity Rating Framework 特征:从APP的描述中,先抽取应用商店预定义的成人内容敏感词,然后word2vec增广这些敏感词。模型:用多标签分类(SVM),先预测成人内容归,然后再标定等级。数据:苹果和谷歌应用商店 http://t.cn/Ryzz7Vb
http://ww3.sinaimg.cn/large/972a1170gw1evju0mcinqj21gx0gpqcr.jpg



http://tp2.sinaimg.cn/1670481425/50/1286328769/1 伯乐在线官方微博 网页链接 2015-08-29 13:25
经验总结 算法 博客
《数据挖掘(1):关联规则挖掘基本概念与Aprior算法》今天讲的是关联规则挖掘的最基本的知识。关联规则挖掘在电商、零售、大气物理、生物医学已经有了广泛的应用,本篇文章将介绍一些基本知识和Aprori算法。http://t.cn/RyheNXW (作者:@也爱数据挖掘 )
http://ww1.sinaimg.cn/large/63918611gw1evj7axvz61j20ij0dazm4.jpg



http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活 网页链接 2015-08-29 10:49
架构 自然语言处理 Jeff Palmucci Spark
【用Spark做大规模并行NLP】《Using Apache Spark for Massively Parallel NLP》by Jeff Palmuccihttp://t.cn/Ry7ppqZ




http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活 网页链接 2015-08-11 06:17
视觉 资源 Kaggle 课程
【(R)Kaggle's Denoising Dirty Documents竞赛文档图像除噪(去背景)教程】《Denoising Dirty Documents》Part1:http://t.cn/RLnspt0 Part2:http://t.cn/RLnsptO
http://ww4.sinaimg.cn/large/5396ee05jw1euy9i7j9rzj20f00h3q6e.jpg



最新动态
http://tp2.sinaimg.cn/1670481425/50/1286328769/1 伯乐在线官方微博 网页链接 2015-08-29 21:25
经验总结 算法 博客
《数据挖掘(3):关联规则评价》前面我们讨论的数据挖掘关联规则都是用支持度和自信度来评价的,如果一个规则的自信度高,我们就说它是一条强规则,但是自信度和支持度有时候并不能度量规则的实际意义和业务关注的兴趣点。http://t.cn/RyhD6VP (作者:@也爱数据挖掘 )
http://ww3.sinaimg.cn/large/63918611gw1evj7cicxnzg206o01d0qp.gif



http://tp2.sinaimg.cn/1670481425/50/1286328769/1 伯乐在线官方微博 网页链接 2015-08-29 20:25
经验总结 算法 博客
《数据挖掘(2):关联规则FpGrowth算法》今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高。http://t.cn/RyhD4KA (作者:@也爱数据挖掘 )
http://ww2.sinaimg.cn/large/63918611gw1evj7bsr5c0j20a4073wej.jpg



http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活 网页链接 2015-08-29 11:21
Kaggle Owen Zhang 代码
【开源(R):Kaggle's Avito上下文广告点击竞赛第一名Owen Zhang的方案源码】"Winning solution to the Avito CTR competition" many relational features + XGBoost GitHub:http://t.cn/Ry7OhZw 参阅:http://weibo.com/1402400261/CxHRR9NJr




http://tp1.sinaimg.cn/5220650532/50/5701668539/1 好东西传送门 网页链接 2015-08-29 11:04
深度学习 算法 资源 自然语言处理 ELM 简报 课程 异常检测
第344期机器学习日报(2015-08-28)http://t.cn/Ry705ZX 1) 2015蒙特利尔深度学习暑期学校之自然语言处理篇 2) ELM Tutorial 3) 时间序列异常检测 EGADS Surus iForest 4) Colah的LSTM教程 5) 《从头实现来理解机器学习算法》 完整版22条 http://t.cn/Ry705Za
http://ww3.sinaimg.cn/large/005HjjGQgw1evjaz9w9o9j30al0dwabs.jpg

自动化网官方微博 网页链接 转发于2015-08-29 18:56
2015蒙特利尔深度学习暑期学校之#自然语言处理。#篇 2) ELM Tutorial 3) 时间序列异常检测 EGADS Surus iForest 4) Colah的LSTM教程 5) 《从头实现来理解#机器学习#算法》 完整版22条 。



http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活 网页链接 2015-08-29 09:20
资源 Ted Cuzzillo 书籍
【真实情境的主动学习】《Real-World Active Learning - Applications and strategies for human-in-the-loop machine learning》by Ted Cuzzillo http://t.cn/Ry7K9C9 pdf:http://t.cn/Ry7K9CK 参阅:http://weibo.com/1402400261/C3sczlzBz
http://ww3.sinaimg.cn/large/5396ee05gw1evj7z0yc7wj210s0q4gp7.jpg



http://tp1.sinaimg.cn/2536116592/50/5716095299/1 iB37 网页链接 2015-08-29 09:10
会议活动 算法 自然语言处理 CIKM SVM 分类 会议 统计
朴素贝叶斯NB是文本分类如垃圾邮件过滤的标准方法,受限于属性间的条件独立性假设,对类不平衡、特征稀疏和属性间强依赖的文档集性能不如SVM。Parallel Lazy Semi-Naive Bayes Strategies for Effective and Efficient Document Classification 松弛这个假设 http://t.cn/Ry7KwKA
http://ww2.sinaimg.cn/large/972a1170gw1evj7oy9ck2j21gq0f5doh.jpg



http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活 网页链接 2015-08-29 06:39
深度学习 算法 Tomas Mikolov 代码 论文
【论文+代码(g++):(FaceBook)基于Stack RNN的(生成)算法模式推断】《Inferring Algorithmic Patterns with Stack-Augmented Recurrent Nets》A Joulin, T Mikolov (2015) http://t.cn/Rwni8Ye GitHub:http://t.cn/Ry768IG
http://ww3.sinaimg.cn/large/5396ee05gw1evj38m6tz0j20f404x400.jpg



http://tp1.sinaimg.cn/2536116592/50/5716095299/1 iB37 网页链接 2015-08-29 00:42
会议活动 算法 应用 知识工程 CIKM 会议 教育网站 信息检索 知识库
利用外部半结构化数据源对象,listwise的learning to rank算法将它们建模为联系查询query和文档doc的隐藏空间。在利用知识库的web搜索和利用受控词汇表的医学搜索两个实验上验证。EsdRank: Connecting Query and Documents through External Semi-Structured Data http://t.cn/Ry7IiaS
http://ww2.sinaimg.cn/large/972a1170gw1evisz2d731j21f10egq9p.jpg




页: [1]
查看完整版本: 机器学习日报 2015-08-29 文档图像除噪;用Spark做大规模并行NLP;数据挖掘系列 关联规则