17-29期VALSE Webinar会后总结
南京大学俞扬副教授2017年12月13日VALSE Webinar 成功举办.俞扬,博士,南京大学副教授。主要研究领域为机器学习、强化学习、演化计算。分别于2004年和2011年获得南京大学计算机科学与技术系学士学位和博士学位,获2013年全国优秀博士学位论文奖、2011年中国计算机学会优秀博士学位论文奖。2011年8月加入南京大学计算机科学与技术系、机器学习与数据挖掘研究所(LAMDA)从事教学与科研工作。发表论文40余篇,包括多篇Artificial Intelligence、IJCAI、AAAI、NIPS等,研究成果获得5项国际论文和竞赛奖。讲者个人主页:http://cs.nju.edu.cn/yuy.
俞扬副教授Webinar的题目为:高效强化学习的一些探索.
在报告中,俞扬副教授首先回顾了深度强化学习的相关理论和进展。强化学习通过自主与环境交互,学习适应环境的最佳策略,已经显示出巨大的应用潜力。然而目前强化学习方法通常样本利用率低,依赖大量环境交互数据,获得最佳策略所需开销极大,阻碍了其在许多真实环境中的应用。在报告中,俞扬副教授首先介绍了他们在无梯度优化方面的工作,针对强化学习优化效率低的问题,从采样的角度解决强化学习的优化问题,以及在团队在理论研究方面的工作,包括强化学习的优化、算法以及领域迁移方面的工作,并介绍了其开发的优化工具包。本次报告受到了热烈的关注,参加人数接近400人.
问答部分:
问题1:请问DFO相对于梯度下降的最明显的优势是什么?
回答:可以用在很复杂的问题,例如局部不可导、局部最优可以取得比较好的效果。之前的方法,例如粒子群方法,主要是启发式方法,目前贝叶斯优化等理论在逐渐的完善。
问题2:强化学习如何用于信息检索,尤其推荐系统中?
回答:强化学习在信息检索中,主要面临的是在线训练过程中,性能会有下降,因此需要构造比较好的离线环境。
问题3:游戏里面训练RL,这是不是需要利用多智能体强化学习?这方面的发展如何?难点在哪里?
回答:很多问题需要多智能体,但是通常决策空间比较大,所以给优化带来很大困难。
问题4: 您对这种Model-Free与Model-based结合的模型怎么看?是否代表未来的方向?因为Model-based的方法可以减少sample数量,也可以在模拟器中predict
回答:Model-base是未来的趋势,之前主要的局限是环境的model比较难学,近期的有很多介于model-base和model-free之间的工作,可以通过predict learning的方式来学习,将会成为发展方向。
问题 5: 您觉得alphaGo的框架对于其他问题有启示意义吗?
回答:AlphaGo需要有比较好的天然模拟器,例如棋牌类的游戏,但是在缺乏比较好的模拟器的环境,尚很难解决。
录像视频在线观看地址: http://www.iqiyi.com/u/2289191062
活动参与方式:
1、VALSE Webinar活动全部网上依托VALSE QQ群的“群视频”功能在线进行,活动时讲者会上传PPT或共享屏幕,听众可以看到Slides,听到讲者的语音,并通过文字或语音与讲者交互;
2、为参加活动,需加入VALSE QQ群,目前A、B、C、D、E、F群已满,除讲者等嘉宾外,只能申请加入VALSE G群,群号:669280237。申请加入时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M
3、为参加活动,请下载安装Windows QQ最新版,群视频不支持非Windows的系统,如Mac,Linux等,手机QQ可以听语音,但不能看视频slides;
4、在活动开始前10分钟左右,主持人会开启群视频,并发送邀请各群群友加入的链接,参加者直接点击进入即可;
5、活动过程中,请勿送花、棒棒糖等道具,也不要说无关话语,以免影响活动正常进行;
6、活动过程中,如出现听不到或看不到视频等问题,建议退出再重新进入,一般都能解决问题;
7、建议务必在速度较快的网络上参加活动,优先采用有线网络连接。
页:
[1]