VALSE › 首页 ›活动通知› 好文作者面授招 › 查看内容

20180613-17 赵行：像素之声-图像和声音的跨模态自监督学习

2018-6-7 17:39| 发布者: 程一-计算所| 查看: 5137| 评论: 0

摘要: 报告嘉宾：赵行（MIT）报告时间：2018年06月13日（星期三）晚上20:00（北京时间）报告题目：像素之声-图像和声音的跨模态自监督学习主持人：施柏鑫（北京大学）报告人简介：赵行本科毕业于浙江大学，于麻省理工媒体 ...

报告嘉宾：赵行（MIT）

报告时间：2018年06月13日（星期三）晚上20:00（北京时间）

报告题目：像素之声-图像和声音的跨模态自监督学习

主持人：施柏鑫（北京大学）

报告人简介：

赵行本科毕业于浙江大学，于麻省理工媒体实验室完成硕士论文，现为麻省理工计算机与人工智能实验室博士生。主要研究方向为场景解析，视频识别，和跨模态学习。

个人主页：

http://www.mit.edu/~hangzhao/

报告摘要：

深度学习的出现使得利用不同模式信号之间的学习变得容易。但同时，由于神经网络对数据的需求，标注大量的跨模态的数据非常困难。在最近的工作中，我们利用了视频中图像和声音的内在关联性，进行一系列的自监督学习。主要的应用有特征学习，声音识别，声音分离，声源在图像中的定位等。

参考文献：

[1] Soundnet: Learning sound representations from unlabeled video, Aytar, Yusuf and Vondrick, Carl and Torralba, Antonio, NIPS 2016.

[2] The Sound of Pixels, Zhao, Hang and Gan, Chuang and Rouditchenko, Andrew and Vondrick, Carl and McDermott, Josh and Torralba, Antonio, arXiv:1804.03160 (In Submission)

18-17期VALSE在线学术报告参与方式：

长按或扫描下方二维码，关注”VALSE“微信公众号（valse_wechat），后台回复”17期“，获取直播地址。

特别鸣谢本次Webinar主要组织者：

VOOC责任委员：施柏鑫（北京大学）

VODB协调理事：彭玺（四川大学）

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G群已满，除讲者等嘉宾外，只能申请加入VALSE H群，群号：701662399）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前5分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频（经讲者允许后），每周四发布下一周Webinar报告的通知及直播链接。

[slides]

收藏邀请

上一篇：20180606-16 马林：Image/video Captioning下一篇：20180627-18 王鑫超：Tracking Multiple Objects in Image Sequences

20180613-17 赵行：像素之声-图像和声音的跨模态自监督学习

最新评论

相关分类