报告嘉宾:赵行(MIT) 报告时间:2018年06月13日(星期三)晚上20:00(北京时间) 报告题目:像素之声-图像和声音的跨模态自监督学习 主持人:施柏鑫(北京大学) 报告人简介: 赵行本科毕业于浙江大学,于麻省理工媒体实验室完成硕士论文,现为麻省理工计算机与人工智能实验室博士生。主要研究方向为场景解析,视频识别,和跨模态学习。 个人主页: http://www.mit.edu/~hangzhao/ 报告摘要: 深度学习的出现使得利用不同模式信号之间的学习变得容易。但同时,由于神经网络对数据的需求,标注大量的跨模态的数据非常困难。在最近的工作中,我们利用了视频中图像和声音的内在关联性,进行一系列的自监督学习。主要的应用有特征学习,声音识别,声音分离,声源在图像中的定位等。 参考文献: [1] Soundnet: Learning sound representations from unlabeled video, Aytar, Yusuf and Vondrick, Carl and Torralba, Antonio, NIPS 2016. [2] The Sound of Pixels, Zhao, Hang and Gan, Chuang and Rouditchenko, Andrew and Vondrick, Carl and McDermott, Josh and Torralba, Antonio, arXiv:1804.03160 (In Submission) 18-17期VALSE在线学术报告参与方式: 长按或扫描下方二维码,关注”VALSE“微信公众号(valse_wechat),后台回复”17期“,获取直播地址。 特别鸣谢本次Webinar主要组织者: VOOC责任委员:施柏鑫(北京大学) VODB协调理事:彭玺(四川大学) 活动参与方式: 1、VALSE Webinar活动依托在线直播平台进行,活动时讲者会上传PPT或共享屏幕,听众可以看到Slides,听到讲者的语音,并通过聊天功能与讲者交互; 2、为参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ群(目前A、B、C、D、E、F、G群已满,除讲者等嘉宾外,只能申请加入VALSE H群,群号:701662399); *注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。 3、在活动开始前5分钟左右,讲者会开启直播,听众点击直播链接即可参加活动,支持安装Windows系统的电脑、MAC电脑、手机等设备; 4、活动过程中,请不要说无关话语,以免影响活动正常进行; 5、活动过程中,如出现听不到或看不到视频等问题,建议退出再重新进入,一般都能解决问题; 6、建议务必在速度较快的网络上参加活动,优先采用有线网络连接; 7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频(经讲者允许后),每周四发布下一周Webinar报告的通知及直播链接。 |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2025-1-19 07:03 , Processed in 0.013615 second(s), 15 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.