VALSE

VALSE 首页 活动通知 查看内容

VALSE Student Webinar 20220529-03期 总第280期 When CV meets NLP

2022-5-28 17:30| 发布者: 程一-计算所| 查看: 1251| 评论: 0

摘要: 报告时间2022年05月29日 (星期日)上午09:00 (北京时间)主 题When CV meets NLP主持人刘乾 (北京航空航天大学)秦浩桐 (北京航空航天大学)刘偲 (北京航空航天大学)报告嘉宾:都一凡(中国人民大学)报告题目:视觉-语言 ...

报告时间

2022年05月29日 (星期日)

上午09:00 (北京时间)

主  题

When CV meets NLP

主持人

刘乾 (北京航空航天大学)

秦浩桐 (北京航空航天大学)

刘偲 (北京航空航天大学)


报告嘉宾:都一凡 (中国人民大学)

报告题目:视觉-语言预训练模型综述


报告嘉宾:鲍航波 (哈尔滨工业大学)

报告题目:BEiT: BERT Pre-Training of Image Transformers


报告嘉宾:张宋扬 (罗切斯特大学)

报告题目:视频辅助的句法分析


报告嘉宾:卢雨洁 (加州大学)

报告题目:视觉想象辅助语言理解


Panel议题:

1. 目前是否出现了CV和NLP方法相互融合、启发的趋势,为什么?现有方法还有什么不足需要继续深挖?

2. 大家觉得CV能够帮助NLP任务,或者NLP任务能够帮助CV任务吗?

3. 大家觉得除了预训练之外,对于VL未来的发展路线各位老师有什么看法?

 

Panel嘉宾:

张含望 (新加坡南洋理工大学)、段楠 (微软亚洲研究院)、吴琦 (澳大利亚阿德莱德大学)、魏忠钰 (复旦大学)


*欢迎大家在下方留言提出主题相关问题,主持人和Panel嘉宾会从中选择若干热度高的问题加入Panel议题!



报告嘉宾:都一凡 (中国人民大学)

报告时间:2022年05月29日 (星期日)上午09:00 (北京时间)

报告题目:视觉-语言预训练模型综述


报告人简介:

都一凡,中国人民大学高瓴人工智能学院准直博生,研究方向为自然语言处理和多模态预训练模型。在IJCAI-ECAI 2022 survey track发表论文一篇:A survey of Vision-Language Pre-trained Models。本次报告主要围绕该survey展开。


报告简介:

预训练模型在CV和NLP领域得到了极大的关注,并在视觉-语言学习领域中逐渐崛起。如何设计预训练模型的架构和代理任务,通过在大规模图文对齐的数据上进行预训练,并迁移到下游任务上,成为了视觉-语言学习的焦点问题。本次报告从视觉和语言端的特征表示出发,进一步总结了当前视觉-语言预训练模型的常用架构和代理任务,以及预训练模型擅于解决的各种下游任务,最后对视觉-语言预训练模型未来的研究趋势做了展望。



报告嘉宾:鲍航波 (哈尔滨工业大学)

报告时间:2022年05月29日 (星期日)上午09:20 (北京时间)

报告题目:BEiT: BERT Pre-Training of Image Transformers


报告人简介:

鲍航波,哈尔滨工业大学在读博士。他的研究方向为自监督学习与预训练技术,主要从事自然语言处理、计算机视觉以及多模态的自监督学习的研究,在ICML, ICLR, NeurIPS, ACL等国际会议上发表多篇论文。他发表并开源了视觉Transformer的BERT预训练(BEiT),首次将自然语言处理中流行的生成式预训练成功的复刻到了计算机视觉领域,并为后续相关的学术界研究提供了较大便利。


报告摘要:

近年来,大规模自监督预训练在自然语言领域率先取得了突破性进展,带来了全新的“预训练-微调”范式。在GPT、BERT等一系列 “出圈” 工作中,生成式自监督占绝对优势。但在计算机视觉领域,大多数工作沿着对比学习的思路进行推进,而生成式自监督预训练一直没有得到应有的重视。基于这个观察,我们提出了BEiT自监督模型,使用掩码图像建模 (Masked Image Modeling) 这一任务,对Vision Transformers进行预训练。BEiT首次验证了生成式预训练可以取得比对比学习更好的微调结果,并在图像分类以及语义分割上取得了优异结果。更重要的是,通过摆脱对监督式预训练的依赖,BEiT可以高效使用无标注图片将Vision Transformers扩展到巨大的模型规模。相信BEiT在视觉领域所引发的“生成式自监督复兴”,会加速领域到达“the BERT moment of CV”。



报告嘉宾:张宋扬 (罗切斯特大学)

报告时间:2022年05月29日 (星期日)上午09:40 (北京时间)

报告题目:视频辅助的句法分析


报告人简介:

张宋扬,罗切斯特大学计算机系四年级博士生。之前分别于东南大学和浙江大学获得计算机科学与技术的本科和硕士学位。主要研究方向是视频片段的时间定位和句法分析。博士发表过多篇顶会论文,包括ACMMM,AAAI,NAACL。2019年在HACS视频时间定位比赛中获得第一名。2021年获得NAACL最佳长文奖。


报告摘要:

近年来,有一系列工作利用视觉信号来提升句法分析器的性能,并取得了不错的结果。但这些工作局限于静态图片,却忽略了视频中物体场景等动态变化的信息。而这些动态信息往往对于动词性短语的句法学习更有用。本文首先研究了视频中不同类型的特征 (物体,动作,场景,声音,人脸,OCR和语音)对句法分析器的影响。此外,本文还提出了一个新的模型Multi-Modal Compound PCFG (MMC-PCFG),可有效利用多种不同视频特征进一步提高句法分析器的性能。



报告嘉宾:卢雨洁 (加州大学)

报告时间:2022年05月29日 (星期日)上午10:00 (北京时间)

报告题目:视觉想象辅助语言理解


报告人简介:

卢雨洁,加州大学圣巴巴拉分校计算机科学博士一年级,本科毕业于浙江大学竺可桢学院。研究领域主要为视觉和语言,机器人学,数据挖掘。曾在NAACL, CoRL, WWW等会议发表论文并审稿。


报告摘要:

人脑同时整合语言和感知信息以理解自然语言,并具有渲染想象力的关键能力。这种能力使我们能够构建新的抽象概念或具体对象,并且对于涉及实践知识以解决低资源场景中的问题至关重要。然而,大多数现有的自然语言理解 (NLU)方法主要集中在文本信号处理上。它们不模拟人类的视觉想象能力,这阻碍了模型从有限的数据样本中有效地推断和学习。因此,我们引入了一种想象增强的跨模态编码器 (iACE),以从一种新颖的学习角度解决自然语言理解任务——想象增强的跨模态理解。



报告主持人:刘乾 (北京航空航天大学)


主持人简介:

刘乾,北京航空航天大学与微软亚洲研究院联合培养博士,师从赵沁平院士和楼建光资深研究员。研究兴趣为语义解析和对话系统,自然语言处理。在ACL/EMNLP/NeurIPS/AAAI等会议上发表16篇论文。曾获百度奖学金提名奖、国家奖学金、博士学术卓越基金、院长特别奖等。



报告主持人:秦浩桐 (北京航空航天大学)


主持人简介:

秦浩桐,北京航空航天大学博士,师从李未院士和刘祥龙教授。研究兴趣为深度神经网络量化压缩。在ICLR/CVPR/ICCV/IJCAI等会议期刊上发表15余篇论文。曾获腾讯犀牛鸟精英人才、国家奖学金、博士学术卓越基金、华为奖学金等。



Panel嘉宾:张含望 (新加坡南洋理工大学)


嘉宾简介:

张含望是新加坡南洋理工大学的“南洋”助理教授。张教授于2009年本科毕业于浙江大学“竺可桢学院”,2014年博士毕业于新加坡国立大学,随后留校从事博士后研究工作。2017年赴美国哥伦比亚大学担任博士后研究院,随后于2018年加入南洋理工大学任教并创立“机器推理学习”实验室(MReaL)。他的研究方向是利用因果论来处理计算机视觉和自然语言处理中的数据偏见问题。其研究成果多次获得学界的认可,比如新加坡2021年青年科学家总统奖, 电子信息学会2020年“十大”AI青年学者,以及多项最佳论文奖。



Panel嘉宾:段楠 (微软亚洲研究院)


嘉宾简介:

段楠博士,微软亚洲研究院高级研究员/研究经理,中国科学技术大学兼职博导,天津大学兼职教授,CCF杰出会员,主要从事自然语言处理、编程语言处理、多模态人工智能、机器推理等研究。



Panel嘉宾:吴琦 (澳大利亚阿德莱德大学)


嘉宾简介:

吴琦,澳大利亚阿德莱德大学高级讲师 (副教授),博士生导师,澳大利亚青年学者基金获得者 (Australian Research Council DECRA Fellow),澳大利亚机器人视觉研究中心 (ACRV)vision-language课题组组长,澳大利亚科学院罗素奖获得者。吴琦博士于2015年在英国巴斯大学获得博士学位,致力于计算机视觉领域研究,尤其关注于计算机视觉-自然语言相关领域的研究。吴琦博士在CVPR,ICCV,ECCV,  NeurIPS,AAAI, TPAMI等多个著名国际会议和期刊发表论文七十余篇,吴琦博士亦担任TPAMI,IJCV,CVPR,ACL,NeurIPS等学术期刊会议审稿人以及 ICCV,AAAI 领域主席.



Panel嘉宾:魏忠钰 (复旦大学)


嘉宾简介:

魏忠钰,复旦大学大数据学院副教授,智能复杂体系实验室双聘研究员,博士生导师,复旦大学数据智能与社会计算实验室 (Fudan DISC)负责人,复旦-中电金信智能金融科技联合研究中心主任,香港中文大学博士,美国德州大学达拉斯分校博士后。现任中文信息学会情感计算专委会副秘书长,社交媒体处理专委会常务委员兼秘书,青年工作委员会执行委员。在自然语言处理、人工智能领域的国际会议、期刊如CL,ACL,SIGIR,EMNLP,ICML, ICLR, AAAI,IJCAI等发表学术论文70余篇。担任多个重要国际会议及期刊评审,是EMNLP 2020 多模态领域主席,EMNLP 2021 论辩挖掘与情感计算领域主席,IJCAI 2021年程序委员会高级委员 (SPC)。曾获得2017年度上海市青年扬帆计划,2019年度中国中文信息学会社会媒体处理新锐奖,2020年度华为技术优秀成果奖,2021年上海市启明星计划等。



Panel主持人:刘偲 (北京航空航天大学)


主持人简介:

刘偲,北京航空航天大学教授,博导。研究方向是跨模态多媒体智能分析 (跨模态包含自然语言,计算机视觉以及声音等)以及经典计算机视觉任务 (目标检测、跟踪和分割)。共发表了CCF A类论文数十篇,其研究成果发表于TPAMI、IJCV和CVPR等。Google Scholar引用8700+次。带领学生获得ACM MM 2021 Best Paper Awards,以及10项CVPR、ICCV、ACL等国际竞赛冠军。主办了ECCV 2018、ICCV 2019、CVPR 2021‘Person in Context’workshop。多次担任ICCV、CVPR、ECCV、MM等会议AC。




特别鸣谢本次Webinar主要组织者:

主办AC:刘偲 (北京航空航天大学)


活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们!

直播地址:

https://live.bilibili.com/22300737;

历史视频观看地址:

https://space.bilibili.com/562085182/ 


2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ R群,群号:137634472);


*注:申请加入VALSE QQ群时需验证姓名、单位和身份缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。


3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。


4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2024-3-29 22:27 , Processed in 0.016432 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部