报告嘉宾:吴祖煊 (复旦大学) 报告题目:基于Transformer的视频内容理解 报告嘉宾:寿政 (新加坡国立大学) 报告题目:大规模视频-语言预训练 Panel嘉宾: 吴祖煊 (复旦大学),寿政 (新加坡国立大学),赵行 (清华大学),刘洋 (北京大学) Panel议题: 1. 多数大规模视频预训练模型选择了Transformer作为骨干网络, 许多研究跨模态多任务统一模型的工作也选择了Transformer作为落点, Transformer的哪些特性使得其成为预训练和基础模型的首选? 2. 相较于单模态的预训练模型,多模态的预训练模型有哪些突出的优点?多模态预训练可以完全替代以往的单模态预训练嘛?文本图像大规模预训练模型在视频相关的下游任务上表现出不错的泛化性,这种情况下有进行视频多模态预训练的必要和需求是什么? 3. 数据集的规模不断增大,例如KaKao Brain最近放出的COYO-700M数据集包含747M图像文本对,各项视频任务的指标也被大数据和大模型不断推高,这种情况下,学术界在未来视频研究的切入有哪些? 4. 高效视频处理对实际应用具有重要意义,目前提升视频模型的效率有哪些方法?提高大模型处理速度的方法有哪些?视频相关的任务丰富 (跟踪、检测、检索等),这些任务在不同领域 (如自动驾驶、互联网应用)实际落地情况如何? 5. 在视频理解领域,未来有哪些有前景的研究方向是值得探索的,有哪些可预见的挑战? *欢迎大家在下方留言提出主题相关问题,主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题! 报告嘉宾:吴祖煊 (复旦大学) 报告时间:2022年09月14日 (星期三)晚上20:00 (北京时间) 报告题目:基于Transformer的视频内容理解 报告人简介: 吴祖煊,复旦大学计算机科学技术学院副研究员。2020年在美国马里兰大学获得博士学位。主要研究方向为计算机视觉、深度学习与多媒体内容分析。获得2022年AI 2000最具影响力学者奖、2019年微软博士奖学金 (全球10人)、2017年Snap博士奖学金 (全球10人)。带领团队在多项国际比赛中名列前茅,如2018年阿里巴巴FashionAI全球挑战赛服饰关键点定位第四名、2017年谷歌 YouTube视频识别比赛、2014年ICME华为手机视频识别大赛等。担任国际知名期刊审稿人、国际会议程序委员会委员。 个人主页: https://zxwu.azurewebsites.net/ 报告摘要: Transformer在图像识别、物体检测、语义分割等多个图像任务上取得了显著进展,但其在视频任务中的使用仍处于初步阶段。一方面,视频内容丰富多样,如何基于Transformer模型并结合BERT训练范式对视频的时空信息建模以学习得到适用于视频理解的特征值得深入研究;另一方面,视频中冗余信息较多,传统视频识别模型对所有的输入样本分配相同的计算资源,忽略了不同样本之间所含视觉内容的差异性,如何根据输入样本动态调整计算资源以实现快速的视频理解对模型在真实世界中的部署有着重要意义。本报告将介绍基于Transformer的视频内容理解,具体包括高效视频特征学习及动态视频识别。 报告嘉宾:寿政 (新加坡国立大学) 报告时间:2022年09月14日 (星期三)晚上20:30 (北京时间) 报告题目:大规模视频-语言预训练 报告人简介: Mike寿政,是新加坡国立大学 (NUS)助理教授、博导,Show Lab负责人。他在哥伦比亚大学获得博士学位,曾在Meta/ Facebook AI任研究科学家。他的主要研究方向为,视频理解和生成,多模态。他受邀担任一流学术会议如CVPR,ECCV,ACM Multimedia等的领域主席,曾获best paper finalist at CVPR'22, best student paper nomination at CVPR'17. 他带领团队在国际比赛中获得第一名,包括ActivityNet 2017, Ego4D 2022, EPIC-Kitchens 2022. 他当选新加坡国家科研基金委Fellow,入选福布斯30 Under 30亚洲区精英榜。 个人主页: https://sites.google.com/view/showlab 报告摘要: 多模态、大规模预训练模型,如OpenAI的CLIP,效果非常惊艳。Show Lab团队,聚焦在视频多模态上,最近开发了一系列的,大规模预训练模型,比如 (1) all-in-one,一个独立模型统一处理多种视频-语言任务,包括9个数据集4类任务;(2) EgoVLP,第一个第一视角的视频-语言预训练模型。这些预训练模型,在多类任务 (文本-视频检索,视频问答,动作识别,常识推理,时序定位等等),十几个数据集上取得了很好的进展。 Panel嘉宾:赵行 (清华大学) 嘉宾简介: 赵行,清华大学交叉信息研究院助理教授,博士生导师。他的主要研究兴趣包括多模态机器学习,自动驾驶,计算机视觉等。此前,赵行在麻省理工学院MIT取得了博士学位,后于谷歌无人车项目Waymo担任研究科学家。赵行博士的工作曾被多家主流科技媒体报道,如BBC, NBC, 麻省理工科技评论等。他曾获ICCP最佳论文奖,2020年福布斯中国U30科学精英榜。 个人主页: https://hangzhaomit.github.io/ Panel嘉宾:刘洋 (北京大学) 嘉宾简介: 刘洋,北京大学王选计算机研究所助理教授、研究员,博士生导师。在此之前,其博士毕业于英国剑桥大学计算机科学专业,而后曾任英国牛津大学VGG小组博士后研究员。研究方向是跨媒体智能,即运用人工智能算法处理跨模态信息分析与智能融合的相关问题,具体围绕多模态信息表征,跨模态对齐与智能融合,面向开放动态环境的跨模态分析三个方面展开。研究成果多次发表在计算机视觉、机器学习顶级会议上 (CVPR, ICCV, AAAI等),获国际专利授权,四项国际竞赛获奖,部分创新性研究成果及其关键技术已在学术及产业界得到了应用。 主持人:朱霖潮 (浙江大学) 主持人简介: 朱霖潮,浙江大学百人计划研究员。曾获得2020年Google Research Scholar奖,获得美国国家标准总局TRECVID LOC 2016比赛冠军,THUMOS动作识别2015比赛冠军,2019至2020年连续获得EPIC-Kitchens第一视角动作识别多项冠军。主要研究兴趣包括视频内容理解,弱监督视频特征学习,多模态视频内容理解等。 个人主页: ffmpbgrnn.github.io/ 特别鸣谢本次Webinar主要组织者: 主办AC:朱霖潮 (浙江大学) 协办AC:刘洋 (北京大学) 活动参与方式 1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们! 直播地址: https://live.bilibili.com/22300737; 历史视频观看地址: https://space.bilibili.com/562085182/ 2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ R群,群号:137634472); *注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。 3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。 4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。 |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2024-11-22 18:01 , Processed in 0.015824 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.