VALSE Webinar 20240417-11期总第345期视频生成与理解

2024-4-12 13:16| 发布者: 程一-计算所| 查看: 986| 评论: 0

摘要: 报告嘉宾：罗平 (香港大学)报告题目：Efficient Diffusion Transformer for Image and Video Generation报告嘉宾：吴祖煊 (复旦大学)报告题目：视频内容理解与生成Panel嘉宾：罗平 (香港大学)、吴祖煊 (复旦大学)、 ...

报告嘉宾：罗平 (香港大学)

报告题目：Efficient Diffusion Transformer for Image and Video Generation

报告嘉宾：吴祖煊 (复旦大学)

报告题目：视频内容理解与生成

Panel嘉宾：

罗平 (香港大学)、吴祖煊 (复旦大学)、王利民 (南京大学)、邱钊凡 (HiDream.ai)、白磊 (上海人工智能实验室)、曾爱玲 (腾讯)

Panel议题：

1. 在计算资源受限的情况下，视频理解与视频生成领域哪些研究点值得推荐给在校学生进行研究？

2. 对比图像生成任务，视频生成任务存在哪些挑战与困难，如何去发掘新的科研视角？

3. 大模型时代，基于海量数据训练统一的模型架构 (Transformer)成为表征学习的主流范式。传统的基于小规模视频数据 (K400/600、SSV2等)，针对时空建模的模型设计研究是否还有前景？

4. 当前一些新型热门技术，如Sora、Mamba等，对视频理解和生成的未来研究有什么启示和帮助？

5. 下一代视频理解与生成大模型的主要突破口可能有哪些，高校与企业在其中分别能扮演什么角色？

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：罗平 (香港大学)

报告时间：2024年4月17日 (星期三)晚上20:00 (北京时间)

报告题目：Efficient Diffusion Transformer for Image and Video Generation

报告人简介：

Ping Luo is an Associate Professor in the Department of Computer Science at the University of Hong Kong, an Associate Director of the HKU Musketeers Foundation Institute of Data Science (HKU IDS), and a Deputy Director of the Joint Research Lab of HKU and Shanghai AI Lab. He obtained his Ph.D. in Information Engineering from the Chinese University of Hong Kong in 2014, under the supervision of Professor Xiaoou Tang and Xiaogang Wang. Before joining HKU in 2019, he was a Research Director in SenseTime. He has published 100+ papers in international conferences and journals such as TPAMI, ICML, ICLR, NeurIPS, and CVPR, with over 48,000 citations on Google Scholar. He was awarded the 2015 AAAI Easily Accessible Paper, nominated for the 2022 Computational Visual Media Journal's Best Paper of the Year, won the 2022 ACL Outstanding Paper, the 2023 World Artificial Intelligence Conference (WAIC) Outstanding Papers, and was a candidate for the Best Paper at ICCV’23. He was recognized as one of the innovators under 35 in the Asia-Pacific region by the MIT Technology Review (MIT TR35) in 2020. He has mentored 30 Ph.D. students, many of whom have received significant awards such as the Nvidia Fellowship, Baidu Fellowship, WAIC Yunfan Award, etc.

个人主页：

https://www.cs.hku.hk/index.php/people/academic-staff/pluo

https://scholar.google.com.hk/citations?user=aXdjxb4AAAAJ

报告摘要：

This talk will introduce a series of our recent work on the model, data, and computing efficiency of image and video generation developed from 2022 to 2024, such as RAPHAEL (NeurIPS’23), Video DiT (ICLR’24), PixArt-alpha (ICLR’24), PixArt-delta (arXiv:2401.05252), PixArt-sigma (arXiv:2403.04692), GenTron (CVPR’24), DiffAgent (CVPR’24), and implicit prompting (arXiv:2403.02118), with emphasis on the technical details, philosophy, and experience in conducting these researches.

参考文献：

[1] Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo, Raphael: Text-to-image generation via large mixture of diffusion paths, Advances in Neural Information Processing Systems, 2023

[2] Yue Yang, Hong Liu, Wenqi Shao, Runjian Chen, Hailong Shang, Yu Wang, Yu Qiao, Kaipeng Zhang, Ping Luo, Towards Implicit Prompt For Text-To-Image Models, arXiv:2403.02118, 2024

[3] Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li, PixArt-Sigma: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation, arXiv:2403.04692, 2024

[4] Shoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, Juan-Manuel Perez-Rua, GenTron: Delving Deep into Diffusion Transformers for Image and Video Generation, CVPR 2024

[5] Qiushan Guo, Sifei Liu, Yizhou Yu, Ping Luo, Rethinking the Noise Schedule of Diffusion-Based Generative Models, arXiv preprint, 2024

[6] Haoyu Lu, Guoxing Yang, Nanyi Fei, Yuqi Huo, Zhiwu Lu, Ping Luo, Mingyu Ding, VDT: General-purpose video diffusion transformers via mask modeling, ICLR 2024

[7] Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, Zhenguo Li, PixArt-alpha: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis, ICLR 2024

[8] Lirui Zhao, Yue Yang, Kaipeng Zhang, Wenqi Shao, Yuxin Zhang, Yu Qiao, Ping Luo, Rongrong Ji, DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model, CVPR 2024

报告嘉宾：吴祖煊 (复旦大学)

报告时间：2024年4月17日 (星期三)晚上20:30 (北京时间)

报告题目：视频内容理解与生成

报告人简介：

吴祖煊，复旦大学计算机科学技术学院副教授、博士生导师，入选国家级青年人才计划。2020年在美国马里兰大学获得博士学位。主要研究方向为计算机视觉与深度学习，近年来发表TPAMI、IJCV、ACM/IEEE汇刊、CVPR、NeurIPS等中国计算机学会A类国际期刊、会议长文五十余篇，谷歌学术引用7000余次。曾获2022年教育部自然科学奖一等奖、2022年AI 2000多媒体领域最具影响力学者等奖项。主持国家自然科学基金青年基金、科技创新2030“新一代人工智能”重大项目子课题以及来自华为等知名企业的多项科研项目。担任CVPR、NeurIPS等多个国际顶级学术会议领域主席或高级程序委员会委员。

个人主页：

https://zxwu.azurewebsites.net/

报告摘要：

随着电子设备和互联网技术的不断普及和成熟，视频正逐渐成为用户更加偏好的内容传播方式。在视频总体数量急剧上升的背景下，如何高效识别视频中的动作、事件，实现对视频内容的自动理解对视频推荐、视频检索、智能安防等应用有着重要的意义。此外，高效的视频理解技术对于实现高质量的视频内容生成具有重要意义。本报告聚焦高效视频内容理解与生成，主要内容包括两个方面：(1) 针对内容理解，探讨视频的高效表征学习；(2) 针对内容生成，探讨基于扩散模型的视频生成与编辑。

参考文献：

[1] BEVT: BERT Pretraining of Video Transformers.IEEE Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, USA, June, 2022

Rui Wang, Dongdong Chen, Zuxuan Wu, Yinpeng Chen, Xiyang Dai, Mengchen Liu, Yu-Gang Jiang, Luowei Zhou, Lu Yuan

[2] OmniVL: One Foundation Model for Image-Language and Video-Language Tasks.Advances in Neural Information Processing Systems (NeurIPS), New Orleans, USA, Dec., 2022.

Junke Wang, Dongdong Chen, Zuxuan Wu, Chong Luo, Luowei Zhou, Yucheng Zhao, Yujia Xie, Ce Liu, Yu-Gang Jiang, Lu Yuan

[3] AdaFrame: Adaptive Frame Selection for Fast Video Recognition. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, USA, June, 2019

Zuxuan Wu, Caiming Xiong, Chih-Yao Ma, Richard Socher, Larry S Davis

[4] A Survey on Video Diffusion Models. Zhen Xing, Qijun Feng, Haoran Chen, Qi Dai, Han Hu, Hang Xu, Zuxuan Wu, Yu-Gang Jiang. https://arxiv.org/abs/2310.10647

Panel 嘉宾：王利民 (南京大学)

嘉宾简介：

王利民，南京大学教授，博士生导师，国家海外高层次青年人才计划入选者，科技创新2030-“新一代人工智能”重大项目青年科学家。2011年在南京大学获得学士学位，2015年在香港中文获得博士学位，2015年至2018年在苏黎世联邦理工学院 (ETH Zurich)从事博士后研究工作。主要研究领域为计算机视觉和深度学习，专注视频理解和动作识别，在IJCV、T-PAMI、CVPR、ICCV、NeurIPS等重要学术期刊和会议发表论文70余篇。根据Google Scholar统计，论文被引用 22000余次，两篇一作论文取得了单篇引用接近或者超过4000的学术影响力。在视频分析领域提出了系列有重要影响力的基础模型和基准方法，例如：TSN网络结构，VideoMAE预训练方法，MixFormer跟踪器等等。曾获得广东省技术发明一等奖，世界人工智能大会青年优秀论文奖。入选2022-2023年度AI 2000人工智能全球最具影响力学者榜单 (计算机视觉方向)，2022年度全球华人AI青年学者榜单，2021-2022年度爱思唯尔中国高被引学者榜单。担任CVPR/ ICCV/ NeurIPS等重要国际会议的领域主席和计算机视觉领域旗舰期刊IJCV的编委。

个人主页：

https://wanglimin.github.io/

Panel 嘉宾：邱钊凡 (HiDream.ai)

嘉宾简介：

邱钊凡博士，生成式人工智能初创公司HiDream.ai算法科学家。主要研究方向为视频理解与生成，多媒体内容分析，曾获得微软学者奖学金 (2017)、中科院院长奖优秀奖 (2020)、ACM中国SIGMM最佳博士论文 (2021)，百度全球AI华人百大新星 (2021)。在国际学术会议和期刊上已发表高水平学术50余篇，谷歌学术引用5000余次，曾在视觉内容分析和理解的国际学术竞赛中7次获得冠军，并参与研发了多款日活百万的商业产品。

个人主页：

http://zhaofanqiu.deepfun.club/

Panel 嘉宾：白磊 (上海人工智能实验室)

嘉宾简介：

白磊，上海人工智能实验室青年科学家，AI4Earth团队负责人。博士毕业于新南威尔士大学 (QS Rank世界前20)，其后于悉尼大学任博士后研究员。主要研究方向为时空生成智能及其在地球科学领域 (如全球气象气候预测)的应用。已在Nature子刊、IEEE TPAMI、NeurIPS、CVPR、KDD等人工智能领域顶级期刊会议发表学术论文70余篇，并长期担任相关期刊会议的审稿人或程序委员会委员。谷歌学术论文引用2000余次。负责研发的风乌气象大模型将全球中期气象预报可用性提高到10天以上，计算效率较传统方法提高2000倍以上，被新华社、人民网、中国新闻周刊、环球时报等主流媒体报道。基于其研究工作入选国家及上海市人才计划，获2022年世界人工智能大会云帆奖、2020年新南威尔士大学工程研究卓越奖、2019年谷歌博士奖学金等。

个人主页：

http://leibai.site/

Panel 嘉宾：曾爱玲 (腾讯)

嘉宾简介：

曾爱玲目前是腾讯资深研究员，前粤港澳大湾区数字经济研究院 (IDEA)计算机视觉与机器人研究员，负责以人为中心的视觉和多模态感知、理解、交互和生成方向，具体包括2D/ 3D人体姿态估计/ 动作识别/ 三维人体重建/ 基于LLM的动作理解，以及多模态可控的人物图片/ 动作/ 视频生成。她于2022年在香港中文大学计算机科学与工程系获得博士学位，期间在卡内基梅隆大学做访问学者。她在相关顶级学术会议CVPR、ICCV、ECCV、ICLR、AAAI等上发表了三十多篇论文，谷歌学术引用超过一千次，主导的工作在Github star累计超过八千次，其中一篇第一作者的时空长序列预测文章评选为AAAI2023最有影响力的Top-3研究工作。

个人主页：

https://ailingzeng.site/

主持人：舒祥波 (南京理工大学)

主持人简介：

舒祥波，南京理工大学计算机科学与工程学院/ 人工智能学院院长助理、教授、博士生导师、国家优秀青年基金获得者、江苏省杰出青年基金获得者、CCF/ IEEE高级会员。近年主要研究兴趣为视频内容分析、视频行为理解，在TPAMI、TIP、TNNLS、CVPR、ICCV、ACM MM等国际期刊/ 会议上发表学术论文近100篇, 其中ESI高被引论文7篇；获中国电子学会自然科学一等奖、ACM MM 2015最佳论文提名、MMM 2016最佳学生论文奖、江苏省优秀博士论文奖、中国人工智能学会优秀博士论文奖；承担国家自然科学重点/ 面上/ 青年项目、国家重点研发课题、国防基础科研项目等国家级项目。担任CSIG青工委副秘书长，以及IEEE TNNLS、IEEE TCSVT、Information Sciences等期刊编委，获2022年度IEEEE TNNL、IEEE TMI杰出审稿人。

个人主页：

https://shuxb104.github.io/

Panel 嘉宾：严锐 (南京大学)

嘉宾简介：

严锐，南京大学计算机科学与技术系助理研究员 (毓秀青年学者)。博士毕业于南京理工大学计算机科学与工程学院。主要研究方向为多媒体内容理解。先后在新加坡国立大学、华为、腾讯、字节跳动从事研究工作。主持自然科学基金青年项目、国家博士后资助计划、中国博士后科学基金特别资助项目和面上资助项目，江苏省卓越博士后计划，集成公关大平台揭榜挂帅项目；参与科技创新2030“新一代人工智能”重大项目、基金委生命科学部专项项目。发表多媒体领域国际顶级会议与期刊三十余篇，包括TPAMI、CVPR、ICCV、ECCV、NeurIPS、MM等。担任包括TPAMI、MM、CVPR在内的多个国际顶级学术期刊/会议审稿人。

个人主页：

https://ruiyan1995.github.io/

特别鸣谢本次Webinar主要组织者：

主办AC：舒祥波 (南京理工大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ S群，群号：317920537）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。

4、您也可以通过访问VALSE主页：http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新。

收藏邀请

上一篇：VALSE 2024关于第二次【预注册】通知下一篇：VALSE 2024关于【参会确认和现场签到】通知

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-11-13 21:08 , Processed in 0.014111 second(s), 14 queries .

返回顶部

VALSE Webinar 20240417-11期 总第345期 视频生成与理解

相关分类

下级分类

VALSE Webinar 20240417-11期总第345期视频生成与理解