VALSE Webinar 20240313-06期总第340期 Sora与视频生成新时代

2024-3-7 19:30| 发布者: 程一-计算所| 查看: 2771| 评论: 0

摘要: 报告嘉宾：刘子纬 (新加坡南洋理工大学)报告题目：Vchitect: Building Open-Source Foundation System for Video Generation报告嘉宾：朱政 (极佳科技)报告题目：视频生成与通用世界模型Panel嘉宾：刘子纬 (新加坡南 ...

报告嘉宾：刘子纬 (新加坡南洋理工大学)

报告题目：Vchitect: Building Open-Source Foundation System for Video Generation

报告嘉宾：朱政 (极佳科技)

报告题目：视频生成与通用世界模型

Panel嘉宾：

刘子纬 (新加坡南洋理工大学)、朱政 (极佳科技)、谢凌曦 (华为)、朱霖潮 (浙江大学)、李崇轩 (中国人民大学)、袁粒 (北京大学深圳研究生院)

Panel议题：

1. Sora解决了传统视频生成领域中的哪些问题，还有哪些不足，这些不足可能通过哪些技术路线来改进？

2. Sora和如今的视频生成技术将会给视频行业 (如短视频、动画片乃至电影等)以及其他领域 (如自动驾驶、游戏等)带来哪些变化，距离真正的商业化和应用落地，还有多远的路要走？

3. 未来是否可能出现开源开放的模型，达到比拟Sora的效果？我国科研界与工业界应当如何跟进 (特别是在算力资源受限的情况下)？

4. Sora以及与其相关的生成式模型，除了娱乐内容生成，还将在通向AGI的道路上发挥什么作用？

5. 如何看待ChatGPT与Sora之间的联系，它们给世界带来的变化将会有哪些相似和不同之处？在自然语言领域和视频领域之后，下一个现象级大模型有可能出现在哪个领域？

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：刘子纬 (新加坡南洋理工大学)

报告时间：2024年3月13日 (星期三)晚上20:00 (北京时间)

报告题目：Vchitect: Building Open-Source Foundation System for Video Generation

报告人简介：

Prof. Ziwei Liu is currently a Nanyang Assistant Professor at Nanyang Technological University, Singapore. His research revolves around computer vision, machine learning and computer graphics. He has published extensively on top-tier conferences and journals in relevant fields, including CVPR, ICCV, ECCV, NeurIPS, ICLR, SIGGRAPH, TPAMI, TOG and Nature - Machine Intelligence. He is the recipient of Microsoft Young Fellowship, Hong Kong PhD Fellowship, ICCV Young Researcher Award, HKSTP Best Paper Award, CVPR Best Paper Award Candidate, WAIC Yunfan Award, ICBS Frontiers of Science Award and MIT Technology Review Innovators under 35 Asia Pacific. He has won the championship in major computer vision competitions, including DAVIS Video Segmentation Challenge 2017, MSCOCO Instance Segmentation Challenge 2018, FAIR Self-Supervision Challenge 2019, Video Virtual Try-on Challenge 2020 and Computer Vision in the Wild Challenge 2022. He is also the lead contributor of several renowned computer vision benchmarks and softwares, including CelebA, DeepFashion, MMHuman3D and MMFashion. He serves as an Area Chair of CVPR, ICCV, ECCV, NeurIPS and ICLR, as well as an Associate Editor of IJCV.

个人主页：

https://liuziwei7.github.io

报告摘要：

Generating photorealistic and controllable video contents has been a long-pursuing goal of artificial intelligence (AI), with extensive real-world applications. It is also at the core of world model. In this talk, I will present Vchitect, our recent endeavor in building an open-source foundation system for video generation, with an emphasis on a full-cycle investigation from effective data, diffusion algorithms, transformer architectures to evaluation benchmarks. Our integral video generation system has shown its effectiveness and generalizability on a wide range of tasks.

参考文献：

[1] Yaohui Wang et al., "Lavie: High-quality video generation with cascaded latent diffusion models", arXiv 2023.

[2] Xinyuan Chen et al., "Seine: Short-to-long video diffusion model for generative transition and prediction", ICLR 2024.

[3] Ziqi Huang et al., "Vbench: Comprehensive benchmark suite for video generative models”, CVPR 2024

报告嘉宾：朱政 (极佳科技)

报告时间：2024年3月13日 (星期三)晚上20:30 (北京时间)

报告题目：视频生成与通用世界模型

报告人简介：

朱政，现任极佳科技联合创始人、首席科学家。2021年至2023年任鉴智机器人研究总监、科学家，2019年至2021年在清华大学自动化系从事博士后研究，2019年博士毕业于中国科学院自动化研究所。曾在商汤科技、地平线机器人、格灵深瞳等公司进行研究实习工作。在TPAMI、CVPR、ICCV、ECCV等顶级国际期刊和会议上发表论文五十余篇，文章总引用8000余次，代表作包括业界知名的BEVDet、WebFace260M、SiamRPN、DaSiamRPN等，多项工作被集成进OpenCV。在KITTI、nuScenes、NIST-FRVT等榜单上排名第一，并获得过COCO、VOT等顶级视觉竞赛冠军，在ICCV 2021上组织戴口罩人脸识别比赛，将近500支队伍参赛并完成超过10000次提交。担任权威人脸识别国际会议IEEE FG 2023领域主席，担任TPAMI、IJCV、CVPR、ICCV、ICLR 等多个顶级国际期刊和会议审稿人。

个人主页：

https://scholar.google.com.hk/citations?user=NmwjI0AAAAAJ&hl=en

报告摘要：

最近公布的Sora系统引起了公众对视频生成技术的极大关注，OpenAI更是将其称为世界模拟器。那么国内视频生成技术距离Sora还有多少差距？目前业界的视频生成技术距离理想中的通用世界模型还有多远？视频生成是否是除了语言模型之外另一条通往通用人工智能 (AGI)的道路？本报告将会对这些问题展开讨论，另外将会分享我们在视频生成和通用世界模型方面的最新工作，包括自动驾驶世界模型DriveDreamer、通用视频生成模型WorldDreamer、人体建模生成模型HumanDreamer等。

参考文献：

[1] DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving. Xiaofeng Wang, Zheng Zhu, Guan Huang, Xinze Chen, Jiagang Zhu, Jiwen Lu. arXiv 2023.

[2] WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens. Xiaofeng Wang, Zheng Zhu, Guan Huang, Boyuan Wang, Xinze Chen, Jiwen Lu. arXiv 2024.

[3] HumanDreamer: Animating Your Single Image into Controllable Videos. Xinze Chen, Busheng Su, Tian Yang, Xin Liu, Dengke Shang, Zheng Zhu, Guan Huang. https://humandreamer.github.io/. 2024.

Panel 嘉宾：谢凌曦 (华为)

嘉宾简介：

谢凌曦博士目前是华为公司的高级研究员。他分别于2010年和2015年于清华大学获得本科和博士学位，并且于2015年至2019年期间在美国加州大学洛杉矶分校和约翰霍普金斯大学担任博士后研究员。谢凌曦博士的研究兴趣覆盖计算机视觉的各个方向，主要包括统计学习方法和深度学习模型的应用。他的研究工作覆盖图像分类、物体检测、语义分割和其他视觉任务，并积极推动自动机器学习算法和视觉基础模型在上述领域的应用。谢凌曦博士已经在国际顶级的学术会议和期刊上发表超过90篇论文，谷歌学术引用超过10000次。

个人主页：

https://lingxixie.com

Panel 嘉宾：朱霖潮 (浙江大学)

嘉宾简介：

朱霖潮，浙江大学百人计划研究员、博士生导师。获首届谷歌学术研究奖 (2021)。主要研究方向为跨媒体智能及其应用、通用基础模型、人工智能科学计算等。曾获CVPR MABe多智能体行为建模竞赛 (2022)等8项国际冠军。曾担任IEEE MLSP领域主席 (2021)、ICIP领域主席 (2024)、ECCV领域主席 (2024)，并多次组织在CVPR等国际会议的专题研讨会。在IEEE T-PAMI、IJCV、CVPR、ICCV等高水平学术期刊及会议发表论文70余篇，含9篇大会口头报告。

个人主页：

https://person.zju.edu.cn/linchao

Panel 嘉宾：李崇轩 (中国人民大学)

嘉宾简介：

李崇轩，中国人民大学高瓴人工智能学院准聘副教授、博士生导师，2010-2019年获清华大学学士和博士学位。主要研究机器学习、深度生成模型，代表性工作Analytic-DPM、DPM-Solver作为核心采样技术部署于DALL·E 2、Stable Diffusion等。获国际会议ICLR杰出论文奖、吴文俊优秀青年奖、吴文俊人工智能自然科学一等奖、中国计算机学会优秀博士论文、ACM SIGAI 中国新星奖等。入选博新计划、北京市科技新星，主持、参与多项国家自然科学基金、科技部课题。担任ICLR 2024领域主席。

个人主页：

zhenxuan00.github.io

Panel 嘉宾：袁粒 (北京大学深圳研究生院)

嘉宾简介：

袁粒，北京大学博士生导师、北京大学深圳研究生院助理教授、国家级青年人才入选者，获得国家优秀留学生奖 (归国类)、2023年福布斯亚洲30U30名单、斯坦福Top2%科学家榜单等，主持国家科技重大专项课题和国自然青年基金等。研究方向为多模态深度学习和AI4S。代表性学术工作包括VOLO, T2T-ViT等深度神经网络框架和知识蒸馏相关工作，一作论文单篇被引用千余次，代表性应用工作包括ChatExcel，ChatLaw等垂直领域语言模型。

个人主页：

https://yuanli2333.github.io

主持人：唐彦嵩 (清华大学深圳国际研究生院)

主持人简介：

唐彦嵩，清华大学深圳国际研究生院特别研究员、博士生导师，于清华大学自动化系获得工学学士和博士学位，并先后在美国加州大学洛杉矶分校、微软亚洲研究院、英国牛津大学从事访问学者和博士后研究工作。主要从事计算机视觉等领域的相关工作，在国际权威期刊和会议上发表论文40余篇，主持国家重点研发计划课题等国家级项目，以及中国人工智能学会-华为Mindspore学术奖励基金、中国计算机学会-腾讯犀牛鸟等校企联合项目。获得吴文俊人工智能优秀博士学位论文，入选第八届中国科协青年人才托举工程和微软亚洲研究院“铸星计划”，担任中国人工智能学会模式识别专业委员会副秘书长等学术职务。

个人主页：

https://andytang15.github.io

特别鸣谢本次Webinar主要组织者：

主办AC：唐彦嵩 (清华大学深圳国际研究生院)

收藏邀请

上一篇：VALSE Webinar 20240228-05期总第339期开放世界下的具身智能系统下一篇：VALSE 本周论文速览第158期

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2026-7-15 09:12 , Processed in 0.015953 second(s), 14 queries .

返回顶部

VALSE Webinar 20240313-06期 总第340期 Sora与视频生成新时代

相关分类

下级分类

VALSE Webinar 20240313-06期总第340期 Sora与视频生成新时代