报告嘉宾:赵波 (上海交通大学) 报告题目:基于MLLM的长视频理解与评测 报告嘉宾:王欢 (西湖大学) 报告题目:针对长上下文多模态大模型的词元压缩方法的近期发展 报告嘉宾:赵波 (上海交通大学) 报告时间:2025年8月27日 (星期三)晚上20:00 (北京时间) 报告题目:基于MLLM的长视频理解与评测 报告人简介: 赵波,上海交通大学人工智能学院副教授、博导、国家级青年人才。曾担任智源研究院数据智能研究中心负责人。博士毕业于英国爱丁堡大学。主要研究方向包括具身智能、多模态大模型、空间智能等。曾提出具身智能模型 Evo-0, SpatialBot等,以及多模态大模型Bunny, Emu3, Video-XL等,模型下载量数十万次。发表数十篇顶会顶刊论文,包括7篇顶会 Oral/Spotlight。曾获得 ICML 2022 杰出论文奖。曾担任NeurIPS’25/24、BMVC’24领域主席。
个人主页: https://mint-sjtu.github.io/ 报告摘要: 尽管多模态大模型已被广泛应用于视频理解任务,然而小时级长视频的精准理解仍面临挑战。课题组提出长视频理解评测基准MLVU,揭示了主流大模型在长视频理解任务上的能力缺陷。提出基于可学习压缩 Token 的高效长视频理解大模型 Video-XL 系列,实现单卡小时级长视频理解。此外,课题组探索基于视频理解的空间智能,提出 STI-Bench,以评测大模型的时间空间感知理解能力。 参考文献: [1] “Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding”, Y Shu, Z Liu, P Zhang, M Qin, J Zhou, Z Liang, T Huang, B Zhao. CVPR, 2025. [2] “Video-XL-Pro: Reconstructive Token Compression for Extremely Long Video Understanding”, X Liu, Y Shu, Z Liu, A Li, Y Tian, B Zhao. arXiv preprint arXiv:2503.18478, 2025. [3] “Video-XL-2: Towards Very Long-Video Understanding Through Task-Aware KV Sparsification”, M Qin, X Liu, Z Liang, Y Shu, H Yuan, J Zhou, S Xiao, B Zhao, Z Liu. arXiv preprint arXiv:2506.19225, 2025. [4] “MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding”, J Zhou, Y Shu, B Zhao, B Wu, S Xiao, X Yang, Y Xiong, B Zhang, T Huang, Z Liu. CVPR, 2025. [5] “STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?” Y Li, Y Zhang, T Lin, XR Liu, W Cai, Z Liu, B Zhao. ICCV, 2025. [6] “RoboFAC: A Comprehensive Framework for Robotic Failure Analysis and Correction”, W Lu, M Ye, Z Ye, R Tao, S Yang, B Zhao. arXiv preprint arXiv:2505.12224, 2025. 报告嘉宾:王欢 (西湖大学) 报告时间:2025年8月27日 (星期三)晚上20:35 (北京时间) 报告题目:针对长上下文多模态大模型的词元压缩方法的近期发展 报告人简介: 王欢,浙江大学信息与通信工程专业学士、硕士,美国东北大学计算机工程专业博士,2024年6月加入西湖大学任助理教授,创立高效智能计算实验室 (Efficient Neural Computing and Design Lab, ENCODE Lab),担任独立PI、博士生导师。王欢博士专注于AI算法与计算机系统架构交叉领域,尤其关注Efficient AI、MLSys、计算机视觉相关的理论、算法、应用研究,致力于让前沿AI算法落地。担任人工智能领域内众多顶会顶刊审稿人、AAAI 2026领域主席。曾在Google / Snap / MERL / Alibaba等业界研究机构实习。获CVPR’23 Outstanding Reviewer Award, 2023 Snap Research Fellowship HM, 2024华为火花奖,2024华为AI青年学者基金。发表顶会顶刊论文35+篇。 个人主页: https://huanwang.tech/ 报告摘要: 多模态大模型 (MLLM)快速发展,但其输入词元的数目快速膨胀 (尤其以长上下文的多模态大模型为代表,如视频、语音多模态大模型),使得MLLM的推理成本急剧升高,亟需MLLM推理加速方面的研究。词元压缩 (token compression)是一种正在兴起的低成本、并被广泛证明有效的MLLM推理加速方法。本次报告将首先介绍词元压缩的背景 (尤其是和模型权重层面的压缩进行对比);然后介绍长上下文多模态大模型的词元压缩方法的近期发展,覆盖图片、视频、语言三大模态,以及四种主要方法设计机制:transformation-based, similarity-based, attention-based, and query-based;最后进行总结并讨论未来可能的方向。 参考文献: [1] “Dycoke: Dynamic compression of tokens for fast video large language models”. Keda Tao, Can Qin, Haoxuan You, Yang Sui, Huan Wang. CVPR, 2025. [2] “Holitom: Holistic token merging for fast video large language models”, Kele Shao, Keda Tao, Can Qin, Haoxuan You, Yang Sui, Huan Wang. arXiv preprint arXiv:2505.21334. [3] “When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios”, Kele Shao, Keda Tao, Kejia Zhang, Sicheng Feng, Mu Cai, Yuzhang Shang, Haoxuan You, Can Qin, Yang Sui, Huan Wang. https://arxiv.org/pdf/2507.20198. [4] “FastV: An image is worth 1/2 tokens after layer 2:Plug-and-play inference acceleration for large vision-language models”, L. Chen, H. Zhao, T. Liu, S. Bai, J. Lin, C. Zhou, and B. Chang. ECCV, 2024. [5] “Llava-prumerge: Adaptive token reduction for efficient large multimodal models”, Y. Shang, M. Cai, B. Xu, Y. J. Lee, and Y. Yan, ICCV, 2025. 主持人:王高昂 (浙江大学) 主持人简介: 王高昂,浙江大学国际联合学院研究员、博士生导师,分别于复旦大学、威斯康星大学麦迪逊分校、华盛顿大学获得本科、硕士和博士学位。研究方向包括视觉感知、空间智能、具身智能等,在高质量国际期刊及国际会议上发表论文90余篇,在英伟达智慧城市挑战赛等国际学术竞赛中荣获4项冠军名次,曾获滴滴灯塔计划优秀项目奖、阿里巴巴创新研究计划项目优秀学术合作项目奖等荣誉。主持和参与多项国家自然科学基金项目、浙江省重大及重点项目,担任国家重点研发项目课题负责人、科技创新2030-“新一代人工智能”青年项目子课题负责人。 个人主页: https://person.zju.edu.cn/gaoangwang 特别鸣谢本次Webinar主要组织者: 主办AC:王高昂 (浙江大学) |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2025-10-14 17:00 , Processed in 0.013778 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.