VALSE

VALSE 首页 活动通知 查看内容

VALSE Webinar 25-24期 总第395期 多模态视频-文本理解

2025-8-15 18:00| 发布者: 程一-计算所| 查看: 9| 评论: 0

摘要: 报告嘉宾:丁恒辉 (复旦大学)报告题目:复杂场景多模态视频分割报告嘉宾:党吉圣 (新加坡国立大学)报告题目:强化学习驱动的视频多模态大语言模型推理报告嘉宾:丁恒辉 (复旦大学)报告时间:2025年8月20日 (星期三) ...

报告嘉宾:丁恒辉 (复旦大学)

报告题目:复杂场景多模态视频分割


报告嘉宾:党吉圣 (新加坡国立大学)

报告题目:强化学习驱动的视频多模态大语言模型推理


报告嘉宾:丁恒辉 (复旦大学)

报告时间:2025年8月20日 (星期三)晚上20:00 (北京时间)

报告题目:复杂场景多模态视频分割


报告人简介:

丁恒辉,复旦大学青年研究员,博导,国家海外高层次青年人才,上海市海外高层次青年人才,上海市计算机学会副秘书长。2016年于西安交通大学获学士学位,2020年于新加坡南洋理工大学获博士学位。曾在TikTok AI Lab、MMLab@NTU、ETH Zurich担任研究员/博士后。主要从事计算机视觉、多模态、场景理解、AIGC等研究。过去5年内共发表论文100多篇,包括90多篇CCF-A类论文和10多篇CCF-B类论文。担任IEEE TIP期刊编委、Visual Intelligence期刊编委,担任多个国际顶级会议的Area Chair或Senior Area Chair,如CVPR、NeurIPS、ICML、ICLR、AAAI、ACM MM等。

 

个人主页:

https://henghuiding.com/


报告摘要:

多模态视频分割是实现场景理解的重要支撑技术,对于智能视觉系统在真实世界中的落地具有关键意义。现有方法和数据集多聚焦于受限场景和强约束条件下的视频或图像分割,难以充分应对开放、复杂环境中的多变需求与挑战。本报告将从面向开放复杂环境的实际应用需求出发,剖析多模态视频分割在复杂场景下所面临的核心问题,并介绍一系列新任务、新数据集与关键技术,包括复杂场景视频分割 MOSEv2、基于动作描述的多模态视频分割 MeViSv2、全模态视听内容理解 OmniAVS、以及基于动作的少样本视频分割 MOVE 等,推动多模态视频分割在更真实场景下的应用研究。


报告嘉宾:党吉圣 (新加坡国立大学)

报告时间:2025年8月20日 (星期三)晚上20:35 (北京时间)

报告题目:强化学习驱动的视频多模态大语言模型推理


报告人简介:

党吉圣于 2025 年从中山大学获得博士学位,中山大学校级优秀毕业生。现担任新加坡国立大学的 NExT++ 实验室担任博士后研究员。他的研究兴趣包括大模型多模态、视频理解和具身智能。他作为第一作者在包括 IEEE TIP/TNNLS/TITS/IJCAI /中国科学:信息科学等在内的重要期刊和会议上发表了十多篇论文。他还担任过一些重要期刊和会议的审稿人,如 IEEE TPAMI、ICML、NIPS、ICLR、IEEE TIP、CVPR、IJCAI、ACM MM、AAAI、IEEE TMM、IEEE TCSVT、ACM TOMM等。


报告摘要:

近期强化学习领域 GRPO的突破显著提升了多模态大语言模型在复杂推理任务中的表现。然而其仍存在两个关键局限:1) 现有方法常生成冗长散漫的推理链,掩盖了关键的时空线索;2) 二元奖励机制无法评估部分正确答案,导致奖励方差过高与以及学习效率低下。本文提出TW-GRPO框架,通过聚焦性思维和密集奖励粒度来增强视频推理能力。具体而言,我们采用基于组内方差估计的token加权机制,优先处理信息密度高的token (如实体关系描述),同时抑制冗余token (如通用推理前缀)。此外,我们将强化学习训练从单选题扩展至多选题形式,通过软奖励区分部分正确选项以实现更精细的梯度估计。另提出"问答反转"的数据增强策略,可从现有基准生成多样化多选题样本。实验表明,该方法在视频推理和通用理解基准测试中仅用0.59%的训练数据就可以达到最先进水平:在CLEVRER数据集上准确率达50.4% (较SOTA Video-R1提升18.8%),在MMVU上达65.8%。代码已开源:https://github.com/longmalongma/TW-GRPO。


主持人:胡建芳 (中山大学)


主持人简介:

胡建芳,中山大学副教授,博士生导师,长期从事视频内容解析理论及应用研究,在IEEE TPAMI、TIP、CVPR和ICCV等刊物发表论文70余篇。曾获中国图象图形学学会优秀博士学位论文奖、广东省自然科学奖二等奖、广东省杰出青年基金支,多次参加国际顶级学术会议挑战赛并获冠军。担任VALSE 执行AC委员、VALSE2025本地主席、第十九届中国图象图形学学会青年科学家会议学术Poster主席、中国图象图形学学会视觉大数据专业委员会委员和中国图象图形学学会青年工作委员会委员等。



特别鸣谢本次Webinar主要组织者:

主办AC:胡建芳 (中山大学)

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-10-14 20:31 , Processed in 0.015365 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部