VALSE

VALSE 首页 活动通知 查看内容

VALSE Webinar 25-02期 总第373期 高密度解读AAAI 2025系列---多媒体内容理解与生成 ...

2025-1-14 19:07| 发布者: 程一-计算所| 查看: 66| 评论: 0

摘要: 本期VALSE Webinar从学术界和企业界两个视角解读多媒体内容理解与生成领域的最新研究成果!本次Webinar聚焦于AAAI 2025六项前沿工作,从一线研究者的视角为您呈现最前沿技术动态。同时,特邀两家VALSE 2024铂金合作 ...

本期VALSE Webinar从学术界和企业界两个视角解读多媒体内容理解与生成领域的最新研究成果!本次Webinar聚焦于AAAI 2025六项前沿工作,从一线研究者的视角为您呈现最前沿技术动态。同时,特邀两家VALSE 2024铂金合作企业,华为技术有限公司与马上消费金融股份有限公司,一线科研人员为您揭示工业界的最新发展与趋势。每个报告10分钟,信息密集度高,短时间呈现最精华内容。


报告嘉宾:宋杰 (浙江大学)

报告题目:D2DPM: Dual Denoising for Quantized Diffusion Probabilistic Models


报告嘉宾:于灵云 (中国科学技术大学)

报告题目:IDSeq: Decoupled and Sequentially Detecting and Grounding Multi-modal Media Manipulation


报告嘉宾:王一凡 (华为云计算技术有限公司)


报告嘉宾:曾润浩 (深圳北理莫斯科大学)

报告题目:Understanding Emotional Body Expressions via Large Language Models


报告嘉宾:卓君宝 (北京科技大学)

报告题目:Image-to-video Adaptation with Outlier Modeling and Robust Self-learning


报告嘉宾:周安通 (马上消费金融股份有限公司)


报告嘉宾:黄彬 (清华大学)

报告题目:Identity-Text Video Corpus Grounding


报告嘉宾:潘子睿 (清华大学)

报告题目:Modular-Cam: Modular Dynamic Camera-view Video Generation with LLM


报告嘉宾:宋杰 (浙江大学)

报告时间:2025年1月15日 (星期三)晚上20:10 (北京时间)

报告题目:D2DPM: Dual Denoising for Quantized Diffusion Probabilistic Models


报告人简介:

宋杰,浙江大学软件学院副教授,博士生导师。主要研究方向包括深度模型压缩、重组以及高效重用等,在TPAMI、TIP、NeurIPS、 CVPR、 ECCV、AAAI等国际顶级期刊以及会议上发表论文50余篇。担任国际期刊JVCI副主编,担任TPAMI、TIP、TNNLS、NeurIPS、CVPR、ECCV、ICCV、AAAI、IJCAI等国际顶级期刊与会议的审稿人。主持国家自然科学基金项目、浙江省基础公益项目、之江实验室开放课题项目、CCF-百度松果基金等多项国家、省级纵向项目以及企事业单位横向项目,获得2023年度中国人工智能学会吴文俊人工智能科技进步一等奖。


个人主页:

https://person.zju.edu.cn/songjie

 

报告摘要:

扩散模型量化通过将32位浮点数扩散模型量化为更低比特的定点数模型实现推理加速。但模型量化不可避免地引入了量化噪声,导致扩散模型逆向采样轨迹的偏移。在这项工作中,我们提出了一种双重去噪机制,减轻量化噪声对噪声估计网络的不利影响。我们将量化噪声对采样轨迹的影响分解为两个部分:均值偏差改变了采样方程的漂移系数,影响了采样轨迹的方向;方差偏差改变了扩散系数,从而影响了采样轨迹的收敛性。双重去噪机制在每个时间步首先对量化噪声进行降噪,然后通过逆扩散迭代对噪声样本进行降噪。我们在无条件生成和有条件生成实验中验证了该方法的优越性。


论文链接:

https://openreview.net/pdf?id=1sZH8haNI1

代码链接:

https://github.com/TaylorJocelyn/D2-DPM


报告嘉宾:于灵云 (中国科学技术大学)

报告时间:2025年1月15日 (星期三)晚上20:20 (北京时间)

报告题目:IDSeq: Decoupled and Sequentially Detecting and Grounding Multi-modal Media Manipulation


报告人简介:

于灵云,中国科学技术信息科学技术学院副研究员,博士,博士后。主要研究方向包括多媒体智能内容生成、深度伪造视频鉴别、主动防御等,相关研究成果已在CVPR、AAAI、TMM、TCSVT、TKDE、TIFS等国际顶级期刊和会议上发表,累计发表高水平学术文章30余篇;担任CVPR、TASLP、PR等期刊会议审稿人;主持/参与了包括重点研发计划子课题、重点项目、面上项目以及青年科学基金项目等在内的多个国家项目。


个人主页:

http://home.ustc.edu.cn/~yuly/

 

报告摘要:

生成式人工智能的快速发展带来了多模态虚假内容的广泛传播。尽管现有方法在多模态篡改检测与定位领域取得了一定进展,但其对伪造图像内在特性的挖掘仍不充分。当前方法未能有效分离图像中与伪造相关的信息和与内容相关信息,导致无法为多种子任务提供无冗余的特征。在本文中,我们提出了一种图像驱动的解耦训练框架 (IDSeq),其解耦图像中的伪造特征和内容特征,并合理整合它们来完成不同子任务。首先,IDSeq 利用两种额外的解耦损失函数指导编码器独立编码伪造特征与内容特征。其次,对于图像任务,IDSeq设计一种解耦的图像篡改解码器 (DIMD),分别处理与伪造相关和与内容相关的子任务。对于文本任务,我们仅使用文本特征和图像的内容特征,并通过伪造指示生成器 (MIG)增强的内容特征。实验结果表明IDSeq在多个子任务上取得显著性能提升,展现了解耦训练框架在多模态篡改检测与定位领域的重要贡献。


论文代码:

https://openreview.net/pdf?id=45jKuPxJZz


报告嘉宾:王一凡 (华为云计算技术有限公司)

报告时间:2025年1月15日 (星期三)晚上20:30 (北京时间)


报告人简介:

王一凡,华为云智能可观测技术专家,可观测存储底座架构师,主导华为云AIOps与代码级可观测能力从0到1的孵化与落地,多年代码分析与AIOps项目经验,发表10+篇相关领域的专利与论文。


报告嘉宾:曾润浩 (深圳北理莫斯科大学)

报告时间:2025年1月15日 (星期三)晚上20:40 (北京时间)

报告题目:Understanding Emotional Body Expressions via Large Language Models


报告人简介:

曾润浩,博士,深圳北理莫斯科大学长聘副教授,深圳市鹏城孔雀人才,深圳市科技创新人才,广东潮博智库专家。主要从事人工智能,计算机视觉方面的研究,在多模态视频表征、理解、高效部署等方面取得一系列研究成果。已发表高水平国际期刊和会议论文20余篇,包括TPAMI、TIP、CVPR等,谷歌学术引用 1800 余次,单篇被引超过600次。获中国图象图形学学会优秀博士学位论文提名奖,IEEE Outstanding Organization Award,CVPR2024最佳论文候选。近三年主持国家自然科学基金青年项目、广东省教育厅重点领域项目等纵向科研项目6项。受邀担任 NeurIPS、ICML、CVPR、ICCV 等人工智能领域顶级会议和 TPAMI、TIP、TMM 等国际权威期刊的审稿人。担任IEEE SmartIoT 2024现场主席,CSIG青科会2023视频分析论坛主席。


个人主页:

https://ai.smbu.edu.cn/info/1251/1881.htm

 

报告摘要:

基于肢体动作的情感识别在人机交互中至关重要。然而,现有方法主要聚焦于情感分类,不能进一步提供文本解释来验证其分类的合理性。在本文中,我们提出了一个由大语言模型驱动的情绪-动作解释器 (EAI-LLM),它不仅可以识别情绪,还可以针对输入的3D骨架序列来生成相应的文本解释。具体而言,我们将骨架序列视为一种特殊的语言,并提出能将来自异构数据集的骨架序列统一提取时空Token和语义Token的多粒度Tokenizer,利用LLMs广泛的背景知识和语言处理能力来解决异构数据集联合训练的挑战,从而显著提高识别精度,并生成细粒度的情感描述。实验结果表明,在LLMs背景知识的支持下,我们的EAI-LLM模型可以在有限数量的标记骨骼数据上进行微调,生成详细的情绪描述,且识别精度与现有方法相当甚至更佳。


论文链接:

https://arxiv.org/pdf/2412.06182


报告嘉宾:卓君宝 (北京科技大学)

报告时间:2025年1月15日 (星期三)晚上20:50 (北京时间)

报告题目:Image-to-video Adaptation with Outlier Modeling and Robust Self-learning


报告人简介:

卓君宝,北京科技大学计算机通信与工程学院副教授。主要研究方向为计算机视觉,迁移学习。在 IEEE Trans.和 CCF A 类会议和期刊上发表论文10余篇,谷歌学术引用1100余次。


个人主页:

https://scce.ustb.edu.cn/shiziduiwu/jiaoshixinxi/2024-08-20/231.html

 

报告摘要:

图像到视频的适应任务的目标是充分利用标注图像和未标注视频,从而实现有效的视频识别。图像与视频两种模态间的模态差距,以及两者之间存在的领域差异,构成了这项任务中的两大核心挑战。现有方法通过采用闭集域适应技术来缩小领域差异,但由于存在异常目标域视频帧,导致域对齐不准确;此外当前的方法一般利用从图像级别适应模型得到的伪标签学习一个视频级别模型,忽略了伪标签中的噪音。为了上述问题,本文一种新的两阶段方法,设计了异常类并通过批次核范数最大化损失和伪异常损失最小化来捕捉特定类别的异常帧,并提出了一种基于标签传播一致性的新指标,以达到挑选样本训练更佳视频级别模型的目的。在三个基准上的实验验证了所提方法的有效性。


报告嘉宾:周安通 (马上消费金融股份有限公司)

报告时间:2025年1月15日 (星期三)晚上21:00 (北京时间)


报告人简介:

周安通,马上消费金融股份有限公司科技创新发展部政府事务负责人、马上消费科协副秘书长,先后牵头、参与组织申报国家级、省部级项目60余项,获批财政资金3000余万元,个人获得省部级科技奖2项,发表论文、申请发明专利近10项。


报告嘉宾:黄彬 (清华大学)

报告时间:2025年1月15日 (星期三)晚上21:20 (北京时间)

报告题目:Identity-Text Video Corpus Grounding


报告人简介:

黄彬,清华大学计算机系媒体所二年级直博生,师从朱文武教授。主要研究方向为视频时序定位和内容理解,多模态大模型等,以第一作者在CVPR, AAAI, ACM MM等CCF A类会议上发表多篇论文。曾获清华大学优秀毕业生及多项奖学金荣誉。


个人主页:

https://github.com/huangb23

 

报告摘要:

随着视频平台的日益兴盛,“视频库片段检索”任务变得愈发重要。该任务要求模型能够根据用户提供的查询,在开放且庞大的视频库中精准定位到对应的片段。然而,现有研究主要聚焦于基于文本的单模态查询,难以支持视觉模态的输入。例如,用户可能希望找到他最喜欢的两位演员一起跳舞的片段,但由于模型难以将文本中的名字与视频中的人脸正确匹配,检索往往以失败告终。为此,我们提出了一个全新的任务——“主体-文本联合查询的视频库片段检索”。该任务允许用户在查询中结合人物照片和文本描述,共同定义事件的细节。同时,我们构建了TVR-IT数据集来支持这一任务的性能评估,并提出了基线模型Video-Locator,它同时也是第一个将多模态大语言模型用于视频库片段检索任务的模型。实验表明,Video-Locator超越了此前的视频库片段检索模型,展示了在开放环境下对主体的感知理解能力。


论文链接:

http://mn.cs.tsinghua.edu.cn/xinwang/PDF/papers/2025_Identity-Text%20Video%20Corpus%20Grounding.pdf


报告嘉宾:潘子睿 (清华大学)

报告时间:2025年1月15日 (星期三)晚上21:30 (北京时间)

报告题目:Modular-Cam: Modular Dynamic Camera-view Video Generation with LLM


报告人简介:

潘子睿,清华大学计算机系媒体所直博一年级,本科毕业于清华大学计算机系。曾以一作或学生一作的身份在CCF A类会议AAAI、ICML上发表论文。曾获得清华大学本科优秀毕业生,北京市优秀毕业生等荣誉。


个人主页:

https://scholar.google.com/citations?user=IKkQ9GoAAAAJ&hl=en

 

报告摘要:

随着扩散模型技术的发展,文生图乃至文生视频的质量越来越高。但是,现有的工作在处理多场景动态视角视频的生成时,很难保证多个场景间的流畅过渡,并且也无法实现对于镜头的精细化控制。为了解决这些问题,本工作提出了基于模块化网络的动态视角视频生成模型Modular-Cam。它使用大语言模型解析用户指令,分解得到各个场景的描述信息和场景间的镜头转换方式,并针对每个场景及对应的镜头转换方式生成一个模块化视频生成网络。模块化视频生成网络以预训练的文生图扩散模型为基础,并依次加入了视频生成模块、视频运动模块和控制编码器,分别用于提高单一场景内的视频的连贯性、视频的动态性以及多个场景间视频的一致性。通过大量的定性和定量实验证明了Modular-Cam具有非常强的多场景动态视角视频生成能力,并能够实现对于镜头运动精细化的控制。


论文链接:

https://mn.cs.tsinghua.edu.cn/xinwang/PDF/papers/2025_Modular-Cam%20Modular%20Dynamic%20Camera-view%20Video%20Generation%20with%20LLM.pdf


主持人:王鑫 (清华大学)


主持人简介:

王鑫,清华大学计算机系副研究员,国家优秀青年科学基金获得者。浙江大学学士、博士,加拿大西蒙弗雷泽大学博士。中国计算机学会多媒体专委会副秘书长,清华大学博士后校友会秘书处副秘书长。作为项目/课题负责人承担国家自然科学基金、科技部重点研发计划等项目,获ACM中国新星奖、IEEE TCMC新星奖、达摩院青橙奖、国家自然科学二等奖、教育部自然科学一等奖。主要研究方向为多媒体智能、媒体大数据、机器学习等,3次获ACM Multimedia Asia等最佳论文奖,在IEEE TPAMI、ICML、NeurIPS、ACM Multimedia等相关领域顶级国际期刊/会议上发表论文180余篇。


个人主页:

https://mn.cs.tsinghua.edu.cn/xinwang/



特别鸣谢本次Webinar主要组织者:

主办AC:王鑫 (清华大学)


活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们!

直播地址:

https://live.bilibili.com/22300737;

历史视频观看地址:

https://space.bilibili.com/562085182/ 


2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ T群,群号:863867505);


*注:申请加入VALSE QQ群时需验证姓名、单位和身份缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。


3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。


4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。





小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-1-31 05:30 , Processed in 0.013724 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部