VALSE

VALSE 首页 活动通知 查看内容

VALSE Webinar 25-26期 总第397期 大模型背景下视觉技术走向

2025-8-31 19:48| 发布者: 程一-计算所| 查看: 32| 评论: 0

摘要: 报告嘉宾:邓欣 (北京航空航天大学)报告题目:半光滑牛顿驱动的深度图像复原方法报告嘉宾:高常鑫 (华中科技大学)报告题目:多模态模型中的图文对齐方法报告嘉宾:赵文达 (大连理工大学)报告题目:多模态图像融合与 ...

报告嘉宾:邓欣 (北京航空航天大学)

报告题目:半光滑牛顿驱动的深度图像复原方法


报告嘉宾:高常鑫 (华中科技大学)

报告题目:多模态模型中的图文对齐方法


报告嘉宾:赵文达 (大连理工大学)

报告题目:多模态图像融合与生成


Panel嘉宾:

杜少毅 (西安交通大学)、白慧慧 (北京交通大学)、郑伟诗 (中山大学)


报告嘉宾:邓欣 (北京航空航天大学)

报告时间:2025年9月3日 (星期三)晚上19:00 (北京时间)

报告题目:半光滑牛顿驱动的深度图像复原方法


报告人简介:

邓欣,北京航空航天大学副教授、博士生导师,2020年博士毕业于伦敦帝国理工学院,研究方向为多模态图像处理和可解释性神经网络,在人工智能顶级期刊TPAMI、图像处理顶级期刊TIP,计算机视觉领域顶级会议ICCV、CVPR等发表论文60余篇。获2025年国家自然科学基金青年项目 (B类)支持,2023年度北京市自然科学一等奖 (排2)、第13届吴文俊人工智能自然科学一等奖 (排2),第14届吴文俊人工智能青年科技奖、2021年度中国图象图形学学会石青云女科学家奖,入选中国科协第八届青年人才托举工程,入选斯坦福大学发布的2022年全球前2%顶尖科学家。作为项目负责人承担国家自然科学基金面上项目、青年项目,以及中国人工智能学会-华为MindSpore基金等横向项目,参与国家自然科学基金首批原创探索项目、重点项目等。

 

个人主页:

https://shi.buaa.edu.cn/XinDeng/zh_CN/index/49459/list/index.htm

 

报告摘要:

在本次报告中,我们将介绍半光滑牛顿法驱动的轻量化图像复原网络。半光滑牛顿法是求解图像复原逆问题的有效方法,相较于一阶优化算法,有更高的收敛速度与求解精度。我们将算法的求解过程映射为神经网络,将算法中非线性耦合系统的求解难题转化为网络友好的凸优化问题,并通过数据驱动的方式确定正则化器与最佳参数。该网络继承了半光滑牛顿算法的高效性,十分轻量,参数量仅为86KB,相较于性能相近的网络,实现了近20倍的参数量节省,且网络结构与算法严格对应,具备良好的可解释性。应用于图像去噪,去雨,去模糊等多种图像复原任务,均取得了优异的性能。

 

参考文献:

[1] Xin Deng, Chenxiao Zhang, Lai Jiang, Jingyuan Xia, Mai Xu, “DeepSN-Net: Deep Semi-smooth Newton Driven Network for Blind Image Restoration,” TPAMI 2025.


报告嘉宾:高常鑫 (华中科技大学)

报告时间:2025年9月3日 (星期三)晚上19:30 (北京时间)

报告题目:多模态模型中的图文对齐方法


报告人简介:

高常鑫,华中科技大学教授、全国重点实验室副主任,国家级青年人才。研究领域为计算机视觉、图像/视频智能理解及其在视频监控等领域的应用。近年来发表IEEE TPAMI、IJCV、IEEE TIP、CVPR、ICCV、ECCV等高水平期刊会议论文40余篇。先后主持湖北省杰出青年基金项目、国家自然科学基金面上项目、装备预研项目题等课题。


个人主页:

https://sites.google.com/site/changxingao


报告摘要:

本次报告将围绕多模态模型中的图文对齐方法展开,重点介绍多粒度对齐这一关键技术。图文对齐是多模态理解与生成的核心基础,其核心挑战在于如何实现从全局语义到局部细节的多层次信息匹配。报告将从粗粒度到细粒度系统梳理典型的对齐方法,结合代表性模型与应用场景,探讨多粒度对齐的技术路径与发展趋势。

 

参考文献:

[1] Jialong Zuo, Hanyu Zhou, Ying Nie, Feng Zhang, Tianyu Guo, Nong Sang, Yunhe Wang, Changxin Gao. UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity. CVPR2024

[2] Jialong Zuo, Jiahao Hong, Feng Zhang, Changqian Yu, Hanyu Zhou, Changxin Gao, Nong Sang, Jingdong Wang. PLIP: Language-Image Pre-training for Person Representation Learning. NeurIPS2024

[3] Huaxin Zhang, Xiaohao Xu, Xiang Wang, Jialong Zuo, Xiaonan Huang, Changxin Gao, Shanjun Zhang, Li Yu, Nong Sang. Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity. CVPR2025


报告嘉宾:赵文达 (大连理工大学)

报告时间:2025年9月3日 (星期三)晚上20:00 (北京时间)

报告题目:多模态图像融合与生成


报告人简介:

赵文达,博士生导师,国家级青年人才。研究方向为多模态图像分析。在包括 CVPR,ICCV,ECCV,AAAI 等本领域顶级会议以及 IEEE TPAMI,IEEE TIP 等本领域顶级期刊上发表学术论文40余篇。获得山东省科技进步一等奖,中国指控学会技术发明二等奖,国际IEEE MMTC Best Conference Paper Award。


个人主页:

https://faculty.dlut.edu.cn/wdzhao/zh_CN/index.htm


报告摘要:

复杂环境获取图像信息通常是非完备的,一方面表现在图像降质,如低光条件目标丢失;另一方面表现在图像样本数量分布不均,如长尾分布。非完备图像信息影响下游视觉任务性能,如目标检测、分类等。本报告从任务驱动图像信息增强角度,针对图像融合的无监督问题、跨任务协同问题和图像生成的少样本难学习问题,介绍多模态图像融合与生成的最新进展。

 

参考文献:

[1] Wenda Zhao, Hengshuai Cui, Haipeng Wang, You He, Huchuan Lu. FreeFusion: Infrared and Visible Image Fusion via Cross Reconstruction Learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2025, 47(9): 8040-8056.

[2] Wenda Zhao, Shigeng Xie, Fan Zhao, You He, Huchuan Lu. MetaFusion: Infrared and Visible Image Fusion via Meta-Feature Embedding from Object Detection. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, 13955-13965.

[3] Haojun Tang, Wenda Zhao, Guang Hu, Yi Xiao, Yunlong Li, Haipeng Wang. Text-Guided Diverse Image Synthesis for Long-Tailed Remote Sensing Object Classification. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5630413.


Panel嘉宾:杜少毅 (西安交通大学)


嘉宾简介:

杜少毅,西安交通大学人工智能学院教授、博士生导师。主要从事图像点集配准、无人驾驶汽车和医学图像处理等方面研究。在T-PAMI及 IEEETrans和CVPR/ICCV/ECCV等期刊和会议上发表论文 200 余篇,获国家自然科学奖二等奖、国家级教学成果奖一等奖等国家级奖奖项2项以及省部级奖项3项。

 

个人主页:

https://gr.xjtu.edu.cn/web/dushaoyi


Panel嘉宾:白慧慧 (北京交通大学)


嘉宾简介:

白慧慧,北京交通大学教授、博士生导师,国家级高层次人才。主要从事图像视频处理研究。已发表包括IEEE TPAMI等100余篇论文。授权国际专利3项、国家发明专利15项。主持国家自然科学基金重点项目、北京市自然科学基金-小米创新联合基金项目等。获北京市自然科学一等奖、北京市科技进步二等奖、中国电子学会青年科学家奖、中国产学研合作创新成果奖二等奖等、中国人工智能学会教学成果一等奖、中国图象图形学学会教学成果二等奖等。

 

个人主页:

https://faculty.bjtu.edu.cn/8181/


Panel嘉宾:郑伟诗 (中山大学)


嘉宾简介:

郑伟诗教授,教育部“长江学者奖励计划”特聘教授、英国皇家学会牛顿高级学者、IAPR Fellow,现任教育部机器智能与先进计算重点实验室主任。长期研究协同与交互分析理论与方法,解决人体建模和机器人行为的视觉计算问题。发表CCF-A/中科院1区/Nature子刊 论文200多篇。担任国际人工智能顶级期刊IEEE T-PAMI、Artificial Intelligence Journal等期刊的编委。

 

个人主页:

https://www.isee-ai.cn/~zhwshi/


主持人:田春伟 (哈尔滨工业大学)


主持人简介:

田春伟,哈尔滨工业大学计算学部教授、博士生导师。2022-2024斯坦福大学全球前2%顶尖科学家年度榜单入选者。黑龙江省人工智能学会青工委主任。研究方向为视频/图像复原和识别、图像生成、语音处理与智能交通、视觉安全、大模型与多模态等。在IEEE Trans汇刊、Pattern Recognition、Neural Networks、Information Fusion 等国际期刊上发表论文90余篇。其中,7篇ESI高被引论文 (3篇热点论文)、4篇Top期刊封面论文、4篇国际图像超分辨领域Benchmark论文、3篇GitHub 2020具有贡献代码、1篇论文技术美国医学影像公司CT机购买应用、1篇论文技术应用在苹果手机日系系统上。获得国际模式识别领域Top期刊Pattern Recognition Best Paper奖 (排名第1)、1篇国际信号处理协会Blog论文 (排名第1)、1篇中国人工智能学会Top期刊CAAI Transaction on Intelligence Technology的Excellent Paper,中国图象图形学学会自然科学奖二等奖 (排名第1), 广东省自然科学奖一等奖。担任 CAAI Transaction on Intelligence Technology, IEEE TFS、IEEE TCE等多个 SCI 期刊编委/客座编辑。

个人主页:

http://homepage.hit.edu.cn/tianchunwei



特别鸣谢本次Webinar主要组织者:

主办AC:田春伟 (哈尔滨工业大学)

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-10-14 13:30 , Processed in 0.016818 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部