VALSE 2025专题论坛 | 开放环境视觉理解与生成 广东.珠海 2025年6月6-8日 开放环境中进行视觉理解与生成是当代计算机视觉领域面临的重要挑战之一。开放环境以其动态性、不确定性和多样化为特点,不仅包含丰富的视觉信息,还涉及跨模态、多任务、多场景的复杂需求。传统的视觉算法通常依赖于封闭式的数据集和预定义的任务目标,难以适应开放环境的变化和多样化需求。随着深度学习、大规模预训练模型和生成式人工智能的飞速发展,如何让模型在开放环境中实现更强的泛化能力、更快的适应能力以及更高效的生产力,已成为研究者和实践者关注的焦点。本次Workshop旨在汇聚研究者与实践者,共同探讨开放环境视觉领域的最新进展、存在的技术瓶颈以及未来的发展方向,推动其在智慧医疗、无人驾驶等实际应用中的落地。 陈使明 阿联酋人工智能大学 陈使明,阿联酋人工智能大学 (MBZUAI) 研究科学家。曾任CMU/ MBZUAI的博士后研究员。他于2022年在华中科技大学获得博士学位,入选国家“优培计划”、华为学术之星等。研究兴趣包括零样本学习、视觉-语言学习。在TPAMI、NeurIPS、ICML、CVPR、ICCV等人工智能权威会议和期刊上发表了20余篇论文,第一作者15篇,通讯作者6篇。担任TPAMI、IJCV、ICLR、NeurIPS、ICML、ICCV、CVPR等权威期刊和会议的审稿人,任PRCV’23和VALSE’23-25领域主席。 谢国森 南京理工大学 谢国森,南京理工大学计算机科学与工程学院教授,国家级青年人才,江苏特聘教授。2016年于中国科学院自动化研究所获工学博士学位,先后在新加坡、阿联酋留学和工作。研究方向为计算机视觉、开放环境复杂图像视觉理解等,在领域内国际期刊/会议发表论文80余篇,涵盖TPAMI、IJCV、TIP、NeurIPS、CVPR、ICCV、ECCV等。2023-2024年度全球前2%顶尖科学家榜单;获国际会议MMM 2016最佳学生论文奖。担任 IEEE TIP、Pattern Recognition等权威期刊编委和ICLR的领域主席。承担多项国家级和省部级科研项目,包括国自然面上/青年基金,江苏省人才项目等。 杨小汕 中国科学院自动化研究所 杨小汕,中国科学院自动化研究所多模态人工智能系统全国重点实验室研究员、博士生导师,国家优青。近年来聚焦开放环境多媒体内容理解开展研究,在相关领域已发表80余篇论文,其中TPAMI、TMM、TIP 等 IEEE/ACM Trans.期刊和MM、CVPR、NeurIPS、ICML等CCF-A类会议56篇,获中科院院长奖、中科院优博、腾讯卓创奖,负责国家优秀青年基金项目、面上项目、青年基金项目、科技委重点项目课题,相关算法为腾讯、咪咕、航天二院提供了重要的技术支持。 演讲嘉宾:鲍秉坤 南京邮电大学 报告题目:记忆机制启发的视频行为理解 报告摘要:视频行为理解是计算机视觉领域的核心任务之一,旨在通过从连续的视频序列中识别、定位和解释目标行为,实现上下文关联和语义理解。随着深度学习技术和大规模预训练模型的快速发展,现有研究在行为理解任务性能方面取得了长足的进步。然而,在应对长时序视频、流式在线视频等真实世界任务数据时,现有方法仍然面临时-空建模方式低效、判别信息难以稳定保持等瓶颈难题。针对上述挑战,受人类记忆系统中情景记忆与语义记忆协同机制的启发,首先构建情景记忆启发的提示学习策略,通过快速产生历史行为摘要,实现长程时-空跨度下高效行为定位;然后设计语义记忆辅助的知识迁移框架,通过离线教师模型与在线学生模型间的可靠知识蒸馏,实现面向动态流式视频的精准行为检测;最后探讨视觉-语言预训练模型与上述两种记忆机制间的关联,指导建立情景记忆与语义记忆协同的视频行为理解方法,并验证其在异常行为侦测、装配行为在线预测等任务上的有效性。 专家简介:鲍秉坤,南京邮电大学计算机学院、软件学院、网络空间安全学院院长,教授、博士生导师、国家杰青、中组部万人青拔、江苏省杰青、江苏省双创人才。从事多媒体计算、社交多媒体、计算机视觉等领域研究,发表高水平论文100 余篇;主持新一代人工智能国家科技重大专项、国家自然科学基金重点项目等10余项国家级、省部级项目;荣获2018年度电子学会科学技术 (自然科学类)一等奖,ACM TOMM 2016年度最佳论文奖、IEEE MM 2017年度最佳论文奖、Multimedia Modeling 2019年度最佳论文Runner Up奖。CSIG女工委副主任、学工委秘书长、多媒体专委会常委。担任IEEE TMM/TCSVT、ACM TOMM等期刊编委。 演讲嘉宾:彭玺 四川大学 报告题目:噪声关联学习 报告摘要:针对多智能体多传感器的数据智能分析一直是AI领域的研究重点之一。过去诸多研究一般隐式假设这些数据已跨时空对齐,不存在错误匹配数据。然而,现实情况中不同传感器的信号传输速率存在差异,不同设备的数据采集过程存在时空异步,无论是机器还是人工都难以保证数据是完全正确对齐的。这样文不对题、答非所问的噪声关联 (Noisy Correspondence)数据一旦被当成正确对齐的训练数据,将难以获得理想结果。本次报告从模态、数据样本、样本属性等不同粒度探讨噪声关联学习的最新进展,特别是其在跨模态检索、行为重识别、图匹配、大模型预训练、长视频定位及检索、机器阅读理解、多视图聚类等不同任务场景中的特有表现形式和解决方案。此外,此次报告还希望和大家就噪声关联学习未来的发展方向进行交流。 专家简介:彭玺,四川大学教授,博导,教育部“CJ学者”特聘教授、“工程数值模拟基础算法与模型”全国重点实验室副主任。研究方向为机器学习理论及其在多学科交叉领域上的应用 (AI4Science),在Nature Communications、JMLR、TPAMI、IJCV等国际权威刊物上发表学术论文百余篇。 演讲嘉宾:舒祥波 南京理工大学 报告题目:开放场景下人体行为智能计算 报告摘要:开放场景中,由于分散数据利用率低、监督训练样本量少、行为语义复杂性高等因素,给人体行为智能计算带来了新的挑战。基于此,本报告将探讨多样化开放场景下的人体行为智能计算研究任务,重点介绍课题组近年在边云协同的模型预训练与微调、数据受限的人体行为鲁棒表征、细粒度/多粒度行为分析与推理等方面的技术同,并简要介绍相关技术的推广应用。 专家简介:舒祥波,南京理工大学计算机科学与工程学院/人工智能学院教授、社会安全信息感知与系统工信部重点实验室副主任、国家优秀青年基金获得者、江苏省杰出青年基金获得者。近年主要研究兴趣为人体行为计算,在TPAMI、CVPR、ICCV、ACM MM等期刊/会议上发表论文100余篇,其中ESI高被引论文8篇;获中国电子学会自然科学一等奖、ACM MM 2015最佳论文提名、MMM 2016最佳学生论文奖、江苏省优博、中国人工智能学会优博、2024年度江苏自然科学百篇优秀学术成果论文;入选全球前2%顶尖科学家 (2021-2024年连续4年入选);承担国家自然科学重点/面上/青年项目、国家重点研发课题、国防基础科研项目等国家级项目。担任CSIG青工委副秘书长,以及IEEE TNNLS、IEEE TCSVT、Pattern Recognition等期刊编委。 演讲嘉宾:张正 哈尔滨工业大学 (深圳) 报告题目:高效能跨模态关联分析 报告摘要:大规模多源异构数据正在实时地产生、传输和处理,如何将多模态数据转化为智能,以实现高效能智能决策和自主分析是当前多模态人工智能研究的重点。本报告将汇报跨模态关联分析在多层次语义理解、跨模态精准对齐和可信赖模型推理等方面的最新研究成果,着重介绍本团队在跨模态关联分析在开放场景下数据、表征和模型的不确定性建模方法,以及高效大模型基础架构设计与微调技术,并对未来发展方向与趋势进行讨论与展望。 专家简介:张正,哈尔滨工业大学 (深圳)长聘教授,国家级青年人才,广东省珠江学者,深圳市优青。长期从事高效能多模态机器学习的研究,专注于高效与可信多模态大模型,出版中英文学术专著/编著6部,发表IEEE/ACM汇刊和CCF A类期刊/会议论文100余篇,谷歌引用一万余次。主持国家级和省部级自然科学基金、深圳市科技创新基金以及阿里巴巴创新研究计划、华为合作基金等科研项目10余项。受邀担任IEEE TIFS、IEEE TAC、IEEE JBHI等权威期刊编委,以组织委员会成员成功举办了多项权威学术会议,常年受邀担任 ICML、NeurIPS、ICLR、CVPR、ACM MM 等A类顶级学术会议的领域主席。 演讲嘉宾:谢伟迪 上海交通大学 报告题目:生成式视觉-语言模型研究 报告摘要:近年来,生成式视觉-语言模型通过自由形式的文本和图像作为输入,能够以自然语言的方式与人类进行交互,展现出在统一处理复杂多模态任务方面的强大潜力。在本次报告中,我将分享生成式多模态大模型在以下几个方面的研究成果:1) 多模态检索任务的统一处理:探索如何利用生成式框架统一解决多种多模态检索任务,实现无需额外训练即可处理未见复杂检索任务的强泛化能力。2) 视频理解中的问答与定位:提出一种针对视频问答、多步推理和定位的统一框架,显著提升模型在长视频和实时流媒体处理中的性能。3) 体育分析场景的应用:解析生成式大模型在体育视频理解中的应用案例,例如在足球视频分析中的表现。4) 基于多智能体的视频问答:利用多智能体系统生成维链推理,通过知识蒸馏赋予生成式视觉-语言模型更强的时空逻辑推理能力,并刷新多项视频问答任务的性能记录。5) 复杂医疗场景中的实践:探讨生成式模型在复杂医疗场景中的应用潜力与实际效果。 专家简介:谢伟迪,上海交通大学长聘轨副教授,教育部U40获得者,国家级青年人才 (海外),上海市海外高层次人才计划获得者,上海市启明星计划获得者,科技部科技创新 2030 —“新一代人工智能”重大项目青年项目负责人,国家基金委面上项目负责人。 博士毕业于牛津大学视觉几何组 (Visual Geometry Group,VGG),首批 Google-DeepMind 全额奖学金获得者,China-Oxford Scholarship获得者,牛津大学工程系杰出奖获得者。主要研究领域为计算机视觉,医学人工智能,共发表论文超 80篇,包括Nature Communications,NPJ Digital Medicine,CVPR,ICCV, NeurIPS, ICML, IJCV等,Google Scholar累计引用超 14500余次,多次获得国际顶级会议研讨会的最佳论文奖和最佳海报奖,最佳期刊论文奖,MICCAI Young Scientist Publication Impact Award Finalist;Nature Medicine,Nature Communications特邀审稿人,计算机视觉和人工智能领域的旗舰会议CVPR,NeurIPS,ECCV的领域主席。https://weidixie.github.io。 |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2025-10-10 23:08 , Processed in 0.016431 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.