VALSE

VALSE 首页 活动通知 查看内容

VALSE 2025 Workshop | 基于生成式AI驱动的具身智能

2025-6-6 23:27| 发布者: 程一-计算所| 查看: 22| 评论: 0

摘要: VALSE 2025 Workshop | 基于生成式AI驱动的具身智能广东.珠海 2025年6月6-8日主题解读生成式AI通过大规模数据训练,展现出学习复杂交互的能力,为具身智能研究提供了一种新的学习范式。借助大模型的强大能力,生成式 ...

VALSE 2025 Workshop | 基于生成式AI驱动的具身智能

广东.珠海 2025年6月6-8日


主题解读

生成式AI通过大规模数据训练,展现出学习复杂交互的能力,为具身智能研究提供了一种新的学习范式。借助大模型的强大能力,生成式AI帮助智能体掌握复杂任务中的抽象计划和行为策略,实现了从感知到决策的闭环优化。此外,生成式AI能够高效生成逼真的仿真环境,使智能体能够在这些环境中进行大规模交互和学习,克服传统物理实验中数据稀缺和成本高昂的问题。近期,基于扩散模型的机器人策略控制、模仿学习和运动规划方法得到了广泛关注。本研讨会将详细探讨这一领域的前沿研究,探索生成式AI在具身智能中的应用和未来发展方向。


组织者

汪婧雅 上海科技大学


汪婧雅博士现任上海科技大学信息科学与技术学院研究员、助理教授、博导。研究兴趣侧重于以人为中心的三维交互与具身智能。在计算机视觉顶级会议和期刊上发表论文50余篇,其中CCF-A类论文40余篇。担任CVPR、NeurIPS、ICML、ICCV、ECCV、ACM MM等会议的领域主席。攻博期间入选CVPR Doctoral Consortium Award,第一作者论文入选Computer Vision News Magazine评比的2018 Best of CVPR Paper。2023年入选百度AI华人女性青年学者榜。获得2024年ACM Design Automation Conference最佳论文提名,2024年ACM Multimedia最佳论文提名。


贾奎 香港中文大学 (深圳)


贾奎教授现就职于香港中文大学 (深圳)数据科学学院。他的主要研究领域是机器学习与计算机视觉,近期主要聚焦深度学习及其泛化、生成式三维建模与学习、三维感知大模型等方向。他的研究受到国家自然科学基金、广东省科技厅、华为、微软等机构和企业的资助,他的研究成果应用于奥比中光三维传感器产品及三星 (美国)无人驾驶系统中。贾奎教授是跨维智能创始人,目前担任Trans. on Machine Learning Research, IEEE Trans. on Image Processing等期刊副主编。



胡瑞珍 深圳大学


胡瑞珍,深圳大学计算机与软件学院特聘教授,博士生导师,国家优秀青年科学基金、广东省杰出青年项目获得者。研究方向为计算机图形学,长期从事三维环境建模与交互方面的研究,发表ACM SIGGRAPH/TOG 论文二十余篇;入选中科协青年人才托举工程;荣获亚洲图形学协会青年学者奖、全国几何设计与计算青年学者奖;担任期刊IEEE TVCG、IEEE CG&A和Computers & Graphics等国际期刊编委。



报告嘉宾

演讲嘉宾:张直政 银河通用

报告题目:合成数据开启端到端具身大模型训练新范式

专家简介:张直政,银河通用联合创始人兼大模型负责人,智源学者,主导银河通用具身智能大模型研发,突破数据和泛化两大技术瓶颈,取得行业领先水平并获广泛关注和赞誉,因其对具身智能领域发展的卓越贡献于今年被评为“北京市劳动模范”。曾任微软亚洲研究院高级研究员,主导过多个基础模型和多模态大模型项目研发,有丰富的AI模型及系统的科研、产品化和管理经验。中国科学技术大学和哥伦比亚大学联合培养博士生,曾获中国电子教育学会优博、安徽省优博、中国科学技术大学优博、安徽省优秀毕业生等多个奖项。近三年在全球计算机视觉、人工智能顶级会议和期刊上发表论文30余篇。

报告摘要:具身动作数据的昂贵和不足是具身智能发展的主要瓶颈,而高质量的合成大数据为具身端到端大模型的泛化开启了一个训练新范式,即先通过大规模仿真数据预训练广泛学习通用技能,再通过少量真实样本后训练快速掌握专业知识并对齐场景要求。本报告以端到端抓取大模型GraspVLA 和端到端导航大模型NaVid 系列等工作为例,介绍如何通过合成大数据打破具身智能对于大规模真实数据的依赖,实现端到端视觉-语言-动作 (VLA)大模型系统对于不同维度的全面泛化,并进一步探讨具身智能未来发展的重要方向。


演讲嘉宾:黄思远 北京通用人工智能研究院

报告题目:Empower Generalist Robot with Human-like Interactions: From Humans to Humanoids

专家简介:黄思远博士是北京通用人工智能研究院 (BIGAI)的研究科学家,并担任通用视觉实验室主任,通院-宇树联合实验室主任。他在加州大学洛杉矶分校 (UCLA)统计系获得博士学位,导师是朱松纯教授。他的研究旨在构建一个能够理解和与三维环境交互的类人通用智能体。为实现这一目标,他在以下方向做出了研究贡献:(1) 开发可泛化的视觉表征以用于三维重建和语义落地,(2) 建模并模仿人类与三维世界的复杂交互,(3) 构建擅长与三维世界和人类交互的具身智能体。他的研究发表于五十余篇会议及期刊论文,并曾获得ICML Workshop最佳论文,UCLA优秀博士论文等奖项。他致力于开发能理解三维物理世界的具身智能体和视觉机器人。

报告摘要:Creating general-purpose embodied robots is one of the ultimate goals of artificial intelligence research. However, most current models lack the ability to understand the 3D world and construct internal world models. Enabling agents to comprehend, reason about, and interact with the 3D world is a critical challenge to address and represents a major bottleneck on the path toward general artificial intelligence. In this talk, I will introduce our recent research efforts (StyleLoco, TRUMANS, LINGO, ManipTrans), which aim to tackle these bottlenecks by empowering general-purpose robots with human-like understanding and interaction capabilities in 3D environments, thereby unlocking a broader range of real-world tasks.


演讲嘉宾:石野 上海科技大学

报告题目:扩散模型驱动的具身智能:理论与算法前沿突破

专家简介:石野博士,现任上海科技大学信息科学与技术学院助理教授、研究员、博导,YesAI可信与通用智能实验室负责人。主要聚焦在可控、鲁棒、安全的人工智能理论算法及应用,近期系统研究了可控扩散模型的理论基础及其在具身智能上的应用。近2年来领导YesAI实验室以80%+首投接收率发表顶会顶刊30余篇 (NeurIPS, ICML, ICLR, CVPR, ICCV, TNNLS等)。石野博士担任NeurIPS 2025 领域主席,组织ICCV 2025人机交互与协作研讨会, 曾入选上海市海外领军人才计划,上海市扬帆计划,主持国家自然科学基金,曾获得国家优秀留学生奖,IEEE ICCSCE 2016最佳论文奖,ICLR 2025 生成式理论研讨会杰出论文奖。

报告摘要:本报告系统介绍我们团队近一年在扩散模型驱动具身智能领域的最新理论与算法成果。理论层面提出两大支柱:球面高斯约束扩散DSG首次建立损失引导误差下界理论,通过解析解实现零训练成本的流形约束加速;基于随机最优控制构建统一扩散桥框架UniDB系列,揭示传统方法为终端约束极限特例的普适规律。算法层面形成扩散强化学习双引擎:加权变分策略QVPO首创变分下界统一探索与利用的off-policy强化学习框架;可逆扩散策略GenPO通过精确反演机制建立首个扩散驱动的on-policy强化学习范式。验证层面实现跨物体泛化与跨地形泛化:AffordDP通过可转移功能性建模,利用基础视觉模型与点云配准实现跨类别泛化,利用DSG引导扩散保持动作流形约束;DreamPolicy框架通过地形感知扩散预测人形运动想象,在人形机器人复杂地形任务中实现零样本泛化。这些工作形成从生成建模、跨域推理到决策控制的完整技术链条,为具身智能提供兼具理论深度与落地效能的解决方案。


演讲嘉宾:盛律 北京航空航天大学

报告题目:面向具身智能的单视图三维内容生成:从物体到场景的生成路径

专家简介:盛律,北京航空航天大学“卓越百人”副教授,入选小米青年学者和斯坦福2024年全球前2%顶尖科学家排行榜单。主要研究方向为三维视觉和具身智能。在IEEE TPAMI/IJCV以及CVPR/ICCV/NeurIPS/ICLR/ECCV等重要国际期刊和会议发表论文超过50篇,Google Scholar显示被引用数超6600次。组织ICML 2024 Multimodal Foundation Models Meet Embodied AI和ICCV 2021 SenseHuman等多个国际会议研讨会。现任ACM Computing Surveys副编辑,CVPR 2024-2025、ECCV 2024和ACM Multimedia 2024领域主席,以及多个领域顶会顶刊审稿人和程序委员。任CCF和CSIG多个专委会执行委员,VALSE执行领域主席。主持或参与多项国家自然科学基金、科技部重点研发计划和省部级重点研发计划项目。

报告摘要:构建高精度、物理合理且可编辑的三维场景,对在真实三维数据稀缺瓶颈下实现“虚实融合”训练,提升具身智能体对复杂环境的理解与适应性有重要价值。本次汇报将分享利用扩散模型从单视图构建高精度、可编辑三维视觉内容的系列工作,从三维物体的高精度生成到三维场景的组合式高效生成,仅用单张图片就能构建具有逼真外观、几何准确和物理合理的可编辑三维场景。基于这些工作,进一步介绍面向复杂具身感知任务的学习框架RoboRefer,借助高精度的三维物体和可编辑三维场景构造海量数据,有效提升具身智能体对复杂动态具身感知任务的学习效率。


演讲嘉宾:穆尧 上海交通大学

报告题目:从多模态认知到具身执行:大规模具身数据自动生成与具身大模型训练

专家简介:穆尧,上海交通大学计算机学院人工智能研究院长聘教轨助理教授,在国际顶级期刊和会议发表论文30余篇,以第一作者或共同第一作者在计算机领域权威期刊会议上发表论文12篇,谷歌学术引用超1400余次。代表性成果获2024年ECCV协同具身智能研讨会最优论文奖、2024年中国自动化学会自主机器人研讨会奖学金 (全国5人)、2021年IEEE ICCAS2020大会最优学生论文奖、IEEE IV2021最优学生论文提名奖。入选KAUST Rising Star 人才计划,曾获得香港政府博士奖学金、香港大学校长奖学金、连续3年获得国家奖学金。

报告摘要:本报告系统性阐述基于多模态大模型的具身智能操作系统研究,构建从场景理解到物理执行的完整技术链路。基于视觉语言大模型,系统可从单次人类演示中分解复杂任务并生成原子技能代码,实现快速学习和场景泛化。为突破数据瓶颈,本研究构建虚实协同的数据生成系统:以物理仿真引擎建立动态场景知识库,结合大模型驱动的程序化内容生成,实现百万级交互轨迹数据自动构建,显著提升模型泛化能力。研究发现认知框架与数据系统相互增强:场景解构模型指导数据生成,物理仿真数据反向优化认知模块,形成自进化训练范式,为构建通用型物理世界智能体奠定基础。

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-10-12 23:36 , Processed in 0.013756 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部