VALSE

VALSE 首页 活动通知 查看内容

VALSE Webinar 25-09期 总第380期 面向具身智能 (自驾)车与 (机器)人的闭环仿真与生成 ...

2025-4-3 20:47| 发布者: 程一-计算所| 查看: 26| 评论: 0

摘要: 报告嘉宾:卢策吾 (上海交通大学)报告题目:数字基因驱动的具身世界模型理解报告嘉宾:李弘扬 (香港大学)报告题目:Introducing AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Inte ...

报告嘉宾:卢策吾 (上海交通大学)

报告题目:数字基因驱动的具身世界模型理解


报告嘉宾:李弘扬 (香港大学)

报告题目:Introducing AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems


报告嘉宾:弋力 (清华大学)

报告题目:从人类运动中学习多样化的人形机器人交互技能


报告嘉宾:张力 (复旦大学)

报告题目:基于生成式物理智能的自动驾驶闭环仿真研究


报告嘉宾:廖依伊 (浙江大学)

报告题目:面向高效可控的写实闭环仿真:从重建到生成


Panel议题:

1. 从 Open X-Embodiment (OXE) 到DROID,再到AgiBot World Dataset,量级越来越大,目前这个Scale,对于具身智能是否已经足够了?

2. 如果够了,依据是什么?如果不够,还需多少?如果不够,剩下的能否用今天我们Webinar的主题,利用仿真数据,来补齐?仿真合成数据Scaling Law驱动的具身学习路线是否可行?

3. 从车到人,具身智能的仿真,或者说空间智能仿真,各位老师觉得有哪些共同点和不同点?

4. 汽车是具身机器人的特例,那具身机器人能否像汽车一样,复用自驾的闭环仿真方法?如果不行,又会有哪些新的挑战?

5. 仿真,更强调逼真,生成,更强调多样性,各位老师觉得,未来真正能推动具身智能快速发展的闭环仿真,“物理正确”以及“数据多样性”,二者是否同样重要?

6. (1)真实机器人数据采集+(2)仿真引擎驱动的仿真数据+(3)AIGC生成数据,是否是未来具身智能数据的答案?

 

Panel嘉宾:

卢策吾 (上海交通大学)、李弘扬 (香港大学)、弋力 (清华大学)、张力 (复旦大学)、廖依伊 (浙江大学)、张直政 (北京银河通用机器人有限公司)


报告嘉宾:卢策吾 (上海交通大学)

报告时间:2025年4月9日 (星期三)晚上20:00 (北京时间)

报告题目:数字基因驱动的具身世界模型理解


报告人简介:

卢策吾,上海交通大学人工智能学院副院长/特聘教授,上海创智学院副院长,长江学者特聘教授,科学探索奖获得者 (具身智能方向贡献)。中国人工智能学会具身智能大会首届、第二届程序主席。2018年被《麻省理工科技评论》评为35位35岁以下中国科技精英 (MIT TR35),2019年获求是杰出青年学者,2020年获上海市科技进步特等奖,2022年获教育部青年科学奖,国际机器人顶会IROS/ICRA最佳论文,2023年获机器人顶会RSS最佳系统论文提名奖 (共四项)。以通讯作者或第一作者在《自然》,《自然·机器智能》,TPAMI等高水平期刊和会议发表论文100多篇;担任Science、Nature、Cell等期刊审稿人,国际人工智能与机器人顶级学术会议NeurIPS、CVPR、ICCV、ECCV、IROS、ICRA领域主席。


个人主页:

https://soai.sjtu.edu.cn/cn/facultydetails/zzjs/lucewu

 

报告摘要:

AI系统在涉及到物理世界理解与交互的具身智能场景下的应用仍然面临困难。这揭示了一个重要问题:仅依赖大模型学习到的语义层面的概念对具身应用来说是远远不够的——AI系统目前缺乏一种有效的方式来理解物理世界,以实现可靠、准确、通用的机器人操作。本研究从认知学的角度去思考物体制造与操作的过程,提出了“数字基因”的思想——通过程序化参数化的方法来对同类物体的共性与差异进行表示,为机器智能提供了可计算、无歧义、高度泛化的物理概念层面的结构化抽象表示,进而实现准确的具身世界模型估计。这次汇报会详细阐述:1) 数字基因的提出背景与设计理念,2) 数字基因协议,包括物体结构概念与操作功能概念,3) 数字基因基础设施,包括数字基因维基,标注平台与数据集,数字基因驱动的物体合成算法,与物体-数字基因对齐算法框架,4) 数字基因的优势与相关应用。


报告嘉宾:李弘扬 (香港大学)

报告时间:2025年4月9日 (星期三)晚上20:20 (北京时间)

报告题目:Introducing AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems


报告人简介:

Hongyang Li is an Assistant Professor at HKU Musketeers Foundation Institute of Data Science, The University of Hong Kong and the Director of OpenDriveLab (opendrivelab.com) since 2021. His research focus is on Autonomous Driving and Embodied AI. He led the end-to-end autonomous driving project in 2022, UniAD and won the IEEE CVPR 2023 Best Paper Award. UniAD has a large impact both in academia and industry, including the recent rollout to customers by Tesla in FSD V12, V13 in 2024. He proposed the bird's-eye-view perception work, BEVFormer, that won Top 100 AI Papers in 2022 and was explicitly recognized by Jensen Huang, CEO of NVIDIA and Prof. Shashua, CEO of Mobileye at public Keynote. He is the Area Chair for CVPR, NeurIPS, ICLR, ICCV, ICML, including the Notable Area Chair for NeurIPS 2023. He serves as Referee for Nature Communications, Guest Editor at SAE China Automotive Innovations. He will act as Workshop Chair for CVPR 2026. He is the Working Group Chair for IEEE Standards under Vehicular Technology Society and Senior Member of IEEE.


个人主页:

https://lihongyang.info/

 

报告摘要:

We explore how scalable robot data can address real-world challenges for generalized robotic manipulation. Introducing AgiBot World, a large-scale platform comprising over 1 million trajectories across 217 tasks in five deployment scenarios. Accelerated by a standardized collection pipeline with human-in-the-loop verification, AgiBot World guarantees high-quality and diverse data distribution. Building on top of AgiBot World, we introduce Genie Operator-1 (GO-1), a novel generalist policy that leverages latent action representations to maximize data utilization, demonstrating predictable performance scaling with increased data volume. Policies pre-trained on our dataset achieve an average performance improvement of 30% over those trained on Open X-Embodiment, GO-1 exhibits exceptional capability in real-world dexterous and long-horizon tasks, achieving over 60% success rate on complex tasks and outperforming prior SOTA policy RDT by 32%.

 

参考文献:

[1] Bu Q, Cai J, Chen L, et al. AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems[J]. arXiv preprint arXiv:2503.06669, 2025.


报告嘉宾:弋力 (清华大学)

报告时间:2025年4月9日 (星期三)晚上20:40 (北京时间)

报告题目:从人类运动中学习多样化的人形机器人交互技能


报告人简介:

弋力博士现任清华大学交叉信息研究院助理教授,国家优青(海外)。他在斯坦福大学取得博士学位,导师为美国三院院士Leonidas J. Guibas教授,毕业后在谷歌研究院任研究科学家。他近期的研究聚焦于三维视觉与具身智能,他的研究目标是赋予机器人理解并与三维世界交互的能力。他在计算机顶级会议期刊上已发表论文七十余篇,引用数两万余次,代表作品包括ShapeNet Part,SyncSpecCNN,PointNet++等,大大影响了三维深度学习这一领域的出现与发展。此外他还曾担任CVPR、IJCAI、NeurIPS等顶会的领域主席与SIGGRAPH TPC等。


个人主页:

https://ericyi.github.io/

 

报告摘要:

赋予人形机器人在多种场景下的交互能力是具身人工智能研究的重要目标。然而,人形机器人因其复杂的动力学特性、高维感知与控制需求以及欠驱动特性,技能学习过程面临诸多挑战。得益于人形机器人与人类形态的相似性,人类丰富的交互运动数据为其提供了宝贵的先验知识。如何高效利用这些数据,学习并指导多样化的人形机器人交互技能,是本次报告的核心主题。报告将分享团队在这一领域的探索,介绍多种学习路径,并展示人类运动数据在人形机器人技能开发中的巨大潜力。

 

参考文献:

[1] Li, Y., Lin, M., Lin, Z., Deng, Y., Cao, Y., & Yi, L. (2025). Learning Physics-Based Full-Body Human Reaching and Grasping from Brief Walking References. arXiv preprint arXiv:2503.07481.

[2] Wang, Z., Chen, Z., Chen, J., Wang, J., Yang, Y., Liu, Y., ... & Yi, L. (2025). MobileH2R: Learning Generalizable Human to Mobile Robot Handover Exclusively from Scalable and Diverse Synthetic Data. arXiv preprint arXiv:2501.04595.


报告嘉宾:张力 (复旦大学)

报告时间:2025年4月9日 (星期三)晚上21:00 (北京时间)

报告题目:基于生成式物理智能的自动驾驶闭环仿真研究


报告人简介:

张力,复旦大学大数据学院教授,博士毕业于伦敦玛丽女王大学电子工程与计算机科学系,曾任职于牛津大学工程科学系博士后,剑桥三星人工智能中心研究科学家。获得国家级高层次青年人才计划、 上海海外高层次人才计划、上海科技青年 35 人引领计划(35U35)、世界人工智能大会青年优秀论文奖; 发表 IEEE TPAMI、IJCV、NeurIPS 等人工智能国际期刊与会议论文 90 余篇,论文总被引两万余次。 担任人工智能国际会议 NeurIPS 2023、NeurIPS 2024、NeurIPS 2025、CVPR 2023、CVPR 2024 与 CVPR 2025 领域主席,期刊 Pattern Recognition 副编辑。


个人主页:

https://lzrobots.github.io/

 

报告摘要:

任意轨迹的街景合成使得端到端驾驶策略的闭环评估成为可能。尽管现有方法在录制轨迹上的新视角合成表现出色,但由于记录的驾驶视频通常以有限的视角采集无边界的广阔驾驶环境,这些基于重建的方法在处理新轨迹时仍面临挑战。为了解决这一问题,本报告介绍一种新颖的任意轨迹驾驶视图合成方法,通过利用视频生成先验来优化自由轨迹下的三维模型。并以此为基础构建一个全新自动驾驶仿真引擎,其具备:多模态的(摄像头和激光雷达)逼真场景渲染;支持闭环评估,以适应自由形式的轨迹行为;提供高度多样化的交通场景,以进行全面的评估;支持多智能体协作,以考虑交互动态;并具备高计算效率,以确保经济性和可扩展性。基于这一仿真环境,模拟了三种驾驶类别:非交互性驾驶、安全测试以及多智能体交互模拟,以提供一个可靠且全面的基准,用于评估驾驶代理在现实世界中的表现。

 

参考文献:

[1] Jiang, J., Gu, C., Chen, Y., & Zhang, L. (2025). GS-LiDAR: Generating Realistic LiDAR Point Clouds with Panoramic Gaussian Splatting. ICLR 2025.

[2] Chen, Y., Zhang, J., Xie, Z., Li, W., Zhang, F., Lu, J., & Zhang, L. S-nerf++: Autonomous driving simulation via neural reconstruction and generation. IEEE TPAMI 2025.


报告嘉宾:廖依伊 (浙江大学)

报告时间:2025年4月9日 (星期三)晚上21:20 (北京时间)

报告题目:面向高效可控的写实闭环仿真:从重建到生成


报告人简介:

廖依伊,浙江大学信电学院特聘研究员。分别于西安交通大学和浙江大学获得学士和博士学位,并在德国马普所和图宾根大学从事博士后研究。研究兴趣主要为三维视觉与沉浸式媒体编码。在TPAMI、CVPR、ICCV、NeurIPS等期刊和会议发表文章四十余篇,谷歌学术引用4900余次。获ICRA 2024最佳机器人视觉论文奖,入选2023 百度 AI 华人女性青年学者。担任3DV 2025程序主席,CVPR 2023-2025领域主席,MPEG国际标准组织高斯泼溅编码 (GSC)专题组联席 组长,IEEE 视频处理与通信技术委员会 (VSPC)委员。


个人主页:

https://yiyiliao.github.io/

 

报告摘要:

高写实度仿真平台对自动驾驶在长尾场景的测试具有重要价值。本次汇报将分享系列利用神经渲染技术从现实世界构建高写实度驾驶场景的工作,从现实场景高效重建出发,到无限街景三维高效生成,构建具有逼真外观、丰富语义和多自由度控制能力的城市场景。进一步搭建了评估自动驾驶算法的闭环、写实且实时的开源仿真平台HUGSIM,用于端到端自动驾驶算法的闭环测试。


Panel嘉宾:张直政 (北京银河通用机器人有限公司)


嘉宾简介:

张直政,北京银河通用机器人有限公司合伙人兼大模型负责人,智源学者,专注于具身多模态大模型的研发与应用。作为公司核心技术领导者,他主导构建了通用机器人的智能架构体系,推动 Galbot G1 等产品实现工业级泛化能力,在制造业、零售、医疗等场景中完成复杂操作任务。在技术创新领域,张直政深度参与北大 - 银河通用具身智能联合实验室的建设,带领团队突破多模态感知与决策技术,实现机器人在动态环境中的自主适应能力。其主导研发的具身大模型系统,支持机器人完成跨场景任务迁移,成功率达行业领先水平。


个人主页:

https://scholar.google.com/citations?hl=zh-CN&user=X7M0I8kAAAAJ&view_op=list_works&sortby=pubdate


主持人:金鑫 (宁波东方理工大学(暂名))


主持人简介:

金鑫,新型研究型大学-宁波东方理工大学(暂名) 助理教授、博导,中科大博士、新国立访问学者、浙江省青年拔尖人才,曾获中科院院长特别奖、IEEE电路与系统学会第二届视觉信号处理与通信新星奖Rising Star 2024、ACM SIGAI China国际计算机学会中国人工智能分会优博、安徽省优博。研究兴趣包括计算机视觉及多媒体技术,一作及通讯作者发表 CVPR、ICCV、ECCV、NeurIPS、TIP、TMM等国际期刊与会议论文40余篇,论文总引4700余次,多项成果被微软、阿里、吉利汽车等企业集成采用。在CVPR 2024和ECCV 2024等AI/CV顶会,组织表征解耦学习与组合泛化Tutorial,担任IEEE VSPC视觉信号处理与通信专委会、CSIG多媒体专委会、CAAI具身智能专委会首届委员、VALSE 执行AC、IEEE ICIP&VCIP 2024、IEEE ICME 2025领域AC。


个人主页:

https://www.eitech.edu.cn/?tid=40&p=teacher/



特别鸣谢本次Webinar主要组织者:

主办AC:金鑫 (宁波东方理工大学(暂名))

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-10-16 17:29 , Processed in 0.015479 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部