VALSE Webinar 20240228-05期总第339期开放世界下的具身智能系统

2024-2-23 19:26| 发布者: 程一-计算所| 查看: 2468| 评论: 0

摘要: 报告嘉宾：庞江淼 (上海人工智能实验室)报告题目：面向开放世界的机器人具身感知与控制报告嘉宾：马晓健 (北京通用人工智能研究院)报告题目：Generalist Embodied AI in an Open WorldPanel嘉宾：庞江淼 (上海人工智 ...

报告嘉宾：庞江淼 (上海人工智能实验室)

报告题目：面向开放世界的机器人具身感知与控制

报告嘉宾：马晓健 (北京通用人工智能研究院)

报告题目：Generalist Embodied AI in an Open World

Panel嘉宾：

庞江淼 (上海人工智能实验室)、马晓健 (北京通用人工智能研究院)、苏航 (清华大学)、梁俊卫 (香港科技大学 (广州))

Panel议题：

1. 大模型对于机器人具身智能有什么价值，如何发挥价值？
2. 真实物理世界下和虚拟世界中的的智能体如何统一建模？现阶段，如何相互借鉴？
3. 近期大火的text-to-video生成模型 (例如Sora)对具身智能的借鉴和影响?
4. 面向通用机器人的数据采集，提升真实世界收集的规模 vs 提升仿真器的质量，哪条路径更可行？
5. 视觉语言大模型在室内无地图导航中的应用和发展前景？

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：庞江淼 (上海人工智能实验室)

报告时间：2024年2月28日 (星期三)晚上20:00 (北京时间)

报告题目：面向开放世界的机器人具身感知与控制

报告人简介：

庞江淼，上海人工智能实验室青年科学家，OpenRobotLab 浦器团队负责人，研究方向为多模态感知、机器人学、具身智能，目标构建一体可泛化的具身通用人工智能系统。在 TPAMI、IJCV、CVPR、CoRL 等计算机视觉与机器人学习领域顶级期刊与会议发表论文 30 余篇，谷歌学术被引 8200 余次。他是 OpenMMLab 视觉感知系列开源平台 MMDetection、MMTracking、MMDetection3D 的作者，GitHub 累计星标 35000 余次，被产学界广泛使用。他曾获得 2018年与 2019 年 MS COCO 目标检测挑战赛冠军，ICCV 2019 杰出审稿人，CVPR 2023 最有影响力论文，世界前 2% 科学家等荣誉称号。

报告摘要：

机器人具身智能是通用人工智能赋能真实物理世界的重要一步。在大模型发展的推动下，具身交互领域取得了飞速发展，机器人能够更加智能地理解人类意图并与人交互。然而，为了驱动机器人执行人类指令，开放世界感知与控制能力是重要基石。本次报告将介绍 OpenRobotLab 浦器团队在相关领域的最新进展，并着重介绍：EmbodiedScan 具身多模态三维感知基准，包含百万级别第一视角 RGBD 图像与语言标注，构建了首个统一的多模态具身三维感知框架，赋予机器人全方位具身感知能力；HIMLoco 足式机器人通用运动控制方法，创新性地将经典内模估计算法 (Internal Model Control)与强化学习框架相结合，通过估计机器人的响应替代对动态环境的估计，仅需在仿真环境内训练四足机器人一小时，即可驱动其在开放世界任意地形稳定行走。

报告嘉宾：马晓健 (北京通用人工智能研究院)

报告时间：2024年2月28日 (星期三)晚上20:30 (北京时间)

报告题目：Generalist Embodied AI in an Open World

报告人简介：

马晓健是北京通用人工智能研究院 (BIGAI)的研究员。他在加州大学洛杉矶分校获得计算机科学博士学位，在清华大学获得计算机科学学士学位。目前关注在构建能够从二维和三维视觉与文本数据中学习，实现具身的视觉理解、推理，规划和控制任务的通用智能体，以及如何通过提升现代机器学习系统的训练和推理效率来加速通用智能体的构建。他曾在DeepMind、英伟达研究院和谷歌大脑机器人团队工作，专攻于大规模机器学习。研究曾在ICML研讨会上获得最佳论文奖。

报告摘要：

From generalist manipulators to humanoids, robotics and embodied AI is at the center of the stage again but surrounded by a completely different AI landscape, where largely pretrained models like LLMs and VLMs are roaring at multiple fronts of human intelligence. Indeed, embodied AI itself is also experiencing a paradigm shift: from close-world and static settings to more realistic, open-world and dynamic environments. In this talk, I will present some of our recent efforts on bringing more open-world characteristics to the realm of embodied agents. We will first cover LEO, our latest effort of building embodied, generalist agents in the 3D world. LEO follows the alignment-instruction tuning scheme and exhibits strong performances on various 3D-language understanding, reasoning, dialogue and acting tasks. We then introduce CraftJavis, a collection of research efforts dedicated to building multimodal generalist agents in Minecraft, and its most recent advancement: Jarvis-1, which combines the arts of pretrained multimodal language models with memory architecture and attain significant gain on the “ObtainDiamond” challenge. Finally, I will review some ongoing and possible future directions.

Panel 嘉宾：苏航 (清华大学)

嘉宾简介：

苏航，清华大学计算机系副研究员，入选国家“万人计划”青年拔尖人才，主要研究对抗机器学习和鲁棒视觉计算等相关领域，发表CCF推荐A类会议和期刊论文100余篇，谷歌学术论文引用7000余次，获得吴文俊人工智能自然科学一等奖，ICME铂金最佳论文、MICCAI青年学者奖和AVSS最佳论文等多个学术奖项，曾率队在NeurIPS2017对抗攻防等多个国际学术比赛中获得冠军。现任中国图像图形学会青工委执委、曾任VALSE执行AC委员会主席，NeurIPS21的领域主席（Area Chair）、AAAI22 Workshop Co-Chair，并在多次ICML等顶级国际会议上作为分论坛主席组织安全人工智能领域的专题研讨。

Panel 嘉宾：梁俊卫 (香港科技大学 (广州))

嘉宾简介：

梁俊卫，香港科技大学 (广州)人工智能学域助理教授/副研究员/博士生导师，创立并领导智能感知与预测实验室。梁博士在卡内基梅隆大学计算机学院取得博士与硕士学位，曾获得百度奖学金 (全球10名)，雅虎奖学金，世界人工智能大会明日之星云帆奖，ICCV博士奖，以及多项国际比赛包括视频行为识别的冠军。近五年内于CVPR、TPAMI、NeurIPS等国际顶级期刊会议发表论文30余篇，谷歌学术引用量1000余次, h-index 16；主持国家级基金、两项广州市科技局课题、美团机器人等近百万元经费项目。

主持人：张瑞茂 (香港中文大学 (深圳))

主持人简介：

张瑞茂，现为香港中文大学 (深圳)数据科学学院的副研究员。张博士于中山大学获得学士和博士学位。后在香港中文大学多媒体实验室担任博士后研究员。他的研究兴趣包括计算机视觉和具身智能。在TPAMI、IJCV、ICML、ICLR、CVPR、ICCV等顶级会议和期刊上发表论文50余篇，谷歌学术论文引用4000余次。张博士曾获得多项国际比赛的奖项，例如 2017 年 Youtube 8M 视频分类挑战赛金奖、2020 年 AIM 学习图像信号处理管道挑战赛第一名。2021年，张博士被评委NeurIPS优秀审稿人。张博士也是多媒体领域知名期刊ACM Transactions on Multimedia Computing、Communications and Applications 的副编辑。

特别鸣谢本次Webinar主要组织者：

主办AC：张瑞茂 (香港中文大学 (深圳))

收藏邀请

上一篇：VALSE Webinar 20240124-04期总第338期声音与视觉生成的二重奏下一篇：VALSE Webinar 20240313-06期总第340期 Sora与视频生成新时代

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-10-16 06:53 , Processed in 0.013318 second(s), 14 queries .

返回顶部

VALSE Webinar 20240228-05期 总第339期 开放世界下的具身智能系统

相关分类

下级分类

VALSE Webinar 20240228-05期总第339期开放世界下的具身智能系统