VALSE

VALSE 首页 活动通知 查看内容

VALSE Webinar 25-08期 总第379期 具身智能中的多模态感知与精细操控 ...

2025-3-27 20:42| 发布者: 程一-计算所| 查看: 17| 评论: 0

摘要: 报告嘉宾:胡迪 (中国人民大学)报告题目:具身物体交互中的视觉、触觉、听觉感知和协同报告嘉宾:白辰甲 (中国电信人工智能研究院)报告题目:强化学习驱动的具身规划和策略学习报告嘉宾:胡迪 (中国人民大学)报告时 ...

报告嘉宾:胡迪 (中国人民大学)

报告题目:具身物体交互中的视觉、触觉、听觉感知和协同


报告嘉宾:白辰甲 (中国电信人工智能研究院)

报告题目:强化学习驱动的具身规划和策略学习


报告嘉宾:胡迪 (中国人民大学)

报告时间:2025年4月2日 (星期三)晚上20:00 (北京时间)

报告题目:具身物体交互中的视觉、触觉、听觉感知和协同


报告人简介:

胡迪,现任中国人民大学高瓴人工智能学院副教授,博导。主要研究方向为机器多模态感知、交互与学习,以主要作者在T-PAMI/ICML/CVPR/CoRL等人工智能顶级期刊及会议发表论文50余篇,代表性工作如视音指代分割与问答;平衡多模态学习理论,机制与方法;面向物体操纵的动态视听触交互算法等。作为副主编出版本科教材一部。曾入选 CVPR Doctoral Consortium;荣获2020中国人工智能学会优博奖;荣获2022年度吴文俊人工智能优秀青年奖;入选第七届中国科协青托计划等。所指导学生获百度奖学金。担任AAAI、IJCAI Senior PC等,主办/协办多场国际顶级会议的多模态学习讲习班 (Tutorial)。


个人主页:

https://gewu-lab.github.io/

 

报告摘要:

视、听、触等基础感官是有效支撑我们能够同环境产生高效、复杂交互的主要途径与媒介。这是建立在“感官信息的精准感知-对任务阶段的全面理解-依据需要针对性利用不同感官”基础之上的。然而,赋予机器人相类似的能力十分具有挑战性。在此次报告中,我将介绍课题组最近围绕视触觉跨设备表征学习 (感知层面)与多传感器物体精细操纵 (认知层面与推理层面)的相关工作,并揭露影响多传感器物体精细操纵能力、但被普遍忽视的一大挑战:模态时变性 (Modality Temporality)。搭载所提算法的硬件系统不仅能出色完成指令倾倒和关键位置插入等精细操纵,更产生了拟人的多模态动态权重分配现象。我们相信围绕多模态感知-认知-推理-感知的闭环会形成一种有效的多传感器机器人学习范式,并借此希望能够激励更多的多传感器机器人操纵的相关研究。

 

相关项目主页:

视触觉跨设备表征学习 (AnyTouch, ICLR 2025):https://gewu-lab.github.io/AnyTouch/

视听触多模态物体交互 (MS-Bot, CoRL 2024, Oral):https://gewu-lab.github.io/MS-Bot/


报告嘉宾:白辰甲 (中国电信人工智能研究院 (TeleAI))

报告时间:2025年4月2日 (星期三)晚上20:30 (北京时间)

报告题目:强化学习驱动的具身规划和策略学习


报告人简介:

白辰甲,中国电信人工智能研究院 (TeleAI)研究科学家,具身智能研究中心负责人,兼任上海交大、复旦大学联培博士生导师。研究方向包括具身智能、强化学习等。在包括AI Journal, TPAMI, NeurIPS的学术会议/期刊上发表论文50余篇,谷歌学术引用 1000 余次。出版强化学习专著一部。主持国家自然科学基金、国家重点研发计划课题,入选中国科协青年托举人才、上海市启明星扬帆计划、上海市光启青年人才,获世界人工智能大会优秀论文奖,并担任多个国际顶级会议和期刊的领域主席和审稿人。


个人主页:

https://baichenjia.github.io/

 

报告摘要:

具身智能研究如何人类的规划和交互的能力。大模型具有对物理世界的丰富知识,能够为智能体提供环境感知和任务规划的能力。然而,大模型知识和物理世界之间有着较大的语义鸿沟,难以在特定的物理环境中给出可行规划。本报告探讨如何使用强化学习技术为大模型提供高效的环境反馈、模型微调和规划校正,从而使大模型通过多轮交互适应于特定物理场景的规划。进而,本报告将探讨类人形机器人如何实现实现鲁棒下肢运动控制和上肢灵巧操作,从而实现在规划后的类人环境交互,并介绍TeleAI具身智能团队在该方面的最新成果。


主持人:张瑞茂 (中山大学)


主持人简介:

张瑞茂,中山大学电子与通信工程学院副教授,博士生导师,深圳市海外高层次人才。主要研究方向集中于计算机视觉、机器人视觉、多模态大模型等领域。近年来的核心研究目标是研发“能够在动态环境中与人进行有效交互的具身智能体”。迄今为止在人工智能领域期刊和会议发表论文60余篇,Google Scholar 引用近7000次,授权中国/美国发明专利10余项。作为核心成员参加2017年Google Youtube 8M视频分析挑战赛并获得金牌。参加2020年 AIM可学习图像处理挑战赛并获得冠军。先后主持/参与多项国家自然科学基金、科技部重点研发项目。长期担任领域内众多顶级期刊和会议的审稿人,2021年获评机器学习顶级会议NeurIPS杰出审稿人。长期担任视觉与学习研讨会 (VALSE)执行领域主席。



特别鸣谢本次Webinar主要组织者:

主办AC:张瑞茂 (中山大学)

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-10-16 17:29 , Processed in 0.014971 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部