VALSE Webinar 25-12期总第383期以人为中心的交互感知与生成

2025-4-24 21:12| 发布者: 程一-计算所| 查看: 119| 评论: 0

摘要: 报告嘉宾：谢伟迪 (上海交通大学)报告题目：Towards Egocentric Streaming Video Understanding报告嘉宾：刘洋 (北京大学)报告题目：面向开放世界的人物交互感知与生成报告嘉宾：王靖博 (上海人工智能实验室)报告题 ...

报告嘉宾：谢伟迪 (上海交通大学)

报告题目：Towards Egocentric Streaming Video Understanding

报告嘉宾：刘洋 (北京大学)

报告题目：面向开放世界的人物交互感知与生成

报告嘉宾：王靖博 (上海人工智能实验室)

报告题目：面向通用技能的人类运动先验的学习与仿真

Panel议题：

1. 第一视角的遮挡、动态模糊等问题如何影响交互感知？是否可以通过多模态融合弥补视觉信息的不足？

2. 开放场景中存在大量未知物体和交互意图，如何让模型适应从未见过的交互场景或未知物体？

3. 生成的可控性与安全性：在开放世界生成人物交互时，如何避免生成不合理甚至有害的行为？

4. 具身智能与以人为中心的交互感知如何结合？

报告嘉宾：谢伟迪 (上海交通大学)

报告时间：2025年4月30日 (星期三)晚上20:00 (北京时间)

报告题目：Towards Egocentric Streaming Video Understanding

报告人简介：

谢伟迪，上海交通大学长聘轨副教授，首批教育部U40获得者，国家级青年人才(海外)，上海市海外高层次人才计划获得者，上海市启明星计划获得者，科技部科技创新 2030 —“新一代人工智能”重大项目青年项目负责人，国家基金委面上项目负责人。博士毕业于牛津大学视觉几何组（Visual Geometry Group，VGG，导师：Andrew Zisserman, Alison Noble），首批 Google-DeepMind 全额奖学金获得者，China-Oxford Scholarship获得者，牛津大学工程系杰出奖获得者。主要研究领域为计算机视觉，医学人工智能，共发表论文超 80篇，包括Nature Communications，NPJ Digital Medicine，CVPR，ICCV, NeurIPS, ICML, IJCV等，Google Scholar累计引用约15000次，多次获得国际顶级会议研讨会的最佳论文奖和最佳海报奖，最佳期刊论文奖，MICCAI Young Scientist Publication Impact Award Finalist (5/6000)；Nature Medicine，Nature Communications特邀审稿人，计算机视觉和人工智能领域的旗舰会议CVPR，NeurIPS，ECCV的领域主席。

个人主页：

https://weidixie.github.io/

报告摘要：

第一视角视频分析对于AI理解人类日常行为起到至关重要的作用，在AR/VR、自动驾驶、具身智能等具有广泛应用前景。本报告在第一视角视频理解下的几个挑战性难题展开相关探索。(i) 针对第一视角视频数据规模受限的难题，探究 [1] 通过学习联合第一视角—第三视角表征空间，自动从海量第三视角视频从检索语义相关视频辅助第一视角视频描述；[2] 通过学习第一视角—第三视角细粒度手与交互物体时空对齐关系，将第三视角视频用于辅助第一视角视频预测。(ii) 针对第一视角视频的长时序理解难题，探究结合长时时序定位与视频问答任务，通过定位长视频中的关键线索[3]或多跳线索[4]，辅助第一视角视频内容理解。(iii)针对第一视角流式视频理解的难题，探究[5]通过统一的多任务视频—语言预训练范式训练流式视频表征模型，高效处理下游在线视频理解任务。

报告嘉宾：刘洋 (北京大学)

报告时间：2025年4月30日 (星期三)晚上20:30 (北京时间)

报告题目：面向开放世界的人物交互感知与生成

报告人简介：

刘洋，北京大学王选计算机研究所研究员，博士生导师, 北大博雅青年学者。其博士毕业于英国剑桥大学计算机科学专业，而后曾任英国牛津大学博士后研究员。主要从事多模态感知和生成相关研究，致力于用人工智能算法解决多媒体信息分析与智能融合的相关问题。研究成果发表国际知名期刊和会议论文60余篇，获7项国际专利授权，6项国际竞赛获奖。主持科技部国家重点研发计划课题、国家自然科学基金面上项目等项目10余项，部分创新性研究成果及其关键技术已在学术及产业界得到了应用。

个人主页：

www.csyangliu.com

报告摘要：

面向开放世界的交互感知与生成技术对推动具身智能与虚实融合应用具有关键意义。但在实际研究中仍面临诸多挑战：高质量人物交互多模态数据稀缺、细粒度交互时空标注不足，以及以人为中心的物理常识建模不足等。本次汇报将分享团队在这一领域的探索，介绍一系列基于多模态大模型和扩散模型的交互感知与生成工作，从静态图像中的人物交互关系理解出发，到解译视频中动态交互与物体状态迁移的因果关联，拓展到实现文本可控的人物交互图像和视频生成。

报告嘉宾：王靖博 (上海人工智能实验室)

报告时间：2025年4月30日 (星期三)晚上21:00 (北京时间)

报告题目：面向通用技能的人类运动先验的学习与仿真

报告人简介：

王靖博，上海人工智能实验室青年科学家，研究方向包括人型角色控制与物理仿真、人形机器人运动控制以及具身智能等。

2023年博士毕业于香港中文大学多媒体实验室，已在CVPR、ICCV、ECCV、NeurIPS等顶级会议和期刊发表论文数十篇，总引用量近8000次。曾获得包括COCO在内的多个视觉理解挑战赛冠军，其研究成果入选ECCV十大影响力论文及ESI高被引论文。

个人主页：

https://wangjingbo1219.github.io/

报告摘要：

赋予人形机器人在多场景中具备自然、灵活的交互能力，是具身智能研究的核心课题之一。然而，由于人形机器人复杂的动力学结构和高维控制空间，实现高效的运动控制和规划依然面临巨大挑战。

本报告聚焦于人类运动先验在人形机器人控制中的应用，基于人类与机器人在运动学上的高度相似性，探索如何通过真实的人体运动与交互数据，进行通用技能的建模与仿真，并进一步将其迁移至复杂环境下的策略规划与执行任务中。

报告将系统介绍团队在该方向的研究进展，涵盖多种学习路径，并展示人类运动数据在人形机器人技能生成中的巨大潜力与应用前景。

主持人：汪婧雅 (上海科技大学)

主持人简介：

汪婧雅，上海科技大学研究员、助理教授、博导，博士毕业于伦敦大学玛丽女王学院。研究兴趣侧重于以人为中心的三维交互与具身智能。在计算机视觉顶级会议和期刊上发表论文50余篇，其中CCF-A类论文40余篇。担任CVPR、NeurIPS、ICML、ICCV、ECCV、ACM MM等会议的领域主席。攻博期间入选CVPR Doctoral Consortium Award，第一作者论文入选Computer Vision News Magazine评比的2018 Best of CVPR Paper。2023年入选百度AI华人女性青年学者榜。获得2024年ACM Design Automation Conference最佳论文提名，2024年ACM Multimedia最佳论文提名，入选获上海市海外高层次人才计划。

个人主页：

https://faculty.sist.shanghaitech.edu.cn/faculty/wangjingya/

特别鸣谢本次Webinar主要组织者：

主办AC：汪婧雅 (上海科技大学)

收藏邀请

上一篇：VALSE 2025关于【第二次预注册及确认参会】事宜的通知下一篇：VALSE 2025关于【强烈谴责贩卖大会注册名额行为】的声明

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-12-16 04:38 , Processed in 0.015099 second(s), 14 queries .

返回顶部

VALSE Webinar 25-12期 总第383期 以人为中心的交互感知与生成

相关分类

下级分类

VALSE Webinar 25-12期总第383期以人为中心的交互感知与生成