报告嘉宾:郑哲东 (澳门大学) 报告题目:Multimedia UAVs: Capturing the World from a New Perspective 报告嘉宾:王之港 (上海人工智能实验室) 报告题目:OpenFly:无人机视觉语言导航的大规模测试基准 报告嘉宾:郑哲东 (澳门大学) 报告时间:2025年6月4日 (星期三)晚上20:00 (北京时间) 报告题目:Multimedia UAVs: Capturing the World from a New Perspective 报告人简介: 郑哲东博士现任澳门大学科技学院助理教授,于悉尼科技大学获得博士学位,博士论文为校长名单优秀论文,本科毕业于复旦大学。郑博士曾在新加坡国立大学担任博士后研究员,并在博士期间于NVIDIA研究院 (美国),阿里和百度公司实习。郑博士的研究方向为表征学习和多媒体生成,他在CVPR、ICCV、TPAMI、IJCV、ACM MM等国际顶级会议和期刊上发表了55篇论文,其中23篇为CCF-A类论文,24篇发表于IEEE/ACM期刊,9篇入选ESI高被引论文。他的研究工作在Google Scholar上被引用超过11,000次,其中单篇论文引用量超过2,000次。他的一项核心技术研究成果已成功应用于全球顶尖硬件制造商NVIDIA的系列产品中。郑博士的贡献获得了多项国际认可,包括2021年IEEE电路与系统学会杰出青年作者奖 (每年仅授予一人)、之江实验室国际青年人才基金、广东省面上基金,以及连续两届CVPR AI City Challenge冠军。他还连续入选斯坦福大学全球前2%顶尖科学家榜单 (2021–2024)。除了研究工作,郑博士还积极参与学术社区服务。他担任TPAMI、IJCV、TIP、TMM、TCSVT等顶级期刊的审稿人,以及CVPR、ICCV、ECCV、NeurIPS等顶级会议的评审专家。他还曾担任IJCAI和AAAI的高级程序委员会委员 (SPC),并担任ACM MM和IEEE ICASSP的领域主席 (Area Chair)。 个人主页: https://zdzheng.xyz
报告摘要: Unmanned Aerial Vehicles (UAVs), or drones, have gained significant attention for their ability to capture high-quality multimedia data from aerial perspectives. As multimedia applications like aerial photography, cinematography, and mapping, UAVs have become essential tools for gathering diverse and rich content. This talk will explore the latest advancements, challenges, and opportunities in the field of UAV multimedia, including aerial image and video processing, machine learning for UAV data analysis, swarm technology, and UAV-based multimedia applications such as cross-view geo-localization. 报告嘉宾:王之港 (上海人工智能实验室) 报告时间:2025年6月4日 (星期三)晚上20:30 (北京时间) 报告题目:OpenFly:无人机视觉语言导航的大规模测试基准 报告人简介: 王之港,男,上海人工智能实验室青年科学家,研究方向为机器智能感知、规划与控制。2018年毕业于西北工业大学,后加入百度视觉技术部,任资深算法工程师,从事智慧城市、智能交通方面研究,在2019年和2020年两次获得AICity国际人工智能技术挑战赛冠军,研究成果落地多个城市和地区。2022年加入上海人工智能实验室,从事具身导航、自主路径规划、visual grounding、异构智能体任务规划等方面研究。在CVPR/ICCV/ECCV/AAAI/ICRA/TIP等人工智能顶级会议和期刊发表论文30余篇。 个人主页: https://scholar.google.com/citations?user=cw3EaAYAAAAJ&hl=zh-CN&oi=ao 报告摘要: 视觉语言导航 (VLN)旨在利用语言指令和视觉线索指导智能体在环境中行动,是具身人工智能的关键组成部分。室内VLN已得到广泛研究,但室外VLN (尤其是空中VLN)仍未被充分探索。其潜在原因在于室外场景覆盖范围广,数据采集更具挑战性,进而造成基准数据集的匮乏。为解决这一问题,我们提出了OpenFly,一个包含通用工具链和大规模基准测试的空中VLN 平台。首先,我们开发了高度自动化的数据采集工具链,实现了自动点云采集、场景语义分割、飞行轨迹生成和指令生成。其次,基于该工具链,我们构建了一个大规模空中VLN 数据集,包含10 万条轨迹。基于此,我们提出了一种关键帧感知的VLN模型 OpenFly-Agent,该模型融合语言指令、当前观测信息,并直接输出飞行动作。相关工具链、数据集和代码都已开源。除此之外,本报告还将介绍基于语义拓扑度量图的零样本空中VLN方法STMR和空中visual grounding的任务。 主持人:刘偲 (北京航空航天大学) 主持人简介: 刘偲,北航人工智能学院副院长,教授,中国图象图形学学会理事、副秘书长。曾获国家科技进步二等奖,中国图象图形学学会自然科学奖一等奖。国家自然科学基金优秀青年基金获得者,主持企业创新发展联合基金重点支持项目等多个项目,担任科技创新2030-重大项目课题负责人。主要从事具身智能与多模态内容理解的研究工作,发表CCF-A类论文100余篇,Google Scholar引用17000余次。 个人主页: https://colalab.net/ 特别鸣谢本次Webinar主要组织者: 主办AC:刘偲 (北京航空航天大学) |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2025-10-12 12:26 , Processed in 0.013824 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.