报告嘉宾:马超 (上海交通大学) 报告题目:Cross-Modal Scene Understanding for Autonomous Driving 报告嘉宾:李弘扬 (OpenDriveLab at Shanghai AI Lab) 报告题目:DriveLM: Driving with Graph Visual Question Answering Panel嘉宾: 王乃岩 (图森未来),马超 (上海交大),李弘扬 (OpenDriveLab at Shanghai AI Lab) Panel议题: 1. LLM或者视觉大模型对于自动驾驶真实落地能起到多大的帮助?是在感知层面,还是在规划层面,还是在数据的生成和增广层面,还是其他的层面? 2. LLM或者视觉大模型在自动驾驶真实场景如何保证推理的实时性? 3. LLM或者视觉大模型如何和世界模型结合,从而有效地促进自动驾驶的真实落地? *欢迎大家在下方留言提出主题相关问题,主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题! 报告嘉宾:马超 (上海交通大学) 报告时间:2023年12月27日 (星期三)晚上20:00 (北京时间) 报告题目:Cross-Modal Scene Understanding for Autonomous Driving 报告人简介: 马超,上海交通大学人工智能研究院长聘轨副教授,博士生导师。国家优青、上海市浦江人才、中国图象图形学学会优博。上海交通大学与加州大学默塞德分校联合培养博士。澳大利亚机器人视觉研究中心 (阿德莱德大学)博士后研究员。主要研究计算机视觉与机器学习。谷歌学术引用1万余次,连续入选爱思唯尔中国高被引学者 (2020-2023)。担任中国图象图形学学会优博俱乐部轮值主席。获中国图象图形学学会青年科学家奖、华为技术合作领域2021年度优秀技术成果奖,研究成果应用于华为达芬奇芯片及其无人驾驶MDC平台。 个人主页: https://vision.sjtu.edu.cn/ 报告摘要: Cross-modal data are widely used in autonomous driving. For example, a camera and LiDAR are two complementary sensors. Camera provides rich texture and color cues while LiDAR specializes in relative distance sensing. The challenges of cross-modal data fusion lie in how to bridge knowledge gaps across multi-modal data for training neural networks. This talk mainly discusses the recent progress of cross-modal data fusion, including cross-modal data augmentation and knowledge distillation, for object detection and segmentation. 参考文献: [1] ProtoTransfer: Cross-Modal Prototype Transfer for Point Cloud Segmentation [2] VideoTrack: Learning to Track Objects via Video Transformer 报告嘉宾:李弘扬 (OpenDriveLab at Shanghai AI Lab) 报告时间:2023年12月27日 (星期三)晚上20:50 (北京时间) 报告题目:DriveLM: Driving with Graph Visual Question Answering 报告人简介: Hongyang received PhD from The Chinese University of Hong Kong in 2019. He is currently a Research Scientist at OpenDriveLab, Shanghai AI Lab. His expertise focuses on perception and cognition, end-to-end autonomous driving and foundation model. He serves as Area Chair for top-tiered conferences multiple times, including CVPR, NeurIPS. He is the Notable Area Chair at NeurIPS 2023. He won as PI the CVPR 2023 Best Paper Award, and proposed BEVFormer that is renowned for 3D object detection baseline and won the Top 100 AI Papers in 2022. 个人主页: https://opendrivelab.com/ 报告摘要: We present DriveLM, a new task, dataset, metrics, and baseline for end-to-end autonomous driving. It considers Graph Visual Question Answering (GVQA), where question-answer pairs are interconnected via logical dependencies at the object-level, i.e., interactions between object pairs, and the task-level, for example, perception to prediction to planning. In this talk, I will give the recent work and trending topics on how large language models (LLMs) could facilitate autonomous driving. Some preliminary results are provided and discussed to validate the zero-shot ability of the proposed algorithm at OpenDriveLab. 参考文献: [1] DriveLM, https://github.com/OpenDriveLab/DriveLM [2] Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future, https://arxiv.org/abs/2312.03408 Panel嘉宾:王乃岩 (图森未来) 嘉宾简介: 王乃岩,现为北京图森未来科技有限公司首席科学家,负责北京算法研发团队,从事自动驾驶重卡的研发。在这之前,他于2011年本科毕业于浙江大学,2015年博士毕业于香港科技大学计算机科学与工程系。他是2014 Google PhD Fellow计划入选者 (全球38名),多次在国际数据挖掘和计算机视觉比赛中名列前茅。他发表的论文据Google Scholar统计总引用次数超过15000余次。 他的主要研究方向为基于统计计算的计算机视觉与机器学习,现阶段侧重于追踪和改进学术界中这部分最前沿技术,并集成进入图森的自动驾驶卡车中部署运行。 主持人:李镇 (香港中文大学(深圳)) 主持人简介: 李镇博士现任香港中文大学 (深圳)理工学院/ 未来智联网络研究院助理教授,校长青年学者。李镇博士获得香港大学计算机科学博士学位 (2014-2018年),他还于2018年在芝加哥大学担任访问学者。李镇博士荣获2021年中国科协第七届青年托举人才,CASP12接触图预测全球冠军,SemanticKITTI竞赛第一名,Urban3D竞赛2021第二名,Urban3D竞赛2022第三名。李镇博士还获得了来自于国家、省市级以及工业界的科研项目,有关更多详细信息请参阅他的个人主页 。 李镇博士领导了港中深的Deep Bit Lab,其主要的研究方向是3D视觉解析及应用 (包括但不限于点云解析,多模态联合解析),深度学习等基础理论算法研究,并致力于将2D/ 3D人工智能算法推广应用于蛋白/ RNA结构预测,自动驾驶,工业视觉等场景中。 个人主页: https://mypage.cuhk.edu.cn/academics/lizhen/ 特别鸣谢本次Webinar主要组织者: 主办AC:李镇 (香港中文大学(深圳)) |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2024-11-26 12:35 , Processed in 0.013492 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.