报告嘉宾:弋力 (清华大学) 报告题目:面向交互的四维动态场景理解 报告嘉宾:赵恒爽 (香港大学) 报告题目:Scene Understanding in 3D and 2D-3D Panel嘉宾: 弋力 (清华大学)、赵恒爽 (香港大学)、韩晓光 (香港中文大学 (深圳))、史少帅 (德国马克思普朗克研究所)、王兴刚 (华中科技大学)、徐凯 (国防科技大学) Panel议题: 1. 四维的场景理解有哪些独特的问题?如何看待“人”在场景理解中的价值与影响? 2. 场景理解是否有优于点云的其他表示方式? 3. 三维场景理解中如何更好的结合几何和表观信息? 4. 三维场景理解能为二维场景理解或更广泛的视觉理解提供哪些帮助? 5. 室内场景感知在算法上与室外场景有哪些联系与区别? 6. 场景理解还有哪些挑战和机会? *欢迎大家在下方留言提出主题相关问题,主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题! 报告嘉宾:弋力 (清华大学) 报告时间:2022年04月20日 (星期三)晚上20:00 (北京时间) 报告题目:面向交互的四维动态场景理解 报告人简介: 弋力博士,现任清华大学交叉信息研究院助理教授,兼职上海期智研究院杰出科学家。他在斯坦福大学取得博士学位,导师为Leonidas J.Guibas教授,毕业后在谷歌研究院任研究科学家。在此之前,他在清华大学电子工程系取得了学士学位。他的研究兴趣涵盖三维感知、计算机图形学和形状分析,他的研究目标是使机器人代理具备理解三维世界并与之互动的能力。他在CVPR/ ICCV/ ECCV/ NeurIPS/ SIGGRAPH/ SIGGRAPH Asia等顶级会议发表三十余篇论文,并担任CVPR 2022领域主席。他的工作在领域内得到广泛关注,引用数达9000+,代表作品包括ShapeNet, SyncSpecCNN, PointNet++等。 个人主页: https://ericyi.github.io/ 报告摘要: 三维计算机视觉近年来快速发展,在诸如三维检测、三维分割等静态场景理解任务中取得了巨大的进步。然而静态场景理解只是场景感知中很有限的一部分,越来越多诸如家用机器人、增强现实等重大应用需要从第一人称视角对于与场景的动态交互进行感知,亦或是感知可以支持与场景交互的有效信息,这给现如今的三维感知系统带来了新的挑战。为了应对这些挑战,我们从数据集、骨干网络设计、感知应用三个层面聚焦面向交互的四维动态场景理解。数据层面,考虑到现有数据集的局限性,我的团队构建了第一个大规模4D类别级人-物交互数据集HOI4D,从第一人称视角对真实场景中人-物的动态交互过程进行了采集捕捉,并提供了4D场景全景分割、手势、物体类别级位姿、视频分割等详细标注信息,用以支持面向交互的动态场景感知。骨干网络设计层面,为了更好的支持基于4D点云序列的深度学习,我们设计了新型网络架构用以有效的对高维数据中的长程信息进行建模。感知应用层面,我将展示我们如何以可泛化的方式对动态场景中的部件信息进行感知,以便更好的支持和物体的操作交互。 参考文献: [1] Yunze Liu*, Yun Liu*, Che Jiang, Kangbo Lyu, Weikang Wan, Hao Shen, Boqiang Liang, Zhoujie Fu, He Wang, Li Yi. HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction. CVPR 2022. [2] Xueyi Liu, Xiaomeng Xu, Anyi Rao, Chuang Gan, Li Yi. AutoGPart: Intermediate Supervision Search for Generalizable 3D Part Segmentation. CVPR 2022. 报告嘉宾:赵恒爽 (香港大学) 报告时间:2022年04月20日 (星期三)晚上20:30 (北京时间) 报告题目:Scene Understanding in 3D and 2D-3D 报告人简介: Dr. Hengshuang Zhao is an Assistant Professor in the Department of Computer Science at The University of Hong Kong. Before that, he was a postdoctoral researcher at University of Oxford and Massachusetts Institute of Technology. He obtained his Ph.D. degree from The Chinese University of Hong Kong. His general research interests cover the broad area of computer vision, machine learning, and artificial intelligence, with a special emphasis on building intelligent visual systems. He and his team won several championships in competitive international challenges like the ImageNet Scene Parsing Challenge. He received the rising star award at the world artificial intelligence conference and was recognized as one of the most influential scholars in computer vision by AI 2000. His works have been cited about 10,000+ times, with 10,000+ GitHub credits and 100,000+ YouTube views. 个人主页: https://hszhao.github.io 报告摘要: 3D scene understanding has attracted broad interest for various potential applications such as autonomous driving, robot manipulation, augmented reality, etc. First, I will present PointGroup, an end-to-end bottom-up algorithm for point cloud instance segmentation. We design a two-branch network for harvesting semantic information and point offsets. Then point grouping is conducted based on two different coordinate sets. The framework can harvest high-quality 3D instance segmentation results. Second, I will detail Point Transformer, a self-attention-based architecture for general point cloud processing. We design self-attention layers and use these to construct self-attention networks. The architecture shows superior performance on various 3D tasks such as semantic scene segmentation, object part segmentation, and object classification. Lastly, I will demonstrate BPNet, a unified system for cross-dimension scene understanding. The information inside 2D and 3D visual domains is complementary, and we investigate reasoning over 2D-3D scenes simultaneously. A bidirectional projection network is constructed, which advances both 2D and 3D scene understanding. 参考文献: [1] Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia.PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 Oral. [2] Hengshuang Zhao, Li Jiang, Jiaya Jia, Philip Torr, Vladlen Koltun. Point Transformer. ICCV 2021 Oral. [3] Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong. Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 Oral. Panel嘉宾:韩晓光 (香港中文大学 (深圳)) 嘉宾简介: 韩晓光,香港中文大学 (深圳)理工学院与未来智联网络研究院助理教授,校长青年学者。他于2017年获得香港大学计算机科学专业博士学位。研究方向包括计算机视觉和计算机图形学等,在该方向著名国际期刊和会议发表论文近50篇,包括顶级会议和期刊SIGGRAPH (Asia), CVPR, ICCV, ECCV, NeurIPS, ACM TOG, IEEE TPAMI等,他目前担任Frontiers of Virtual Reality 客座编辑。他获得2021年度吴文俊人工智能优秀青年奖,IEEE TVCG 2021年度最佳审稿人荣誉提名,他的工作曾获得CCF图形开源数据集奖 (DeepFashion3D),2019年和2020年连续两年入选计算机视觉顶级会议CVPR最佳论文列表 (入选率分别为0.8%和0.4%),IEEE VR 2021 最佳论文荣誉提名, 计算机图形学顶级会议Siggraph Asia 2013新兴技术最佳演示奖,他的团队曾获得2018年IEEE ICDM 全球气象挑战赛冠军 (1700多参赛队伍)香。 个人主页: https://mypage.cuhk.edu.cn/academics/hanxiaoguang/ Panel嘉宾:史少帅 (德国马克思普朗克研究所) 嘉宾简介: 史少帅,德国马普所博士后研究员。他于2021年在香港中文大学多媒体实验室获得博士学位。他的研究方向为计算机视觉与深度学习,主要从事深度学习在3D场景理解及自动驾驶感知方面的研究,在IEEE TPAMI, CVPR, ICCV, ECCV, ICRA, ICLR等国际期刊和会议上发表多篇论文。他主导开发和开源了OpenPCDet通用3D目标检测框架,为3D目标检测的学术界研究和工业界落地提供了较大便利。曾获香港政府奖学金、谷歌博士生奖学金、世界人工智能大会云帆奖明日之星等荣誉。 个人主页: https://shishaoshuai.com/ Panel嘉宾:王兴刚 (华中科技大学) 嘉宾简介: 王兴刚,华中科技大学,电信学院,副教授,博士生导师。主要研究方向为目标检测与分割,在IEEE TPAMI, IJCV, CVPR, ICML等顶级期刊会议发表学术论文50余篇,谷歌学术引用次数1万余次,在计算机视觉领域首次提出了空间稀疏自注意力机制 (CCNet),该机制在Deepmind AlphaFold应用,对应的论文在ICCV19最具影响力榜单上排名第五,引用超过1000次。担任CVPR 2022领域主席,Pattern Recognition, Image and Vision Computing 期刊编委。入选了国家青年人才计划,中国科协青年人才托举工程,获吴文俊人工智能优秀青年奖,CVMJ 2021最佳论文奖,湖北省自然科学二等奖等。 个人主页: xinggangw.info Panel嘉宾:徐凯 (国防科技大学) 嘉宾简介: 徐凯,国防科技大学教授。普林斯顿大学访问学者,西蒙弗雷泽大学客座教授。研究方向为数据驱动的三维感知与建模、三维视觉及其机器人应用等。发表ACM SIGGRAPH/ Transactions on Graphics论文20余篇。共发表CCF A类论文50余篇。担任图形学顶级期刊ACM Transactions on Graphics,以及重要期刊Computer Graphics Forum, Computers and Graphics和The Visual Computer等的编委。担任CAD/ Graphics 2017等国际会议的论文共同主席,以及SIGGRAPH, SIGGRAPH Asia, Eurographics等会议的程序委员。担任中国图象图形学会三维视觉专委会副主任,中国工业与应用数学学会几何设计与计算专委会秘书长。获湖南省自然科学一等奖、中国计算机学会自然科学一等奖、军队科技进步二等奖等。获国家优秀青年科学基金和湖南省杰出青年科学基金资助。 个人主页: http://kevinkaixu.net 报告主持人:王鹤 (北京大学) 主持人简介: Dr. He Wang is a tenure-track assistant professor in the Center on Frontiers of Computing Studies (CFCS)at Peking University, where he leads Embodied Perception and InteraCtion (EPIC)Lab. His research interests span across 3D vision, robotics, and machine learning, with a special focus on embodied AI. His research objective is to endow robots working in complex real-world scenes with generalizable 3D vision and interaction policies. Prior to joining Peking University, he received his Ph.D. degree from Stanford University in 2021 under the advisory of Prof. Leonidas J. Guibas and his bachelor’s degree in 2014 from Tsinghua University. He has published more than 20 papers on top vision and learning conferences (CVPR/ ICCV/ ECCV/ NeurIPS). His team won the first place in the “no external annotation” track of the generalizable manipulation challenge, ManiSkill 2021 and his works won Eurographics 2019 best paper honorable mention as well as eight times CVPR/ ICCV orals. He serves as an area chair in CVPR 2022 and WACV 2022. 个人主页: https://hughw19.github.io Panel主持人:盛律 (北京航空航天大学) 主持人简介: 盛律,北京航空航天大学“卓越百人”特别副研究员,中国图象图形学会三维视觉专委会委员,VALSE第五届/ 第六届执行委员会委员。2011年获浙江大学学士学位,2017年获香港中文大学博士学位,同年加入香港中文大学多媒体实验室从事博士后课题研究。长期致力于三维视觉,特别是面向三维点云的生成、感知、推理和理解,相关工作在PAMI/ IJCV和CVPR/ ICCV/ ECCV等重要国际期刊和会议发表论文40余篇,担任ACM MM Asia 2021/ MLSP2021领域主席,IJCAI 2021 SPC以及IEEE TPAMI等重要期刊和CVPR等重要会议的审稿人。并先后承担多项国家自然科学基金和科技部重点研发计划项目。 个人主页: https://lucassheng.github.io/ 特别鸣谢本次Webinar主要组织者: 主办AC:王鹤 (北京大学) 协办AC:盛律 (北京航空航天大学) 活动参与方式 1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们! 直播地址: https://live.bilibili.com/22300737; 历史视频观看地址: https://space.bilibili.com/562085182/ 2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ R群,群号:137634472); *注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。 3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。 4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。 弋力 [slide] 赵恒爽 [slide] |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2025-1-15 22:01 , Processed in 0.014173 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.