VALSE Webinar 20230531-11期总第311期大模型时代下的三维视觉：路在何方？ ...

2023-5-26 17:05| 发布者: 程一-计算所| 查看: 3231| 评论: 0

摘要: 报告时间2023年05月31日 (星期三)晚上20:00 (北京时间)主题大模型时代下的三维视觉：路在何方？The Future of 3D Vision in the Era of LLMs: Challenges and Opportunities主持人胡庆拥 (University of Oxford)韩 ...

报告时间	2023年05月31日 (星期三) 晚上20:00 (北京时间)
主题	大模型时代下的三维视觉：路在何方？ The Future of 3D Vision in the Era of LLMs: Challenges and Opportunities
主持人	胡庆拥 (University of Oxford) 韩晓光 (香港中文大学 (深圳))
直播地址	https://live.bilibili.com/22300737

报告嘉宾：杨波 (The Hong Kong Polytechnic University)

报告题目：3D Semantic and Instance Segmentation without 3D Supervision

报告嘉宾：刘子纬 (Nanyang Technological University)

报告题目：大模型时代下的3D AIGC

报告嘉宾：阳行意 (National University of Singapore)

报告题目：Anything-3D-基于模型重用的任意物体的3D重建

Panel嘉宾：

刘洋 (微软亚洲研究院)、齐晓娟 (The University of Hong Kong)、刘子纬 (Nanyang Technological University)、王鑫超 (National University of Singapore)、阳行意 (National University of Singapore)

Panel议题：

1. 生成式大模型的快速兴起将会给三维视觉带来哪些新的机遇和挑战？在未来一段时间哪些任务有望实现大的突破？

2. 对于三维视觉相关任务，基础模型是什么？

3. SAM等分割一切模型下，三维理解应该如何继续做？

4. 3D数据相比于2D获取成本更高，可用的数据也相对更少，如何突破数据上的瓶颈？

5. 畅想LLM与3D视觉的结合，会诞生哪些有意思的应用？

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：杨波 (The Hong Kong Polytechnic University)

报告时间：2023年05月31日 (星期三)晚上20:00 (北京时间)

报告题目：3D Semantic and Instance Segmentation without 3D Supervision

报告人简介：

杨波，现为香港理工大学计算机系助理教授，vLAR研究组负责人。2020年9月获牛津大学计算机博士学位。主要研究方向包括：三维视觉、机器学习、机器人等，专注于让智能机器真正理解和重建复杂三维场景，从而最终实现机器智能决策并与环境自主交互。其诸多研究成果发表于TPAMI/ IJCV/ NeurIPS/ ICLR/ CVPR/ ICCV/ ECCV/ ICRA/ IROS等国际期刊和会议。多个研究工作被国内外知名行业媒体报道，在学术界和工业界有广泛影响。

个人主页：

https://yang7879.github.io/

报告摘要：

近年来，随着深度学习理论的成熟以及大量人工标注数据集的出现，视觉领域获得前所未有的发展，包括3D语义和实例分割等核心任务。然而，目前大多数算法依赖海量人工标注数据训练神经网络，成本极高且模型难以泛化和部署到全新场景。探索无监督学习的新范式成为学界热点及难点。

本报告将介绍香港理工vLAR研究组在3D点云及3D隐式场上的语义和实例分割最新进展。首先介绍三维点云首个无监督语义分割算法GrowSP[1]，其次介绍三维点云首个无监督物体实例分割算法OGC[2]，最后介绍仅需2D图片监督的3D隐式场 (NeRF)物体实例分割算法DM-NeRF[3]。

参考文献：

[1] Zihui Zhang, Bo Yang*, Bing Wang, Bo Li. GrowSP: Unsupervised Semantic Segmentation of 3D Point Clouds, CVPR 2023.

[2] Ziyang Song, Bo Yang*. OGC: Unsupervised 3D Object Segmentation from Rigid Dynamics of Point Clouds, NeurIPS 2022.

[3] Bing Wang, Lu Chen, Bo Yang*. DM-NeRF: 3D Scene Geometry Decomposition and Manipulation from 2D Images, ICLR 2023.

报告嘉宾：刘子纬 (Nanyang Technological University)

报告时间：2023年05月31日 (星期三)晚上20:30 (北京时间)

报告题目：大模型时代下的3D AIGC

报告人简介：

刘子纬，新加坡南洋理工大学助理教授，并获得南洋学者称号 (Nanyang Assistant Professor)。他的研究兴趣包括计算机视觉、机器学习与计算机图形学。他在国际顶级会议及期刊 (CVPR/ ICCV/ ECCV/ NeurIPS/ ICLR/ TPAMI/ TOG/ Nature - Machine Intelligence)上发表文章100余篇，总引用量2万余次，获得专利50余项。他领导搭建了数个国际知名的基准数据库，例如CelebA和DeepFashion等。同时他也领导数个广泛使用的开源软件建设，例如MMFashion和MMHuman3D等。他获得过多个领域内奖项，包括微软小学者奖、香港政府博士奖、ICCV青年学者奖、HKSTP最佳论文奖和WAIC云帆奖等。他是国际顶级会议CVPR/ ICCV/ NeurIPS和ICLR的领域主席 (Area Chair)以及国际顶级期刊IJCV的编委 (Associate Editor)。

个人主页：

https://liuziwei7.github.io

报告摘要：

当前，数字内容产业处于高速发展期，技术体系逐渐成熟，应用场景愈发丰富。其中，3D AIGC是数字内容生成的基石，它实现了每一位参与者都能无需专家知识来创建属于自己的虚拟现实。而最近多模态大模型的涌现也为3D AIGC带来了巨大的助益与机会。本次讲座将从“人-物-景”三维体系角度来介绍MMLab@NTU在3D AIGC方面的探索与进展。

参考文献：

[1] Fangzhou Hong, Mingyuan Zhang, Liang Pan, Zhongang Cai, Lei Yang, Ziwei Liu. “AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars”. ACM Transactions on Graphics (TOG), 2022.

[2] Fangzhou Hong, Zhaoxi Chen, Yushi Lan, Liang Pan, Ziwei Liu. “EVA3D: Compositional 3D Human Generation from 2D Image Collections”. International Conference on Learning Representations (ICLR), 2023.

[3] Tong Wu, Jiarui Zhang, Xiao Fu, Yuxin Wang, Jiawei Ren, Liang Pan, Wayne Wu, Lei Yang, Jiaqi Wang, Chen Qian, Dahua Lin, Ziwei Liu. “OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation”. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023.

报告嘉宾：阳行意 (National University of Singapore)

报告时间：2023年05月31日 (星期三)晚上20:50 (北京时间)

报告题目：Anything-3D-基于模型重用的任意物体的3D重建

报告人简介：

阳行意，就读于新加坡国立大学的电气与计算机工程学院LV-Lab，攻读博士学位。他的研究方向主要集中在机器学习和计算机视觉领域，特别侧重于对已训练的神经网络模型进行组合和重用，以解决一系列生成和判别视觉任务。他在知名的学术会议CVPR/ NeurIPS/ ECCV和ACL上发表了十余篇文章，其成果在NeurIPS 2022中被评为best paper award nomination，谷歌学术引用1300余次，展示了他在该领域的研究成果。其导师为Xinchao Wang教授。

个人主页：

https://adamdad.github.io

报告摘要：

在无约束真实场景中，从单个RGB图像进行三维重建面临着许多挑战，这是由于物体和环境的固有多样性和复杂性所导致的。在本文中，我们介绍了Anything-3D，这是一个系统性框架，巧妙地将一系列视觉语言模型和Segment-Anything物体分割模型相结合，将物体提升到三维空间，从而实现了针对单视角条件下的三维重建任务的可靠且多功能的系统。我们的方法采用BLIP模型生成纹理描述，利用Segment-Anything模型有效提取感兴趣的对象，并利用文本到图像扩散模型将对象提升到神经辐射场。通过展示其在各种对象上产生准确而详细的三维重建能力，Anything-3D显示了解决现有方法的局限性的潜力。通过对各种数据集进行的实验和评估，我们展示了我们方法的优点，并强调它对三维重建领域的有意义的贡献潜力。

参考文献：

[1] Shen, Qiuhong, Xingyi Yang, and Xinchao Wang. "Anything-3d: Towards single-view anything reconstruction in the wild." arXiv preprint arXiv:2304.10261 (2023).

Panel嘉宾：刘洋 (微软亚洲研究院)

嘉宾简介：

Dr. Yang Liu is a principal researcher in the Internet Graphics Group at Microsoft Research Asia. He has a Ph.D. in computer science from The University of Hong Kong, and a Master's and a Bachelor's in computational mathematics from University of Science and Technology of China. His research focuses on geometric modeling and processing, and learning-based 3D understanding and content generation. He has served as the program co-chair of the international conference on Geometric Modeling and Processing (2019)and Shape Modeling International (2021), and the conference co-chair of Shape Modeling International (2022). He is an associated editor of IEEE Transactions on Visualization and Computer graphics (TVCG)and ACM Transactions on Graphics (TOG).

个人主页：

https://xueyuhanlang.github.io/

Panel嘉宾：齐晓娟 (The University of Hong Kong)

嘉宾简介：

齐晓娟助理教授 (https://xjqi.github.io)是香港大学电气与电子工程系的助理教授，博士毕业于香港中文大学，曾在多伦多大学，牛津大学及英特尔视觉计算组工作交流。她致力于赋予机器对开放世界感知、理解和重建视觉世界的能力，研究方向主要包括：从数据生成、自动数据标注、半监督学习等方面解决深度学习对大量标注数据的需求问题；三维感知；以及探索深度神经网络在 out-of-the-distribution 的数据上的表现。齐教授在CVPR/ ICCV/ NeurIPS等计算机视觉及机器学习顶会上发表论文 60 余篇，其中多篇被邀请进行口头报告，并担任ICCV 2021/ CVPR 2021/ AAAI 2021/ AAAI 2022/ WACV 2023/ CVPR 2023顶会的领域主席。

个人主页：

https://xjqi.github.io/

Panel嘉宾：王鑫超 (National University of Singapore)

嘉宾简介：

Xinchao Wang is currently a tenure-track assistant professor in the Department of ECE, National University of Singapore (NUS). Before joining NUS, he was an assistant professor in the Department of CS, Stevens Institute of Technology. Before joining Stevens, he was a Postdoc at Prof. Thomas Huang's Image Formation and Professing (IFP) group at Beckman Institute, University of Illinois Urbana-Champaign (UIUC). He received his Ph.D. from the Computer Vision Lab, École polytechnique fédérale de Lausanne (EPFL), advised by Prof. Pascal Fua, and the first-class honorable B.Sc. in Dept. of Computing, the Hong Kong Polytechnic University (HKPU) in 2010.

个人主页：

https://sites.google.com/site/sitexinchaowang/

主持人：胡庆拥 (University of Oxford)

主持人简介：

Qingyong Hu is currently a DPhil candidate in the Department of Computer Science at the University of Oxford. His research interests lie in 3D computer vision, particularly in the semantic understanding of large-scale 3D point clouds, instance segmentation, and registration. He has published several papers in major journals and conferences including IEEE TPAMI/ IJCV/ CVPR/ NeurIPS. His papers have been cited by 3000+ times (Google Scholar), and the RandLA-Net paper has also been listed as the most influential paper in CVPR 2020 (PaperDigest). Additionally, he also chaired 2 International Workshops (Urban3D)at ICCV’21 and ECCV’22. He was awarded the Huawei UK AI Fellowship during 2021-2023, and received the World Artificial Intelligence Conference Youth Outstanding Paper Award, and the outstanding student reviewer of ICCV 2021 (top 5%).

个人主页：

https://qingyonghu.github.io/

Panel主持人：韩晓光 (香港中文大学深圳)

主持人简介：

韩晓光博士，现任香港中文大学 (深圳)理工学院与未来智联网络研究院助理教授，校长青年学者，获广东省杰出青年资助。他于2017年获得香港大学计算机科学专业博士学位。其研究方向包括计算机视觉和计算机图形学等，在该方向著名国际期刊和会议发表论文60余篇，包括顶级会议和期刊SIGGRAPH (Asia), CVPR/ ICCV/ ECCV/ NeurIPS/ ACM TOG/ IEEE TPAMI等。他目前担任IEEE Transactions on Mobile Computing以及 Computer&Graphics编委，CVPR 2023 以及 NeurIPS 2023的领域主席。他曾获得吴文俊人工智能优秀青年奖，他的工作还曾获得CCF图形开源数据集奖 (DeepFashion3D)，计算机图形学顶级会议Siggraph Asia 2013新兴技术最佳演示奖，2019年和2020年连续两年入选计算机视觉顶级会议CVPR最佳论文列表 (入选率分别为0.8%和0.4%)，IEEE VR 2021 最佳论文荣誉提名。

更多细节详见: https://gaplab.cuhk.edu.cn。

个人主页：

https://gaplab.cuhk.edu.cn/pages/people

特别鸣谢本次Webinar主要组织者：

主办AC：胡庆拥 (University of Oxford)

协办AC：韩晓光 (香港中文大学 (深圳))

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ S群，群号：317920537）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。

4、您也可以通过访问VALSE主页：http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新。

收藏邀请

上一篇：VALSE Webinar 20230524-10期总第310期大模型背景下的多媒体智能检索 ...下一篇：VALSE Webinar 20230607-12期总第312期开放世界的感知：探索可迁移与可持续学习之路 ...

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2026-7-12 15:02 , Processed in 0.018628 second(s), 14 queries .

返回顶部

VALSE Webinar 20230531-11期 总第311期 大模型时代下的三维视觉：路在何方？ ...

相关分类

下级分类

VALSE Webinar 20230531-11期总第311期大模型时代下的三维视觉：路在何方？ ...