VALSE › 首页 ›活动通知 › 查看内容

VALSE Webinar 25-05期总第376期可视媒体生成前沿进展：三维生成与视频生成 ...

2025-3-6 19:49| 发布者: 程一-计算所| 查看: 750| 评论: 0

摘要: 报告嘉宾：杨蛟龙 (微软亚洲研究院)报告题目：基于结构化潜变量的大规模多功能3D资产生成报告嘉宾：叶伟才 (快手)报告题目：多模态视频生成基础模型报告嘉宾：杨蛟龙 (微软亚洲研究院)报告时间：2025年3月12日 (星期 ...

报告嘉宾：杨蛟龙 (微软亚洲研究院)

报告题目：基于结构化潜变量的大规模多功能3D资产生成

报告嘉宾：叶伟才 (快手)

报告题目：多模态视频生成基础模型

报告嘉宾：杨蛟龙 (微软亚洲研究院)

报告时间：2025年3月12日 (星期三)晚上20:00 (北京时间)

报告题目：基于结构化潜变量的大规模多功能3D资产生成

报告人简介：

杨蛟龙，微软亚洲研究院首席研究员、研究经理，研究方向为三维计算机视觉、AI内容生成。2016于澳大利亚国立大学与北京理工大学获得双授博士学位后加入微软亚洲研究院，以第一作者或所指导学生为第一作者在CVPR/ICCV/ECCV/SIGGRAPH/NeurIPS/TPAMI等顶级计算机视觉与图形学会议和期刊发表论文40余篇，Google Scholar引用7000余次，多次担任CVPR/ICCV/ECCV等会议领域主席，现任顶级期刊IJCV编委。数项技术成功转化到微软产品中供广泛用户使用。获IEEE VR/TVCG 2022最佳论文奖，2017年中国图象图形学学会优秀博士论文奖 (全国4篇)。

个人主页：

https://jlyang.org/

报告摘要：

我们提出一种用于多功能和高质量3D资产创建的新型3D生成方法。其核心是一个统一的结构化潜变量 (Structured Latents, SLAT)表示，允许解码到不同的输出格式，如辐射场 (Radiance Fields)、3D高斯 (Gaussians)和网格 (meshes)。SLAT结合稀疏的3D体素与从强大的视觉基础模型中提取的密集多视图视觉特征，全面捕捉结构 (几何)和纹理 (外观)信息，同时在解码过程中保持灵活性。我们采用了与SLAT适配的校正流变换器 (Rectified Flow Transformers)作为3D生成模型，并在包含50万个多样化物体的大规模3D资产数据集上训练了多达20亿参数的模型。我们的模型在文本或图像条件下生成的高质量3D资产显著超越了过去以及近期同等规模的方法。同时，我们的方法具备以前的方法所不具备的灵活输出格式选择和局部3D编辑能力。

参考文献：

[1] Xiang, J., Lv, Z., Xu, S., Deng, Y., Wang, R., Zhang, B., Chen, D., Tong, X., & Yang, J. (2024). Structured 3D Latents for Scalable and Versatile 3D Generation. ArXiv, abs/2412.01506.

报告嘉宾：叶伟才 (快手)

报告时间：2025年3月12日 (星期三)晚上20:30 (北京时间)

报告题目：多模态视频生成基础模型

报告人简介：

叶伟才目前是快手kling团队的高级研究员，负责多模态生成式基础模型研发。他曾在ETH Zurich访问，导师是Marc Pollefeys教授。他于2024年获得浙大博士学位，导师是鲍虎军教授和章国锋教授。他的研究兴趣是多模态视频生成，世界模型，3D视觉基础模型和具身智能。

个人主页：

https://ywcmaike.github.io/

报告摘要：

近年来，随着深度学习与多模态技术的快速发展，视频生成技术逐步从单一模态驱动向多模态协同控制的方向演进。本报告围绕多模态可控视频生成核心挑战与技术突破展开讨论，重点分析其在生成质量、跨模态对齐与用户意图理解等方面的研究进展，并探讨未来发展趋势。

主持人：高林 (中国科学院计算技术研究所)

主持人简介：

高林，中国科学院计算技术研究所泛在计算系统研究中心研究员、博士生导师、中国科学院大学岗位教授。在清华大学获得工学博士学位 (导师：胡事民院士)。研究方向为计算机图形学、三维计算机视觉。在SIGGRAPH、TPAMI、TVCG等期刊会议发表论文100余篇，研发的人脸AIGC的APP被全球180余个国家或者地区的用户所使用。现任或者曾任GDC 大会联合程序主席，SGP 大会联合主席，China 3DV 程序委员会联合主席，SIGGRAPH 技术论文程序委员会委员，CVPR、NeurIPS 领域主席，IEEE TVCG编委，亚洲图形学学会秘书长，CSIG智能图形专委秘书长，入选国家自然科学基金委青年基金B类 (原国家基金委优青)，北京市杰青，英国皇家学会牛顿高级学者，曾获得亚洲图形学会青年学者奖，吴文俊人工智能优秀青年奖，CCF技术发明一等奖，CCF CAD&CG开源软件奖等奖励

实验室主页：

http://www.geometrylearning.com/

特别鸣谢本次Webinar主要组织者：

主办AC：高林 (中国科学院计算技术研究所)

收藏邀请

上一篇：VALSE 2025 优秀学生论坛嘉宾征集下一篇：VALSE Webinar 25-06期总第377期大模型智能体设计与应用

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2026-7-19 13:46 , Processed in 0.021123 second(s), 14 queries .

返回顶部

VALSE Webinar 25-05期 总第376期 可视媒体生成前沿进展：三维生成与视频生成 ...

相关分类

下级分类

VALSE Webinar 25-05期总第376期可视媒体生成前沿进展：三维生成与视频生成 ...