VALSE Webinar 20240626-17期总第352期计算机视觉在艺术和设计领域的应用 ...

2024-6-21 18:20| 发布者: 程一-计算所| 查看: 3111| 评论: 0

摘要: 报告嘉宾：杨帅 (北京大学王选计算机研究所)报告题目：人像智能艺术设计报告嘉宾：元玉慧 (Microsoft Research Asia)报告题目：Are Diffusion Models Ready for Business Content Generation?Panel议题：1.之前AIGC ...

报告嘉宾：杨帅 (北京大学王选计算机研究所)

报告题目：人像智能艺术设计

报告嘉宾：元玉慧 (Microsoft Research Asia)

报告题目：Are Diffusion Models Ready for Business Content Generation?

Panel议题：

1. 之前AIGC的火热引发了很多画师的反对，但也有画师对此很欢迎。如何看待AI绘画与人类艺术家创作之间的关系？

2. 计算机视觉技术如何改变艺术家的创作过程？有哪些具体应用案例？

3. 艺术和设计领域的问题有哪些特点，在应用计算机视觉技术时有哪些独特的挑战？

4. AI应用能否取代PS等传统专业设计软件？它们之间有什么难以取代之处，值得互相学习？

5. 如何判断计算机设计出的作品是否符合人类美学的要求？是否需要建立一个客观的针对计算机创作的作品的评价体系？可以从哪些维度进行评价？

6. 计算机视觉技术在艺术和设计领域的应用，可能为专业人员和普通大众带来哪些新的体验？

Panel嘉宾：

杨帅 (北京大学王选计算机研究所)、元玉慧 (Microsoft Research Asia)、韩晓光 (香港中文大学深圳分校)、于茜 (北京航空航天大学)

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：杨帅 (北京大学王选计算机研究所)

报告时间：2024年6月26日 (星期三)晚上20:00 (北京时间)

报告题目：人像智能艺术设计

报告人简介：

杨帅，北京大学王选计算机技术研究所助理教授、博士生导师。分别在2015年和2020年获得北京大学的学士学位和博士学位，2020年至2024年在新加坡南洋理工大学先后任博士后和研究助理教授。在此之前， 2018年9月至2019年9月，在美国德州农工大学担任访问学者。2017年3月至2017年8月，在日本国立情报学研究所担任访问学生。主要研究领域为智能媒体计算和计算机视觉，专注图像风格化和图像编辑。获得了IEEE ICME 2020的最佳论文奖和IEEE MMSP 2015的Top10%论文奖。获得了2020年中国图象图形学学会优秀博士学位论文奖和北京大学优秀博士学位论文奖。担任ACM MM和BMVC 的领域主席。

个人主页：

https://williamyang1991.github.io/

报告摘要：

艺术肖像在我们的日常生活以及创意产业中无处不在。人像智能艺术设计旨在根据真实人像自动渲染艺术肖像。本次报告将介绍围绕人像艺术设计提出的五个模型DualStyleGAN, VToonify, StyleGANEX, Rerender-A-Video和FRESCO。首先介绍面向图像的DualStyleGAN，实现了基于样例的高清人像艺术设计。其次，将其扩展到视频领域，提出Vtoonify实现高清人像视频艺术设计。然后，介绍StyleGANEX，将人像风格化扩展到一般的人像视频编辑任务。最后，除了人像主题外，介绍基于扩散模型的最新工作Rerender-A-Video和FRESCO，实现任意主题视频的编辑和艺术设计。

参考文献：

[1] Shuai Yang, Liming Jiang, Ziwei Liu, and Chen Change Loy. "Pastiche Master: Exemplar-Based High-Resolution Portrait Style Transfer", CVPR 2022.

[2] Shuai Yang, Liming Jiang, Ziwei Liu, and Chen Change Loy. "VToonify: Controllable High-Resolution Portrait Video Style Transfer", ACM TOG 2022.

[3] Shuai Yang, Liming Jiang, Ziwei Liu, and Chen Change Loy. "StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned Faces", ICCV 2023.

[4] Shuai Yang, Yifan Zhou, Ziwei Liu, and Chen Change Loy. "Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation", ACM SIGGRAPH Asia 2023.

[5] Shuai Yang, Yifan Zhou, Ziwei Liu, and Chen Change Loy. "FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation", CVPR 2024.

报告嘉宾：元玉慧 (Microsoft Research Asia)

报告时间：2024年6月26日 (星期三)晚上20:30 (北京时间)

报告题目：Are Diffusion Models Ready for Business Content Generation?

报告人简介：

Yuhui Yuan is currently a senior researcher at the Visual Computing Group of Microsoft Research Asia. He completed his Ph.D., M.S., and B.S. degrees from the Institute of Computing Technology, CAS, Peking University, and Nanjing University in 2022, 2017, and 2014, respectively. Currently, he is leading efforts to develop generative AI technologies to help ship multiple products to Microsoft Designer and to develop the next-generation graphic design engine for high-quality business content generation. His recent representative works include LISA for reasoning segmentation, COLE for multi-layered and editable graphic design generation, Glyph-ByT5 for accurate visual text rendering, and SPO for human preference learning of diffusion models.

个人主页：

https://www.microsoft.com/en-us/research/people/yuyua/

报告摘要：

Graphic design is a visual communication technique used to convey targeted messages to specific users with clear objectives by combining text and graphics. It is also crucial for creating business content like slides, charts, diagrams, and infographics. In this talk, we mainly introduce our continuous efforts in building graphic design generation engines that can generate high-quality business content like posters, flyers, infographics, and slides. We not only provide a novel approach (Glyph-ByT5) to support surprisingly accurate visual text rendering but also develop a highly effective post-training scheme (Step-aware Preference Optimization) that can improve visual aesthetics. By combining these techniques, we demonstrate unprecedented graphic design image generation results.

参考文献：

[1] Peidong Jia, Chenxuan Li, Zeyu Liu, Yichao Shen, Xingru Chen, Yuhui Yuan, Yinglin Zheng, Dong Chen, Ji Li, Xiaodong Xie, Shanghang Zhang, Baining Guo, "COLE: A Hierarchical Generation Framework for Graphic Design," in arXiv 2023.

[2] Yukang Yang, Dongnan Gui, Yuhui Yuan, Weicong Liang, Haisong Ding, Han Hu, Kai Chen, " GlyphControl: Glyph Conditional Control for Visual Text Generation," in NeurIPS, 2024.

[3] Zeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan, " Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering," in arXiv 2024.

[4] Yueru Jia, Yuhui Yuan, Aosong Cheng, Chuke Wang, Ji Li, Huizhu Jia, Shanghang Zhang, "DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing", in arXiv 2024.

[5] Zhanhao Liang, Yuhui Yuan, Shuyang Gu, Bohan Chen, Tiankai Hang, Ji Li, Liang Zheng, "Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step", in arXiv 2024.

Panel 嘉宾：韩晓光 (香港中文大学深圳分校)

嘉宾简介：

韩晓光博士，现任香港中文大学 (深圳)理工学院助理教授，校长青年学者。他于2017年获得香港大学计算机科学专业博士学位。其研究方向包括计算机视觉和计算机图形学等，在该方向著名国际期刊和会议已发表论文近100篇，包括顶级会议和期刊SIGGRAPH (Asia), CVPR, ICCV, ECCV, NeurIPS, ACM TOG, IEEE TPAMI等。他曾获得吴文俊人工智能优秀青年奖，广东省杰出青年基金资助，香港中文大学 (深圳)青年科研奖。目前也担任CVPR 2023/2024，NeurIPS 2023以及ECCV 2024领域主席，同时也是IEEE TVCG 以及 Computer&Graphics 的编委。他的工作曾两次获得CCF图形开源数据集奖 (DeepFashion3D和MVImgNet)，曾两次入选CVPR最佳论文列表。

个人主页：

http://mmlab.siat.ac.cn/yuqiao/

主持人：于茜 (北京航空航天大学)

主持人简介：

于茜，北京航空航天大学软件学院副教授，博士生导师，入选第九届中国科协青年人才托举工程。2018年博士毕业于Queen Mary University of London，2018年至2019年在UC Berkeley从事博士后研究。主要研究领域为计算机视觉和深度学习，专注在草图理解与应用。目前发表学术论文30余篇，Google Scholar引用2000 余次。曾荣获2015年英国机器视觉大会 (BMVC)的最佳论文奖，相关成果受到BBC在内的十余家海内外媒体的关注和报道。自2020年入职以来，主持了国自然青年基金项目一项和CCF-百度松果基金项目一项，作为项目骨干参与科技部重大项目两项；担任2024年ACM Multimedia (MM)社交媒体/网络主席，2024年CVPR领域主席。

个人主页：

https://yuqian1023.github.io//

特别鸣谢本次Webinar主要组织者：

主办AC：于茜 (北京航空航天大学)

协办AC：韩晓光 (香港中文大学深圳分校)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ T群，群号：863867505）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。

4、您也可以通过访问VALSE主页：http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新。

收藏邀请

上一篇：VALSE 论文速览第183期：Lifting Any 2D Object Detector to 3D Detection下一篇：VALSE 论文速览第184期：Personalization-based Backdoor

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2026-7-16 08:35 , Processed in 0.015252 second(s), 14 queries .

返回顶部

VALSE Webinar 20240626-17期 总第352期 计算机视觉在艺术和设计领域的应用 ...

相关分类

下级分类

VALSE Webinar 20240626-17期总第352期计算机视觉在艺术和设计领域的应用 ...