VALSE

VALSE 首页 活动通知 查看内容

VALSE Webinar 24-35期 总第370期 多模态大模型的高效细颗粒内容生成与隐私安全 ...

2024-12-12 19:00| 发布者: 程一-计算所| 查看: 30| 评论: 0

摘要: 报告嘉宾:王亚星 (南开大学)报告题目:文生图模型中文本和图像表征的思考报告嘉宾:武宇 (武汉大学)报告题目:细粒度AIGC可控生成报告嘉宾:王亚星 (南开大学)报告时间:2024年12月18日 (星期三)晚上20:00 (北京时 ...

报告嘉宾:王亚星 (南开大学)

报告题目:文生图模型中文本和图像表征的思考


报告嘉宾:武宇 (武汉大学)

报告题目:细粒度AIGC可控生成


报告嘉宾:王亚星 (南开大学)

报告时间:2024年12月18日 (星期三)晚上20:00 (北京时间)

报告题目:文生图模型中文本和图像表征的思考


报告人简介:

南开大学计算机学院副教授,博士生导师,入选海外高层次项目,南开“百名青年学科带头人培养计划”。西班牙巴塞罗那自治大学博士,曾在西班牙巴塞罗那自治大学从事博士后研究。研究方向为扩散模型、生成对抗网络、图像到图像翻译、迁移学习。在IJCV,CVPR,NeurIPS等期刊会议发表论文30余篇,谷歌学术引用2000余次。现担任Computers, Materials & Continua期刊编委,ECCV Workshop 组织者,在国际顶级期刊和会议TPAMI、NeurIPS、CVPR、ICCV等多次担任期刊和会议审稿人。多模态语言翻译国际竞赛 (WMT16 Multimodal Machine Translation challenge) 中 荣获第一名、2022年粤港澳大湾区(黄埔)国际算法算例大赛(遥感目标检测赛道)亚军(2/116队伍)。主持国家自然科学基金青年项目。


个人主页:

https://yaxingwang.netlify.app/author/yaxing-wang/

 

报告摘要:

SD模型是一种依赖文本提示来生成图像的扩散模型,其核心优势在于能够精准描述目标图像的内容。不过,该模型在生成与文本语义高度一致的图像时存在一定的困难,并且推理过程相对缓慢。为应对这些挑战,我们探讨了优化文本嵌入的方法,通过移除不相关的信息来澄清复杂文本提示中主要对象之间的关系。此外,为了改善推理速度,我们引入了特征共享机制,以减少处理时间并提高效率。


参考文献:

[1] Hu, Taihang, Linxuan Li, Joost van de Weijer, Hongcheng Gao, Fahad Shahbaz Khan, Jian Yang, Ming-Ming Cheng, Kai Wang, and Yaxing Wang. "Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis." NeurIPS2024.

[2] Li, Senmao, Joost van de Weijer, Fahad Khan, Tao Liu, Linxuan Li, Shiqi Yang, Yaxing Wang, and Ming-Ming Cheng. "Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference."  NeurIPS2024..

[3] Li, Senmao, Joost van de Weijer, Taihang Hu, Fahad Shahbaz Khan, Qibin Hou, Yaxing Wang, and Jian Yang. "Get What You Want, Not What You Don't: Image Content Suppression for Text-to-Image Diffusion Models."ICLR2024.


报告嘉宾:武宇 (武汉大学)

报告时间:2024年12月18日 (星期三)晚上20:30 (北京时间)

报告题目:细粒度AIGC可控生成


报告人简介:

武宇,教授,博士生导师,国家海外优青获得者。2015年在上海交通大学获得学士学位,2021年在悉尼科技大学获得博士学位,2021-2022年在普林斯顿大学从事博士后研究。主持科技部2030重大项目课题,国自然面上等项目。主要从事跨模态机器学习相关的研究。近5年,在TPAMI、CVPR、NeurIPS等CCF A类期刊会议上发表论文50余篇。曾获2020年谷歌博士奖研金(Google PhD Fellowship)、2024年AAAI学术新星奖(New Faculty Award)。长期担任CVPR、NeurIPS、ICCV等人工智能顶会的领域主席,并受邀担任CVPR 2023大会的主要组织者、大会Workshop主席。

 

个人主页:

http://yu-wu.net

 

报告摘要:

多模态生成式大模型已经成为当前研究热点,各种生成基座模型层出不穷。本次报告重点关注如何通过轨迹控制实现在多模态基座模型上的无需训练的、可控、可定制生成方案,进一步提升生成模板的颗粒度,丰富多模态生成模型的下游应用。此外,针对多模态生成模型的滥用问题,本报告也将讨论如何进一步保障生成大模型的隐私与安全,加入生成水印,避免数据泄露与信息安全隐患。

 

参考文献:

[1] Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation,ICLR 2024

[2] ROBIN: Robust and Invisible Watermarks for Diffusion Models with Adversarial Optimization, NeurIPS 2024

[3] Boundary guided learning-free semantic control with diffusion models, NeurIPS 2023


主持人:郭春乐 (南开大学)


主持人简介:

郭春乐,南开大学,副教授,博导。入选“南开大学百名青年学科带头人”计划,主持包括国家自然科学基金、华为、三星等资助的多项科研项目,相关多项专利技术完成成果转化。他的主要研究内容包括计算成像、图像增强与复原、图像生成与编辑,交互式分割等。作为第一作者(通讯作者/共同一作)在TPAMI、TIP、CVPR等国际学术期刊及会议上发表论文30余篇,其中3篇论文入选ESI高被引论文、2篇论文入选ESI热点论文,谷歌学术引用7500余次,其中一作论文单篇最高引用1600余次,多篇会议论文入选Oral/Highlight/Spotlight。曾任BMVC2022领域主席。现担任SCI二区期刊IEEE Journal of Oceanic Engineering编委。


个人主页:

https://mmcheng.net/clguo/



特别鸣谢本次Webinar主要组织者:

主办AC:郭春乐 (南开大学)


活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们!

直播地址:

https://live.bilibili.com/22300737;

历史视频观看地址:

https://space.bilibili.com/562085182/ 


2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ T群,群号:863867505);


*注:申请加入VALSE QQ群时需验证姓名、单位和身份缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。


3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。


4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。


小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-1-31 12:06 , Processed in 0.013053 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部