报告嘉宾:张辉帅 (北京大学) 报告题目:大模型表征空间的理解与安全可控生成 报告嘉宾:邹荻凡 (香港大学) 报告题目:Transfomer 架构的运行机制研究:模型深度和多头注意力的作用 报告嘉宾:王宇光 (上海交通大学) 报告题目:生成式AI的数学基础和分子设计应用 报告嘉宾:张辉帅 (北京大学) 报告时间:2024年9月25日 (星期三)晚上20:00 (北京时间) 报告题目:大模型表征空间的理解与安全可控生成 报告人简介: 张辉帅,北京大学王选计算机研究所助理教授、博士生导师。曾任微软亚洲研究院首席研究员,于2017年从Syracuse University毕业,获得博士学位。主要从事大模型理解,深度学习理论与算法,隐私保护机器学习等方面的研究。研究成果发表于ICML, NeurIPS, ICLR, JMLR, TIT等会议及期刊四十余篇。 个人主页: https://scholar.google.com/citations?user=w1srHyIAAAAJ&hl=zh-CN&oi=ao
报告摘要: 报告将探讨大模型表征空间的特征,展示大模型表征空间对齐的例子,包括多模态表征的对齐、抽象表征的提取以及表征空间的相似性度量。在此基础上,将展示一个新的表征度量利用大模型表征对齐的性质来分析和理解多模态大模型中幻觉现象的来源,解剖大模型的各个模块的贡献。最后通过展示针对商业多模态模型中版权防御的越狱攻击,探讨通过操控表征空间实现安全可控生成的方法,总结在这一研究方向上的结果并展望未来发展。 报告嘉宾:邹荻凡 (香港大学) 报告时间:2024年9月25日 (星期三)晚上20:40 (北京时间) 报告题目:Transfomer 架构的运行机制研究:模型深度和多头注意力的作用 报告人简介: 邹荻凡博士目前任职于香港大学计算机科学系助理教授、博士生导师,于2022年在加州大学洛杉矶分校获得计算机科学博士学位,主要研究方向为机器学习/深度学习理论和算法。邹博士发表了五十余篇高水平学术论文,包括国际机器学习顶级会议和期刊(例如ICML,NeurIPS,ICLR,COLT,JMLR等),以及无线信号处理顶级期刊(例如IEEE T-COM,T-WC,T-GCN等),其中第一/共一/通讯作者论文三十余篇。其中申请人在信号处理和建模方向的工作获得GlobeCom 2017和ICCS 2017最佳论文奖;申请人在机器学习方向的工作也曾多次在机器学习顶级会议上荣获口头报告(oral)以及亮点报告(spotlight),并支撑申请人获得2020-2022年Bloomberg数据科学博士奖学金(每年约5位获奖者)。同时,申请人多次在NeurIPS,AAAI,AIJ等顶级会议和期刊担任领域主席和编辑,负责机器学习和优化算法方向的管理和编辑工作。
个人主页: https://scholar.google.com/citations?user=Cp4fcTQAAAAJ&hl=zh-CN&oi=ao
报告摘要: 本报告深入探讨了 Transformer 架构的运行机制,重点关注了其深度和多头注意力在不 同任务中的学习能力和局限性。在报告的第一部分,我们设计了一系列实践序列学习任务,系 统地评估了不同深度的 Transformer 在记忆、推理、泛化和上下文泛化方面的性能及局限性。我们的研究结果显示,单层注意力的 Transformer 在记忆任务中表现卓越,但在处理更复杂任 务时表现不佳。此外,我们发现至少需要两层的 Transformer 才能有效地实现推理和泛化能力, 而上下文泛化能力则可能需要三层的 Transformer 来实现。在报告的第二部分,我们以稀疏线 性回归问题为例,详细探讨了训练后的 Transformer 中多头注意力的作用,并揭示了多头注意 力在不同 Transformer 层级的运行机制。我们的实验结果表明,在 Transformer 的第一层,每 个注意力头都对最终性能至关重要,然而在后续层级,通常只有一个注意力头起主导作用。我们进一步提出了“预处理-然后-优化”的运行机制,并从理论上证明了多层 Transformer(第 一层多个头,后续层只有一个头)能有效实现此机制。此外,我们还证实了在稀疏线性回归问 题中,这一机制相较于朴素梯度下降和岭回归算法具有优越性,这一发现与我们的实验结果相 符。这些研究结果有助于我们深入理解多头注意力的优势和模型深度的作用,为我们揭示 Transformer 内部更复杂的机制提供了新的视角。 报告嘉宾:王宇光 (上海交通大学) 报告时间:2024年9月25日 (星期三)晚上21:20 (北京时间) 报告题目:生成式AI的数学基础和分子设计应用 报告人简介: 王宇光博士现为上海交通大学自然科学研究院和数学科学学院副教授。上海应用数学中心、上海人工智能实验室和新南威尔士大学担任兼职副教授,前马克斯·普朗克研究所的研究科学家。在新南威尔士大学取得数学博士。在图神经网络和大型模型等领域已发表70多篇顶刊顶会,包括Appl Comput Harmon Anal、SINUM、FoCM、JMLR、Cell Reports Medicine,以及ICML、NeurIPS、ICLR,其中三篇论文被选为AI顶会亮点文章。2024年,其团队发布了中国首个TourSynbio蛋白大模型。
个人主页: https://scholar.google.com/citations?user=cMSEByAAAAAJ&hl=zh-CN&oi=ao
报告摘要: 生成式AI在分子设计中发挥着至关重要的作用,可用于蛋白质设计和药物设计。我们开发了基于500亿高质量蛋白数据的蛋白质大模型并通过智能体连接下游20多个合成生物设计模块,实现了“Protein Design All in One”,从而设计出功能更为优越的新分子和蛋白质。我们的模型采用基于几何深度学习的扩散模型和基于序列的对话型大模型(GPT)两种生成模型。模型的基本模块,如Transformer和深度等变图神经网络,结合了贝叶斯统计、粒子方程、调和分析、学习理论,具有高度可解释性,并表现出更强的泛化能力和表示能力。 主持人:刘勇 (中国人民大学) 主持人简介: 刘勇,中国人民大学,副教授,博士生导师,国家级高层次青年人才。长期从事机器学习基础理论研究,共发表论文100余篇,其中以第一作者/通讯作者发表顶级期刊和会议论文近50篇,涵盖机器学习领域顶级期刊JMLR、IEEE TPAMI、Artificial Intelligence和顶级会议ICML、NeurIPS等。获中国人民大学“杰出学者”、中国科学院“青年创新促进会”成员、中国科学院信息工程研究所“引进优青”等称号。主持国家自然科学面上/基金青年、北京市面上项目、中科院基础前沿科学研究计划、腾讯犀牛鸟基金、CCF-华为胡杨林基金等项目。
个人主页: https://scholar.google.com/citations?user=vVhmzbAAAAAJ&hl=zh-CN 特别鸣谢本次Webinar主要组织者: 主办AC:刘勇 (中国人民大学) 活动参与方式 1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们! 直播地址: https://live.bilibili.com/22300737; 历史视频观看地址: https://space.bilibili.com/562085182/ 2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ T群,群号:863867505); *注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。 3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。 4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。 |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2025-2-2 12:02 , Processed in 0.013940 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.