报告嘉宾:张海峰 (中国科学院自动化研究所) 报告题目:大模型驱动的多智能体决策 报告嘉宾:温睦宁 (上海交通大学) 报告题目:大模型时代的多智能体强化学习 报告嘉宾:张海峰 (中国科学院自动化研究所) 报告时间:2024年10月30日 (星期三)晚上20:00 (北京时间) 报告题目:大模型驱动的多智能体决策 报告人简介: 张海峰,中国科学院自动化研究所副研究员,群体决策智能团队负责人,于北京大学计算机系获得本科和博士学位,曾在英国伦敦大学学院(UCL)从事博士后研究工作。致力于多智能体决策领域的学术研究和平台研发工作,相关论文发表在NeurIPS、ICML、AAAI、IJCAI、AAMAS等国内外知名学术会议、期刊,主持研发中科院自动化所“及第”智能体博弈平台(www.jidiai.cn),承担科技部“新一代人工智能”重大项目、中科院先导项目、国家自然科学基金等项目和课题,所做研究应用于博弈智能体、油气产业链调度、铁路运行图调整等多个领域。目前担任中国计算机学会计算经济学专业组常务委员、中国指挥与控制学会大模型与决策智能专委会常务委员。 个人主页: https://pkuzhf.github.io/
报告摘要: 大语言模型(LLMs)作为新一代人工智能的核心驱动力,其决策能力的优化与应用日益受到关注。本报告从模型优化到实际应用,系统探讨LLMs在多智能体决策中的发展脉络。在基础层面,我们提出Token-level Direct Preference Optimization (TDPO)方法,通过精细的token级别优化和前向KL散度约束,显著提升了模型的决策质量和多样性。基于这种优化范式,我们将目光投向更具挑战性的多智能体场景。在StarCraft II这样的复杂即时战略环境中,我们开发的Chain of Summarization (CoS)方法让LLMs能够进行快速而有效的战术决策,展现出接近普通人类玩家的水平。更进一步,在需要战略性沟通的狼人杀游戏中,我们设计了基于强化学习的语言智能体框架,使LLMs不仅能做出决策,还能通过策略性交流来影响其他参与者的信念与行为。这一系列研究揭示了LLMs在从简单到复杂、从个体到群体决策场景中的巨大潜力,为构建更智能的多智能体系统开辟了新方向。
参考文献: [1] Yongcheng Zeng, Guoqing Liu, Weiyu Ma, NingYang, Haifeng Zhang, Jun Wang. “Token-level Direct Preference Optimization.”[ICML 2024] [2] Weiyu Ma, Qirui Mi, Yongcheng Zeng, Xue Yan, Yuqiao Wu, Runji Lin, Haifeng Zhang, Jun Wang. “Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach.” [NeurIPS 2024] [3] Xuanfa Jin, Ziyan Wang, Yali Du, Meng Fang, Haifeng Zhang, Jun Wang. "Learning to Discuss Strategically: A Case Study on One Night Ultimate Werewolf." [NeurIPS 2024] 报告嘉宾:温睦宁 (上海交通大学) 报告时间:2024年10月30日 (星期三)晚上20:30 (北京时间) 报告题目:大模型时代的多智能体强化学习 报告人简介: 温睦宁目前是上海交通大学的博士三年级研究生,由张伟楠教授指导。他拥有丰富的多智能体及大模型智能体相关的理论和实践经验,其研究兴趣主要集中在强化学习(RL)、多智能体强化学习(MARL)以及针对大语言模型(LLMs)的强化学习优化等方面。在最近的学术研究过程中,温睦宁致力于开发先进的RL/MARL算法,以提升语言智能体在动态环境中的序列决策能力。此外,他还深入参与了这些算法在编程、数学以及具身智能领域的应用研究。温睦宁已在NeurIPS、ICML、ICLR等顶级学术会议上发表多篇论文,并自2023年起参与这些会议的审稿工作。
个人主页: https://scholar.google.com/citations?user=Zt1WFtQAAAAJ
报告摘要: 本次报告的主题围绕“大模型时代的多智能体强化学习”展开。报告人将介绍多智能体强化学习中的多智能体优势值分解定理(multi-agentadvantage decomposition)及其在多智能体序列建模中的应用。基于该定理的Multi-Agent Transformer(MAT)架构,将多智能体决策问题转化为序列建模问题,并与序列模型Transformer结合优化。除此之外,报告人还将介绍其最新提出的语言智能体强化学习框架——基于动作分解的贝尔曼更新及策略优化(BAD与POAD),旨在消除强化学习与语言模型优化上的部分理论隔阂。该方法通过对动作内token的分解,为语言智能体的token生成过程提供更细粒度的信用分配,有效提升了语言智能体在序列决策任务中的学习效率和泛化能力。最后,报告人将探讨多智能体序列建模方式与当前语言智能体的生成式范式之间的契合点,进而讨论将语言智能体集群的优化与多智能体强化学习算法相结合的可能性与挑战。
参考文献: [1] Kuba, Jakub Grudzien*,Muning Wen*, Linghui Meng, Haifeng Zhang, David Mguni, Jun Wang, and YaodongYang. "Settling the variance of multi-agent policy gradients." Advancesin Neural Information Processing Systems 34 (2021): 13458-13470. [2] Kuba, Jakub Grudzien, Ruiqing Chen, Muning Wen, Ying Wen, Fanglei Sun, Jun Wang, and Yaodong Yang. "Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning." In International Conference on Learning Representations (2022). [3] Wen, Muning, Jakub Kuba,Runji Lin, Weinan Zhang, Ying Wen, Jun Wang, and Yaodong Yang."Multi-agent reinforcement learning is a sequence modelingproblem." Advances in Neural Information Processing Systems 35(2022): 16509-16521. [4] Wen, Muning, Ziyu Wan,Weinan Zhang, Jun Wang, and Ying Wen. "Reinforcing Language Agents viaPolicy Optimization with Action Decomposition." Advances in NeuralInformation Processing Systems 37 (2024). 主持人:白磊 (上海人工智能实验室) 主持人简介: 白磊,上海人工智能实验室青年科学家。博士毕业于新南威尔士大学(QS Rank世界前20),其后于悉尼大学任博士后研究员。主要研究方向为世界模型和多智能体技术及其在地球空间科学领域(如全球气象气候预测)的交叉应用研究。已在Nature子刊、IEEETPAMI、NeurIPS、CVPR、KDD等人工智能领域顶级期刊会议发表学术论文80余篇,并长期担任相关期刊会议的审稿人或程序委员会委员。基于其研究工作入选国家及上海市人才计划,获2024年IEEETCSVT最佳论文奖、2022年世界人工智能大会云帆奖、2020年新南威尔士大学工程研究卓越奖、2019年谷歌博士奖等。 个人主页: www.leibai.site 特别鸣谢本次Webinar主要组织者: 主办AC:白磊 (上海人工智能实验室) 活动参与方式 1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们! 直播地址: https://live.bilibili.com/22300737; 历史视频观看地址: https://space.bilibili.com/562085182/ 2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ T群,群号:863867505); *注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。 3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。 4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。 |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2025-2-1 11:43 , Processed in 0.013496 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.