研究人员打造即插即用型框架，将多智能体强化学习引入大语言模型

科技 2024-11-18 20:35 北京

当前，在安全对齐、代码生成等下游任务中，大语言模型要想进一步提升性能，往往需要进行强化学习微调。

但是，从强化学习的视角来看，如果把大语言模型当成根据 prompt 做决策的智能体，就会发现强化学习微调这个任务可谓十分困难。

其中主要存在两个难点：

一是大语言模型拥有非常庞大的离散动作空间，整个 token 字典都是它的动作空间。以 Meta 公司的 Llama2 模型为例，它的动作空间有 32000 维。

而生成一个回答可能包含几十甚至上千个 token 的组合，其复杂度远远大于在强化学习领域已经被解决得很好的围棋和星际争霸等任务。

二是稀疏奖励问题，即大语言模型只有在完整生成一个回答后才会得到一个奖励。

这两个问题导致强化学习微调很不稳定，在微调的时候容易使模型的输出分布大幅偏离预训练模型，从而导致模型原有的对语言结构的建模发生崩溃（即分布崩溃），进而引发模型输出质量的急剧下降。

现有很多研究都是从构建密集奖励函数入手来解决大语言模型的强化学习微调的问题。

但是，中国科学院自动化所博士生马昊和所在团队尝试从多智能体的角度来看这个问题。

结合团队在群体智能领域的大量积累，他们认为：如果使用多个大语言模型构成一个多智能体系统，在多个大语言模型之间构造一种博弈关系，也许能实现大语言模型能力的进一步涌现。

这一思路的背后主要基于两个观察：一是自然语言本身就是在群体交互中涌现的；二是在群体中，智能体间的博弈关系无论是合作关系还是竞争关系，都可以促进军备竞赛或协同演化，从而在智能体之间形成一种相互促进的动态。

那么，如何在多个大语言模型之间构造一种博弈关系？要知道，基于特定任务针对大语言模型进行强化学习微调，它本身是一个单智能体强化学习问题，因此把它构造成博弈问题颇具挑战。

在尝试了多种构造方式后，他们最终发现将两个大语言模型之间的交互构造为 Stackelberg 博弈可以将强化学习微调转化为一个多智能体强化学习问题，并实现研究初期所设想的“协同演化”。

这种方法包含两种机制：

1. 从一个初始大语言模型出发，来将其复制成两份：Pioneer 大语言模型和 Observer 大语言模型，其中前者仅通过任务 prompt 输出回答，后者则根据任务 prompt 并以前者的回答作为参考来输出新的回答。

2. 两个大语言模型智能体通过各自独立的数据来进行强化学习微调，任务奖励为两者之和。当微调到固定轮次之后，再交换两者的角色，之后反复迭代。

通过此，该团队打造出一款名为 CORY 的即插即用型框架，任何能被用于微调大语言模型的强化学习算法，都可以放在这个框架中进行使用。

图 | CORY 的框架（来源：arXiv[1]）

马昊表示，这种方式既能有效地避免分布崩溃，还能确保大语言模型的能力稳定提升。

另外，在消融实验中他们发现了一个有趣的现象：在不交换两个智能体的角色的时候，仅仅依靠 Stackelberg 博弈这种信息传递，Observer 也能保持一个相对比较低的相对熵。

这意味着 Pioneer 所提供的参考答案构成了一种针对搜索空间的隐式约束，无意中解决了搜索空间过大的问题。

在这个被约束的搜索空间中，更利于 Observer 找到高质量的策略。

随着高质量预训练数据的枯竭，大语言模型的基础能力逐渐达到瓶颈。

而长期来看，强化学习微调是一个能够打破这种瓶颈的手段，其在数学推理、代码生成等存在客观奖励函数的任务中的上限可能远超我们想象。

图 | 马昊（来源：马昊）

日前，本次研究的相关论文以《与另一个你共同进化：使用序列合作型多智能体强化学习微调大语言模型》（Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning）为题已被 NeurIPS（Conference and Workshop on Neural Information Processing Systems） 2024 接收 [2]。

（来源：arXiv）

自动化研究所博士生马昊是第一作者，自动化研究所博士生扈天翼是共同一作，自动化研究所蒲志强研究员担任通讯作者。

马昊表示：“CORY 是将多智能体强化学习引入大语言模型的强化学习微调的最早工作。”但是，从多智能体强化学习的角度来看，还有很多可以继续开展的工作。

比如，增加智能体的数目、改变智能体的角色、在规模性和交互性等群体要素上进行更深入的探讨。而这些都将是他和所在团队的后续研究方向。

参考资料：

1.https://arxiv.org/pdf/2410.06101

2.https://neurips.cc/virtual/2024/poster/95347

运营/排版：何晨龙

01/ 孙学良院士团队开发双阴离子基钠超离子导体，打破传统固态电解质局限，为开发高性能全固态钠离子电池开辟新途径

02/ 结合有机半导体薄膜与细菌人工光合作用，科学家制备人工生物叶片，具备自支撑与能量自给特性

03/ 生成式AI或在5年内产生数百万吨电子垃圾？科学家提出算力物质流方法，为AI可持续发展提供新视角

04/ 科学家用AI打造离子电路，将成为电子电路的有力补充，可被用于人机交互领域

05/ 科学家开发新型点击化学反应，突破二硫键高效合成技术瓶颈，正探索将其用于骨修复和脊髓修复

http://mp.weixin.qq.com/s?__biz=MzA3NTIyODUzNA==&mid=2649760439&idx=2&sn=b524b6f034ddcdb29ce2b472ede570d3

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

澳洲昆大团队研发新型聚合物吸附剂，短时间内实现超99%氟化污染物去除

蛋白质设计再突破！麻省理工团队利用人工智能与梯度优化开发新策略

在家就能查血：MIT开发微型硅光芯片血液检测系统

科学家研发“仿心脏”电极材料，促进离子流传输，解决钠离子电池离子传输动力学缓慢问题

亚马逊向Anthropic追投40亿美元，Anthropic将使用前者芯片训练AI模型

还原真实世界：MIT用“AI+物理模拟”为机器人打造虚拟训练场

诺奖得主联合创办，初创融资3000万美元，开发新型糖免疫疗法

打破传统蛋白质进化方法局限性：MIT团队设计新型蛋白质大模型，发现比自然界高效百倍的突变体

寻找定义未来的科技先锋丨2024年度“35岁以下科技创新35人”中国报名中

被迫剥离Chrome和安卓？谷歌或将迎来“至暗时刻”

初创公司Teleo完成千万美元融资，欲打造机器人行业“ChatGPT时刻”

艾伦研究所与华盛顿大学团队推出开源科研大模型OpenScholar，用小参数超越GPT-4o

北大校友发现新型神经元，能通过靶向激活快速抑制食欲，或促进司美格鲁肽类药物新发展

背靠英伟达的初创公司Enfabrica推出全球最快GPU网络接口控制器芯片，再获1.15亿美元融资

英国核聚变初创公司完成1.25亿美元融资，致力于开发新型反应堆

运动即药物：MIT揭示神经修复新机制

科学家提出“一锅法微流体制造”系统，制备多种复杂陶瓷微粒，能作为微机电系统的精密零件

成立仅半年，印度首家核聚变公司获种子前投资

北航团队提出全新偏好数据构建框架，助力大模型实现更全面的对齐效果

药物研发新突破！中国科大、哈佛等联合开发PocketGen模型，可高效生成蛋白质口袋

AI和量子：谁将主宰未来计算？

内部短路起火时间不到3秒，王朝阳院士团队揭示全固态金属锂电池安全隐患

斯坦福团队发现新型代谢化合物，可抑制食欲、减轻体重

科学家以树蛙皮肤为灵感研制大气水收集装置，每平方米产能超过60升/天，有望满足工业级用水需求

研究人员打造即插即用型框架，将多智能体强化学习引入大语言模型

哈工大团队开发高灵敏度检测设备，可同时实现多种疾病诊断

科学家从小行星挖掘出外太阳系的起源密码

人类首次月球原位资源利用测试项目定档，美国企业计划明年执行首次任务

孙学良院士团队开发双阴离子基钠超离子导体，打破传统固态电解质局限，为开发高性能全固态钠离子电池开辟新途径

这家公司打造1.25万电池充电站，可在地震或台风时提供备用发电

MIT绘制迄今为止最全面大脑皮层功能图

1人完全缓解，斯坦福团队利用CAR-T治疗胶质瘤，突破实体肿瘤限制

结合有机半导体薄膜与细菌人工光合作用，科学家制备人工生物叶片，具备自支撑与能量自给特性

清华校友研发分子编辑工具，为药物分子和材料分子的合成提供新策略

微软联手NASA开发“地球Copilot”，让浩瀚太空数据触手可及

AI导航测试：纽约街道闭路实验揭示生成式模型的薄弱点

生成式AI或在5年内产生数百万吨电子垃圾？科学家提出算力物质流方法，为AI可持续发展提供新视角

四成AI数据中心或陷入“用电荒”，全球能源格局面临重大挑战

首个机械量子比特问世，量子计算迎来“蒸汽朋克”时代

MIT科学家开发新模型能让疫苗更有效

科学家用AI打造离子电路，将成为电子电路的有力补充，可被用于人机交互领域

专访澳大姜颖：开发“BIND通用接口”技术，让柔性生物电子器件实现模块化组合，正联合企业落地转化

超越硅极限：纳米3D晶体管或成AI低功耗未来之钥

科学家提出基于大语言模型的智能体系统框架，促进对不同框架的统一理解

Cursor母公司Anysphere收购Supermaven，计划打造完全整合的AI开发平台

科学家开发新型点击化学反应，突破二硫键高效合成技术瓶颈，正探索将其用于骨修复和脊髓修复

用“飞轮效应”开启智能科学时代新篇章，火山引擎AI for Science研讨会与Bio-OS大赛圆满收官

CFS公司获美国能源部250万美元资助，即将公布首座核聚变发电站选址

天津大学开发类器官-脑机接口技术，为脑损伤修复带来新希望

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉