中科院、阿里巴巴、澳门科技大学联合团队提出微调LLM的新思路，探索顺序协作多智能体强化学习在LLM微调中的应用

文摘 2024-10-11 08:00 美国

随着LLM能力的不断提升，进一步提高其性能面临的挑战也变得愈发复杂。微调LLM是为了在特定任务上优化模型表现的关键步骤，但现有方法如监督微调（SFT）和基于人类反馈的强化学习（RLHF）都存在各自的局限性。传统的RL微调方法，如近端策略优化（PPO），虽然在一般的RL场景中表现出色，但在应用于LLM微调时，常常表现出不稳定和易于分布崩溃的问题。这意味着模型可能会过度优化，导致行为高度偏向。在这种背景下，CORY方法应运而生，通过将RL微调扩展到顺序协作多智能体强化学习框架中，试图利用多智能体系统的共同进化和涌现能力来应对这些挑战。

10 月 10 日来自中国科学院大学人工智能学院、中国科学院自动化研究所、阿里巴巴（中国）有限公司和澳门科技大学的联合团队提出了CORY方法，他们的创新点在于其独特的知识转移和角色交换机制。该方法将要微调的LLM复制成两个独立的代理——先锋者和观察者。先锋者根据查询生成响应，而观察者则利用查询和先锋者的响应生成自己的响应。这种机制不仅促进了知识的传递，还通过角色交换机制定期交换两者的角色，推动了两个代理的协同进化。实验结果表明，CORY在策略最优性、抗分布崩溃和训练稳健性方面都优于传统的PPO方法，展示了其在实际应用中微调LLM的潜力。他们的技术论文《Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning》同日发表于arXiv。

研究团队来自多个顶尖机构，集结了不同领域的专业知识。他们分别是：中国科学院大学人工智能学院、中国科学院自动化研究所、阿里巴巴（中国）有限公司和澳门科技大学。这个跨机构的合作团队，通过各自的技术力量和研究背景，共同推进了LLM微调的创新研究。这些研究人员不仅在人工智能理论上有深厚的造诣，还在实际应用中积累了丰富的经验，确保了研究成果的前沿性和实用性。研究团队可以看到CORY方法在RL微调LLM中的创新和潜力，了解其在应对现有方法局限性方面所做的努力和取得的突破。

问题定义

在因果语言模型中，下一个标记的预测问题是核心任务之一。具体来说，这个任务要求模型根据给定的上下文生成下一个最合适的标记。为了系统地描述这个问题，他们使用了语言增强的马尔可夫决策过程（MDP）。

在这种MDP中，状态空间、动作空间和奖励函数的定义至关重要。首先，状态空间S是一个由M个标记组成的组合空间。具体而言，状态s是一个标记序列的连接，如(s = w1, w2, ... , wM)，其中每个wi都是词汇表V中的一个标记。同样，动作空间A则是由N个标记组成的组合空间，一个动作a也是一个标记序列的连接，如(a = w1, w2, ... , wN)。

奖励函数r定义了状态和动作序列的数值得分，这在强化学习中通常是一个稀疏奖励问题。具体来说，只有在生成完整的响应后，奖励信号才会被给予，这使得优化过程面临挑战。此外，状态转移函数P描述了状态的确定性转移，按照自回归模型，每一步的预测标记都会与上一状态连接，形成新的状态。

通过将这些元素结合起来，MDP在下一个标记预测问题中提供了一个结构化的框架，从而为模型的优化和微调提供了清晰的指导。利用这种语言增强的MDP，研究人员能够更好地理解和解决LLM在下一个标记预测中的挑战，从而提高模型的总体性能和稳定性。

方法

CORY（Cooperative Reinforcement Learning）方法的核心在于将RL微调扩展到顺序协作的多智能体强化学习框架中。为了实现这一点，CORY将预训练的LLM复制成两个独立的代理，每个代理分别承担先锋者和观察者的角色。这两个代理通过知识转移和角色交换机制共同进化，以提升微调效果。具体而言，CORY框架包括以下几个关键步骤：复制LLM、定义角色、知识转移和角色交换。在训练过程中，两个代理共享一个集体任务奖励，使得每个代理都能从对方的输出中受益。

图1:CORY的框架。传统的RL微调方法可以简单地扩展到CORY版本，只需三个步骤。首先，将法学硕士复制为两名法学硕士代理人，一名作为先驱，另一名作为观察员；其次，将两个LLM代理的任务奖励合并，以替换原始的任务奖励；第三，在培训期间定期交换两名法学硕士代理人的角色。经过培训，LLM代理都可以独立执行任务。

知识转移机制

在CORY方法中，先锋者和观察者是两个独立的代理。先锋者是第一个生成响应的代理，而观察者则在生成响应时利用先锋者的输出。这种设计旨在利用多智能体系统的协同效应，提高响应的质量。

知识转移过程通过先锋者和观察者的交互来实现。具体来说，先锋者根据给定的查询生成初始响应a1，随后观察者接收原始查询s0和先锋者的响应a1，并基于这些信息生成自己的响应a2。这种顺序交互使得观察者能够利用先锋者的输出来引导其生成过程，从而提升响应质量。先锋者和观察者的句子级策略可以表示为：\[ a1 \sim \pi_{\text{pio}}(·|s0), a2 \sim \pi_{\text{obs}}(·|s0, a1) \] 在训练过程中，先锋者和观察者的参数通过RL算法分别进行优化，常用的算法是PPO。

图2:CORY优于单代理RL微调的实证证明。在（c）中，η的值从左到右分别为1e-5、1e-4、1e-3和1e-2。

角色交换机制

在训练过程中，观察者由于始终接收包含（s0, a1）的输入，可能会形成提示偏差（prompt bias）。这种偏差会限制观察者独立生成响应的能力。为了解决这一问题，引入了角色交换机制，定期交换先锋者和观察者的角色，使两个代理都能适应不同的提示格式，增强其独立执行任务的能力。

角色交换机制涉及定期交换先锋者和观察者的角色，使得两者在整个训练过程中多次体验两种角色。这种机制确保LLM能够在训练和推理过程中适应不同的提示格式，从而提高任务执行的灵活性。通过角色交换机制，LLM能够在不同的提示格式中发展出统一的表示，从而在训练和推理过程中提高任务执行的效果。这个机制不仅减少了提示偏差，还促使两个代理的共同进化，进一步提升了模型的整体性能。

实验

在本研究中，为了全面评估CORY方法的性能，研究团队选择了两类不同的奖励函数进行实验：主观奖励函数和客观奖励函数。对应的数据集分别为IMDB评论数据集和GSM8K数据集。IMDB数据集用于情感分析任务，而GSM8K数据集则用于数学文字问题的推理任务。

在IMDB评论数据集中，研究团队选取了50,000对<文本, 标签>数据，其中训练集和测试集各包含25,000条。数据集中的文本为电影评论，标签为二元情感分类标签（正面或负面）。在实验中，研究团队通过随机抽取文本片段，并保留前2到8个标记作为情感完成的提示，模型生成延续文本，将这些提示转化为正面情感评论。随后，预训练的distilbert-imdb模型对生成的文本进行情感评分，目标是最大化这些文本的平均情感得分。

在GSM8K数据集中，研究团队使用的是8,790个高质量的小学数学文字问题，其中7,470个用于训练，1,320个用于测试。每个问题中，模型生成响应，并通过正则表达式提取精确答案。对于正确答案给予奖励1，错误答案则为0。在这个任务中，研究团队选择Llama-2-7b-chat模型作为预训练模型，并对其进行量化，以减少训练开销。实验设置和使用的具体参数如批量大小、训练轮次等也根据数据集和任务的不同而有所调整。

主观奖励函数实验

在IMDB评论数据集上，研究团队首先进行了主观奖励函数实验。任务设置包括随机抽取IMDB数据集的文本片段，保留前2到8个标记作为情感完成的提示。模型生成延续文本，将这些提示转化为正面情感评论。distilbert-imdb模型对生成的文本进行情感评分，目标是最大化评论的平均情感得分。

图3:IMDB Review上主观奖励下的训练曲线。

为了评估CORY方法的效果，研究团队比较了CORY与单PPO方法的训练曲线。通过可视化任务奖励、KL散度和综合奖励函数，研究团队发现CORY与单PPO在任务奖励水平上相似，但CORY在KL散度上表现明显更好。具体而言，单PPO的KL散度达到了CORY的两倍以上，这表明CORY在任务奖励和原始策略偏离程度之间取得了更好的平衡。此外，CORY-LLM1和CORY-LLM2的曲线非常接近，验证了两者在训练结束时达到非常相似的性能水平，这也证实了CORY的自举学习和协同进化原理的有效性。

客观奖励函数实验

在GSM8K数据集上，研究团队进行了基于规则的客观奖励函数实验。实验任务设置为模型生成响应，并通过正则表达式提取精确答案，如果答案与数据集中的真值匹配则给予奖励1，否则为0。通过监控任务奖励、KL散度和综合奖励，研究团队发现CORY在任务奖励曲线上表现出显著的稳定性，并且始终优于单PPO。此外，CORY的KL散度显著低于单PPO，促进了更快的收敛。

图4:GSM8K上目标奖励下的训练曲线。

总体而言，在GSM8K数据集上的实验表明，CORY能够在不显著修改原始参数分布的情况下，实现与或优于单PPO方法的任务奖励。此外，CORY在综合奖励曲线上的表现也优于单PPO，表明其在任务奖励和KL散度之间的平衡能力更强。

图5:GSM8K测试数据集的评估结果。

通过这两个实验，CORY在微调LLM上的性能优势得到了系统的验证。这些结果不仅证明了CORY在策略最优性上的表现出色，还展示了其在抵抗分布崩溃和训练稳健性方面的优越性。

消融实验

在CORY方法的研究中，为了全面理解不同机制对性能的影响，进行了多项消融实验。通过消融实验，研究团队可以评估模型大小、知识转移和角色交换对CORY性能的具体影响。

消融实验的设置

图6：消融实验的训练曲线。

模型大小的影响：为了探究模型大小对CORY增强效果的影响，研究团队使用了GPT-2超大模型（GPT-2-XL，参数量1.5B），其参数量是GPT-2大模型（GPT-2-Large，参数量774M）的两倍。在IMDB评论数据集上，通过使用单代理PPO对GPT-2-XL进行微调，研究团队可以观察模型大小对任务奖励和KL散度的影响。

知识转移的影响：研究团队保持角色交换机制不变，使两个模型仍然共享一个集体任务奖励，但禁用知识转移。这种情况下，每个代理仅根据单独的查询进行响应生成，而没有观察到先锋者的输出。这相当于在PPO奖励信号中引入了噪声。通过这种设置，研究团队可以评估知识转移对任务奖励和KL散度的具体影响。

角色交换的影响：在角色交换机制的消融实验中，研究团队保持知识转移机制不变，但禁用角色交换。这种情况下，先锋者和观察者各自固定在原来的角色中，不进行角色交换。通过这种设置，研究团队可以评估角色交换对任务奖励和KL散度的具体影响。

消融实验的结果分析

模型大小的影响：实验结果显示，尽管GPT-2-XL模型在任务奖励上迅速达到最大值，但其KL散度并没有显著改善。KL散度持续增加，导致分布崩溃。与之相比，CORY方法通过两个较小模型的协同进化，达到了更好的平衡，表明增强效果不仅仅依赖于模型参数的增加。

知识转移的影响：在禁用知识转移的情况下，任务奖励变得不稳定，KL散度显著增加。这表明知识转移在框架RL微调为真实的多智能体协作问题中至关重要。观察者无法利用先锋者的输出引导生成过程，导致优化效果大打折扣。

角色交换的影响：在禁用角色交换的实验中，虽然两个模型在任务奖励上表现良好，但其KL散度明显高于CORY。观察者的KL散度虽然低于先锋者，但两者之间仍存在显著差距。这表明角色交换机制在促进两个代理角色互换、适应不同提示格式方面发挥了重要作用，减少了提示偏差，提升了模型的整体性能。

综合而言，这些消融实验验证了CORY方法中的关键机制对性能提升的贡献，特别是知识转移和角色交换在优化任务奖励和控制KL散度方面的有效性。这些发现不仅深化了研究团队对CORY方法工作原理的理解，也为未来的优化和应用提供了宝贵的参考。

相关工作

在过去的几年中，强化学习（RL）在微调大型语言模型（LLM）方面取得了显著进展。其中基于人类反馈的强化学习（RLHF）和多智能体强化学习（MARL）是两个主要的研究方向。研究团队提出的CORY方法，通过顺序协作多智能体强化学习，对RLHF和MARL进行了创新和扩展。

RLHF方法通过结合人类偏好数据，对LLM进行微调，以增强其在特定任务上的表现。典型的RLHF方法包括InstructGPT，它通过结合监督微调（SFT）和基于人类偏好的RL，对GPT-3模型进行微调。Askell等人的研究指出，偏好建模是区分LLM行为中可取与不可取的重要训练目标，Bai等人则引入了迭代在线训练模式，每周使用新的人工反馈数据更新偏好模型和LLM。然而，尽管RLHF方法取得了许多进展，但其复杂性、不稳定性和对超参数的敏感性仍然是亟待解决的问题。

CORY方法通过引入多智能体协作的概念，试图解决RLHF方法中的一些限制。CORY将RL微调扩展到顺序协作的多智能体强化学习框架中，利用知识转移和角色交换机制，实现LLM代理的协同进化。这种方法不仅提高了策略的最优性，还增强了模型的稳定性和鲁棒性，显著减少了训练过程中的分布崩溃现象。

多智能体强化学习（MARL）作为AI领域的重要研究方向，通过多个自主代理在复杂系统中的协同进化，实现了新技能的涌现。MARL方法在解决单智能体RL难以解决的复杂问题方面表现出色。例如，Kim等人的研究将RL提示调优分解为多智能体联合调优，通过分割巨大的联合动作空间，实现了更好的策略学习。Gao等人的研究提出了非对称训练对称执行框架，处理两智能体的Stackelberg博弈，其中后决策的代理可以观察前决策的代理，从而更好地收敛于Stackelberg均衡。

CORY方法从MARL中汲取灵感，将LLM微调视为多智能体协作问题。通过先锋者和观察者两个代理的知识转移和角色交换，CORY实现了LLM的共同进化，提高了微调效果。这种顺序协作的多智能体框架，既继承了MARL中协同学习的优势，又通过简化实现过程，提供了更高的易用性和灵活性。

除了RLHF和MARL，其他相关研究也为CORY方法的提出提供了启示。例如，针对LLM的强化学习微调，现有方法中尝试引入最大熵正则化、超参数调优和奖励塑造等策略，尽管这些方法在一定程度上改进了PPO算法，但在实际应用中的提升效果有限。CORY通过创新的知识转移和角色交换机制，在策略最优性和训练稳定性方面表现出显著优势，展示了其在实际应用中的广阔前景。

讨论

多智能体学习在微调大型语言模型（LLM）方面展现出独特的优势。首先，多智能体学习能够实现智能体之间的协同进化，这种机制使得每个智能体都能从其他智能体的输出中学习，从而加快整体的学习进程。例如，在CORY方法中，先锋者和观察者通过知识转移和角色交换机制，实现了彼此之间的合作与进化。这不仅提高了模型的响应质量，还显著增强了模型的稳定性和鲁棒性，减少了训练过程中的分布崩溃现象。

其次，多智能体学习的协同机制有助于解决LLM微调中的稀疏奖励问题。由于每个智能体都能观察并利用其他智能体的输出，整体的奖励信号变得更加丰富和多样。这种多样性有助于模型在稀疏奖励环境中更有效地进行学习。此外，通过角色交换机制，多智能体学习能够有效减少提示偏差，促进模型在不同提示格式下的一致性，从而提高整体性能。

CORY方法的成功对游戏AI领域也具有重要启示。在游戏AI中，多智能体学习已经展示了其强大的能力，例如在围棋、星际争霸和外交游戏中，智能体通过相互竞争和合作，实现了超越人类的表现。CORY方法的多智能体协作框架，可以为游戏AI提供新的视角，通过知识转移和角色交换机制，进一步增强智能体的策略优化能力。

具体来说，CORY方法中的知识转移机制可以被应用于游戏AI中，实现智能体之间的信息共享，从而提升整体策略的多样性和创新性。角色交换机制则可以帮助游戏AI智能体在不同角色之间进行转换，减少策略固化现象，促进智能体在复杂游戏环境中的适应性和灵活性。这些机制不仅有助于提升游戏AI的性能，还能为解决其他复杂AI问题提供新的思路。

基于CORY方法的创新和实验结果，研究团队提出以下未来研究方向的建议。

首先，可以进一步探索多智能体学习中智能体数量的影响。在本研究中，研究团队使用了两个智能体进行协作。未来的研究可以引入更多的智能体，研究其对模型性能和稳定性的影响，以及如何有效地管理和协调多个智能体之间的合作。

其次，竞争性多智能体学习（Competitive MARL）也是一个值得探索的方向。在CORY方法中，研究团队主要关注了合作性多智能体学习。然而，在许多实际应用中，智能体之间的竞争可以激发更高的策略优化能力。研究如何在多智能体学习中引入竞争机制，形成自然的课程学习，促进智能体的自主学习和进化，是一个具有潜力的研究方向。

最后，可以将CORY方法应用于更多实际任务和领域。虽然本研究主要关注LLM的微调，未来可以将这种方法扩展到其他AI任务，如图像生成、机器人控制等。通过在不同任务中的应用，验证和优化CORY方法的通用性和有效性，从而为多智能体学习在更广泛的领域中带来新的突破。（END）

参考资料：https://arxiv.org/abs/2410.06101

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

大噬元兽

噬元兽FlerkenS 是一个去中心化的AI数字价值容器，捕捉数字时代新型资产，用数据飞轮把你的数据和内容转化成为你的财富，带你走进下一个智能互联网。

最新文章

从Llama到Llasa,扩展训练与推理的语音合成新范式

谷歌、剑桥联合团队提出Mass框架，通过提示和拓扑优化引领多智能体系统新方向

从思考到检索，DeepRAG重塑大模型的推理能力

一文读懂DeepSeek-V3 技术报告

Meta AI 联合团队意欲重新定义推理，展开自适应推理预算约束策略优化在大模型中的应用

SAMI：在线教育中的智能社交助理

噬元兽的新春寄语

上海交通大学团队提出面向多智能体系统的可扩展安全多智能体强化学习框架SS-MARL

人工智能人格论

推理语言模型：蓝图解析

华为诺亚方舟实验室突破具身AI瓶颈， SpatialCoT通过坐标对齐和思路链推进空间推理

万字长文｜大模型推理之路

Nature machine intelligence: 多模态大模型中的视觉认知

多智能体微调，通过多样化推理链实现自我完善的新路径

艾伦图灵研究所最新成果：多智能体博弈中的可纠正性和一致性

《自然》杂志：评估大模型模拟个性的能力

基因与智能的融合：解读DNA神经网络

再现o1类MLLM：Virgo在多模态慢思考中的创新与突破

双剑合璧：ELECTRA与GPT-4o在情绪分析中的应用

人工智能与神经科学的融合，Transformer在脑状态预测中的创新应用

阿里巴巴语音实验室发布新成果，多模态方法显著提升视频主题分割性能

阿里巴巴研究团队推出SlimGPT，高效剪枝助力大型语言模型

加州大学伯克利分校、斯坦福大学联合团队通过具象化AI重塑GameFi生态系统

解读千脑计划：AI与神经科学的融合

中国科学院软件研究所联合团队通过反事实推理解锁多智能体系统中的智能体行为

OpenAI o3：通向通用人工智能的关键一步

Meta联合团队探究AI心智理论能力，展开对抗性数据生成的应用

中国国家自然科学基金等四个单位资助项目：Semi-IIN——用于多模态情绪分析的半监督模态内交互学习网络

从数据集到模型：视频和音频情绪分析的综合研究

智能情感推理：融合多任务学习的大模型应用

中山大学、美团联合团队推出行为正则化与顺序策略优化结合的离线多智能体学习算法

加州大学洛杉矶分校联合团队推出TeamCraft平台，提升Minecraft中多模态多智能体协作的基准

解读HyperMARL：多智能体强化学习中的创新架构

大模型驱动商业流程自动化，Text2Workflow实现高效业务流程管理

中国国家自然科学基金资助项目：多智能体系统中的动态故障容错技术

识别大脑波动模式：融合量子计算与深度学习的情感识别新方法

从孤立学习到协作学习，MINDFORGE实现智能体间的心智交流

25位科学家联合解析增强人类与机器的泛化能力

入口控制：多智能体强化学习在自动驾驶中的应用研究

《Nature》科学报告：基于新型深度卷积结构的改进面部情绪识别模型

基于共享信息池的多智能体协作，加州大学伯克利分校联合团队提出推箱子问题的创新解决方案

心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

解密心智理论：从人类社会到人工智能的集体智慧提升之路

多智能体系统的金融交易,详解FinVision框架如何革新股票市场预测

智能调度新探索，多智能体强化学习在无关平行机调度中的应用

《自然》科学报告：大模型在社会情境判断方面可以胜过人类

微软研究院成果：用于解决复杂任务的Magentic-One通用多智能体系统

多智能体的文明之路，数字人类与AI社会的崛起

揭秘大模型中的神经网络，从ANs到类脑功能组织

中国科学院、上海人工智能实验室等联合团队重新定义语言模型发展，利用语言不平衡实现多语言自我改进

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉