点击下方卡片,关注“AI前沿速递”公众号
点击下方卡片,关注“AI前沿速递”公众号
各种重磅干货,第一时间送达
各种重磅干货,第一时间送达
文章名称:KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS
文章链接:https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf
github链接:https://github.com/MoonshotAI/Kimi-k1.5/
转载自知乎:时空猫的问答盒
链接:https://www.zhihu.com/question/10114790245/answer/84554614412
摘要
首先,我们要了解的是,语言模型预训练(Language Model Pretraining)通过预测下一个词(Next Token Prediction)来提高计算效率,但这种方法受限于可用的训练数据量。这意味着,如果我们想要训练更好的语言模型,我们需要更多的数据。
然后,论文提到了强化学习(Reinforcement Learning, RL)的潜力。强化学习是一种机器学习方法,它通过奖励机制来让模型学习如何做出最佳决策。这种方法可以让大型语言模型(Large Language Models, LLMs)通过学习探索来扩展其训练数据,从而提高性能。不过,之前的研究在这方面并没有取得很好的成果。
在这篇论文中,作者介绍了他们的最新多模态大型语言模型(Multi-modal Large Language Model)Kimi k1.5,这个模型是通过强化学习训练的。他们分享了Kimi k1.5的训练实践,包括强化学习的训练技术、多模态数据的制作方法,以及基础设施的优化。
关键的是,他们使用了长上下文缩放(Long Context Scaling)和改进的策略优化方法(Policy Optimization Methods),这些是他们方法的重要组成部分。他们建立了一个简单而有效的强化学习框架,不依赖于更复杂的技术,比如蒙特卡罗树搜索(Monte Carlo Tree Search)、价值函数(Value Functions)和过程奖励模型(Process Reward Models)。
值得注意的是,Kimi k1.5在多个基准测试和模态上取得了最先进的推理性能。例如,在AIME上得分77.5,在MATH 500上得分96.2,在Codeforces上达到94百分位,在MathVista上得分74.9,这些成绩与OpenAI的o1相当。
此外,论文还介绍了一种有效的长到短(Long2Short)方法,这种方法利用长连续推理技术(Long-CoT Techniques)来提升短连续推理模型(Short-CoT Models),从而在短连续推理上取得了最先进的结果。例如,在AIME上得分60.8,在MATH500上得分94.6,在LiveCodeBench上得分47.3,这些结果比现有的短连续推理模型如GPT-4o和Claude Sonnet 3.5提高了高达550%。最后,Kimi k1.5的服务将很快在kimi.ai上线。
1 Introduction
在这一部分,作者首先介绍了语言模型预训练(Language Model Pretraining)的背景。语言模型预训练通过下一个词预测(Next Token Prediction)来提高模型的智能能力,这种方法遵循了一个称为“缩放定律”(Scaling Law)的原则。根据这个原则,随着模型参数和数据量的比例增加,模型的智能能力也会持续提高。然而,这种方法受限于可用的高质量训练数据的数量。因此,作者提出了一种新的方法,通过强化学习(Reinforcement Learning, RL)来探索可能的新缩放维度。使用强化学习,模型可以通过奖励机制来探索,而不仅仅依赖于静态的预先存在的数据集。
接下来,作者介绍了Kimi k1.5的几个关键设计和训练要素:
长上下文缩放(Long Context Scaling):作者将强化学习的上下文窗口扩展到128k,并观察到随着上下文长度的增加,性能得到了持续的提升。一个关键的思想是使用部分展开(Partial Rollouts)来提高训练效率,即通过重用之前的部分轨迹来生成新的轨迹,而不是从头开始生成。这种方法揭示了上下文长度在强化学习中的重要性。 改进的策略优化(Improved Policy Optimization):作者使用长连续推理(Long-CoT)的形式化方法,并采用在线镜像下降(Online Mirror Descent)的变体进行稳健的策略优化。这一算法通过有效的采样策略、长度惩罚和数据配方的优化得到进一步改进。 简单框架(Simplistic Framework):通过结合长上下文缩放和改进的策略优化方法,作者建立了一个简单的强化学习框架。由于能够扩展上下文长度,学习到的连续推理(CoTs)表现出规划、反思和纠正的特性。增加的上下文长度相当于增加了搜索步数,因此可以在不依赖更复杂技术(如蒙特卡罗树搜索、价值函数和过程奖励模型)的情况下实现强大的性能。 多模态性(Multimodalities):Kimi k1.5模型在文本和视觉数据上进行联合训练,具备同时对两种模态进行推理的能力。
此外,作者还介绍了有效的长到短(Long2Short)方法,这些方法利用长连续推理技术来提升短连续推理模型。具体方法包括应用长度惩罚与长连续推理激活和模型融合。
最后,作者展示了长连续推理版本在多个基准测试和模态上取得的最先进的推理性能。例如,在AIME上得分77.5,在MATH 500上得分96.2,在Codeforces上达到94百分位,在MathVista上得分74.9,这些成绩与OpenAI的o1相当。同时,模型在短连续推理上也取得了最先进的结果,例如在AIME上得分60.8,在MATH500上得分94.6,在LiveCodeBench上得分47.3,这些结果比现有的短连续推理模型如GPT-4o和Claude Sonnet 3.5提高了高达550%。
在这一部分,作者通过详细介绍Kimi k1.5的设计和训练方法,展示了如何通过强化学习框架来提升大型语言模型的性能。希望这些解释能帮助你更好地理解论文的核心内容。
2 Approach: Reinforcement Learning with LLMs
2_1 RL Prompt Set Curation
在这一部分,作者讨论了强化学习(Reinforcement Learning, RL)中提示集(Prompt Set)的策划和策划的重要性。提示集的质量和多样性对于强化学习的有效性至关重要。一个高质量的提示集不仅能引导模型进行稳健的推理,还能减少奖励挖掘(Reward Hacking)和对表面模式的过拟合风险。具体来说,高质量的RL提示集应具备以下三个关键属性:
Diverse Coverage(多样性覆盖):提示集应涵盖广泛的学科领域,如STEM(科学、技术、工程和数学)、编程和一般推理,以提高模型的适应性并确保在不同领域的广泛适用性。 Balanced Difficulty(平衡难度):提示集应包含从简单到复杂的问题,以便逐步学习并防止过拟合于特定的复杂程度。 Accurate Evaluability(准确可评估性):提示集应允许客观和可靠的评估,确保模型的表现是基于正确的推理而非表面模式或随机猜测。
为实现提示集的多样性覆盖,作者使用自动过滤器选择需要丰富推理和易于评估的问题。他们的数据集包括来自各个领域的问题,如STEM领域、竞赛和一般推理任务,涵盖文本和图文问题-答案数据。此外,他们开发了一个标签系统,以确保各个学科领域的均衡代表。
为了评估问题的难度,作者采用了模型驱动的方法,利用模型自身的能力来主动评估每个提示的难度。具体来说,对于每个提示,SFT模型(Supervised Fine-Tuning, 监督微调)生成了十次答案,使用相对较高的采样温度。计算通过率并用作提示难度的代理,难度越高,通过率越低。这种方法使得难度评估与模型的固有能力一致,对于RL训练非常有效。
为了避免奖励挖掘,作者确保每个提示的推理过程和最终答案都可以准确验证。经验观察表明,一些复杂的推理问题可能有相对简单且容易猜测的答案,导致错误的验证——即模型通过错误的推理过程得到正确答案。为解决这个问题,作者排除了容易出错的问题,如多项选择、真/假和证明问题。此外,对于一般的问题-答案任务,他们提出了一种简单而有效的方法来识别和移除容易被挖掘的提示。
2_2 Long-CoT Supervised Fine-Tuning
在精细化的RL提示集基础上,作者使用提示工程构建了一个小而高质量的长连续推理(Long-CoT)预热数据集,包含文本和图像输入的准确验证推理路径。这种方法类似于拒绝采样(Rejection Sampling, RS),但专注于通过提示工程生成长连续推理推理路径。预热数据集旨在捕获人类推理中的关键认知过程,如规划、评估、反思和探索。通过对这个预热数据集进行轻量级的SFT,模型能够内化这些推理策略,从而在多样化的推理任务中表现得更好。
2_3 Reinforcement Learning
2.3.1 Problem Setting
在这一部分,作者描述了RL中的问题设置。给定一个训练数据集D,当解决问题x时,思考zt(|x,z1,...,zt-1)是自回归采样的,然后是最终答案y(|x,z1,...,zm)。作者使用y,z ∼ 来表示这个采样过程。思考和最终答案都是作为语言序列采样的。
为了进一步提高模型的推理能力,规划算法被用来探索各种思考过程,生成改进的CoT(Chain of Thought, 推理链)在推理时。这些方法的核心洞察是通过价值估计显式构建思考过程的搜索树。这使得模型能够探索思考过程的多种延续或回溯以探索新方向。作者将这个过程视为一个规划算法,它直接作用于推理步骤的序列。
2.3.2 Policy Optimization
作者应用了在线策略镜像下降(Online Policy Mirror Descent)的变体作为训练算法。这个算法在每次迭代中使用当前模型作为参考模型,并优化相对熵正则化的策略优化问题。这个目标有一个闭合形式的解决方案,作者通过对两边取对数得到了一个约束条件,这允许在优化过程中利用离策略数据。
2.3.3 Length Penalty
作者观察到在RL训练过程中,模型的响应长度显著增加,这导致了过度思考现象。为了解决这个问题,他们引入了长度惩罚来限制令牌长度的快速增长,从而提高模型的令牌效率。他们提出了一个渐进的长度惩罚策略,以缓解训练初期的慢速问题。
2.3.4 Sampling Strategies
作者讨论了一些定义良好的采样方法,可以在RL训练中提高性能。他们提出了课程采样和优先采样策略,以利用问题的难度标签和成功率来提高训练效率。
2.3.5 More Details on Training Recipe
在这一部分,作者详细介绍了编码测试用例生成和数学问题的奖励建模等训练细节。他们使用CYaRon库生成编码问题的测试用例,并采用经典RM和链式思维RM来提高数学问题的奖励模型的评分准确性。
2_4 Long2short: Context Compression for Short-CoT Models
作者介绍了从长CoT模型到短CoT模型的转换方法,包括模型融合、最短拒绝采样、DPO和长2短RL。这些方法旨在在有限的测试时间令牌预算下提高短CoT模型的性能。
2_5 Other Training Details
2.5.1 Pretraining
作者描述了Kimi k1.5基础模型的预训练过程,涵盖了多个领域的语言数据和多模态数据。预训练分为三个阶段:视觉语言预训练、冷却和长上下文激活。
2.5.2 Vanilla Supervised Finetuning
作者创建了一个覆盖多个领域的标准SFT语料库,并详细描述了非推理任务和推理任务的数据收集和处理过程。
2_6 RL Infrastructure
2.6.1 Large Scale Reinforcement Learning Training System for LLM
作者介绍了Kimi k1.5系统的大规模RL训练系统,包括迭代同步RL框架和部分展开技术。这个系统通过中央主控、rollout工作人员、训练工作人员和奖励模型等组件协同工作。
2.6.2 Partial Rollouts for Long CoT RL
部分展开技术通过管理长和短轨迹的rollout来有效处理长CoT特征。这种技术确保了系统资源的高效利用,并通过检测重复来优化计算。
2.6.3 Hybrid Deployment of Training and Inference
作者提出了一个混合部署策略,将训练和推理任务集成在一起,以实现更高效的资源利用和动态扩展能力。
2.6.4 Code Sandbox
作者开发了一个沙盒环境,用于安全执行用户提交的代码,并优化了代码执行和代码基准评估。这个沙盒环境确保了RL训练数据判断的可靠性,并提供了一个一致和可重复的评估机制。通过这些技术和方法,Kimi k1.5展示了如何通过强化学习框架来提升大型语言模型的性能。希望这些解释能帮助你更好地理解论文的核心内容。
3 Experiments
3_1 Evaluation
Kimi k1.5是一个多模态模型,因此我们在不同模态的各种基准测试上进行了全面的评估。详细的评估设置可以在附录C中找到。我们的基准测试主要包括以下三类:
文本基准测试(Text Benchmark):包括MMLU、IF-Eval、CLUEWSC和C-EVAL。这些测试用于评估模型在文本理解和推理方面的能力。 推理基准测试(Reasoning Benchmark):包括HumanEval-Mul、LiveCodeBench、Codeforces、AIME 2024和MATH500。这些测试用于评估模型在编程、数学和逻辑推理方面的能力。 视觉基准测试(Vision Benchmark):包括MMMU、MATH-Vision和MathVista。这些测试用于评估模型在视觉理解和视觉推理方面的能力。
3_2 Main Results
Kimi k1.5长连续推理模型(K1.5 long-CoT model)
Kimi k1.5长连续推理模型的性能如表2所示。通过长连续推理的监督微调(Section 2.2)和视觉-文本联合强化学习(Section 2.3),模型的长期推理能力得到了显著提升。测试时间计算的扩展进一步增强了其性能,使模型能够在多种模态上实现最先进的结果。我们的评估显示,模型在理解、推理和整合长上下文信息方面的能力有了显著提高,这代表了多模态AI能力的进步。
Kimi k1.5短连续推理模型(K1.5 short-CoT model)
Kimi k1.5短连续推理模型的性能如表3所示。这个模型整合了多种技术,包括传统的监督微调(Section 2.5.2)、强化学习(Section 2.3)和长到短蒸馏(Section 2.4)。结果表明,k1.5短连续推理模型在多个任务上的表现与领先的开源和专有模型相当或更优。这些任务包括文本、视觉和推理挑战,其在自然语言理解、数学、编程和逻辑推理方面表现出色。
3_3 Long Context Scaling
我们使用中型模型来研究强化学习与大型语言模型(RL with LLMs)的扩展性质。图5展示了小型模型在数学提示集上训练过程中训练精度和响应长度的变化。随着训练的进行,我们观察到响应长度和性能精度的同时增加。值得注意的是,更具挑战性的基准测试显示出响应长度的更陡峭增加,这表明模型学会了为复杂问题生成更复杂的解决方案。图6表明,模型输出上下文长度与其解决问题能力之间存在强相关性。我们的最终运行中,k1.5扩展到128k的上下文长度,并在难推理基准测试上持续观察到改进。
3_4 Long2short
我们比较了在Section 2.4中介绍的长到短强化学习(long2short RL)算法与DPO、最短拒绝采样和模型融合方法,重点关注长到短问题的令牌效率。在图7中,k1.5-long代表我们用于长到短训练的长连续推理模型。k1.5-short w/ rl指的是使用长到短RL训练获得的短模型。k1.5-short w/ dpo表示通过DPO训练提高令牌效率的短模型。k1.5-short w/ merge表示模型融合后的模型,而k1.5-short w/ merge + rs表示应用最短拒绝采样到融合模型的短模型。k1.5-shortest表示我们在长到短训练中获得的最短模型。如图7所示,提出的长到短RL算法在令牌效率方面优于其他方法,如DPO和模型融合。值得注意的是,所有k1.5系列模型(标记为橙色)在令牌效率方面优于其他模型(标记为蓝色)。例如,k1.5-short w/ rl在AIME2024上的Pass @1分数为60.8(8次运行平均),平均仅使用3,272个令牌。类似地,k1.5-shortest在MATH500上的PAss(@1分数为88.2,令牌消耗量与其他短模型相当。
3_5 Ablation Studies
模型大小和上下文长度的扩展
我们的主要贡献是应用强化学习来增强模型生成扩展连续推理(CoT)的能力,从而提高其推理能力。一个自然的问题是:这与简单地增加模型大小相比如何?为了证明我们方法的有效性,我们使用相同的数据集训练了两个不同大小的模型,并记录了RL训练过程中所有检查点的评估结果和平均推理长度。这些结果如图8所示。值得注意的是,尽管较大的模型最初优于较小的模型,但较小的模型可以通过使用RL优化的更长CoT来实现相当的性能。然而,较大的模型通常在令牌效率方面优于较小的模型。这也表明,如果目标是最佳性能,扩展较大模型的上下文长度具有更高的上限,并且更具令牌效率。然而,如果测试时间计算有预算,训练较小模型但具有更长上下文长度可能是可行的解决方案。
使用负梯度的效果
我们研究了在我们的设置中使用ReST作为策略优化算法的有效性。ReST与其他基于RL的方法(包括我们的方法)的主要区别在于,ReST通过适合当前模型采样的最佳响应来迭代地完善模型,而不是通过对错误响应施加负梯度来惩罚。如图10所示,我们的方法在样本复杂性方面优于ReST,这表明将负梯度纳入显著提高了模型生成长CoT的效率。我们的方法不仅提高了推理的质量,还优化了训练过程,以较少的训练样本实现了稳健的性能。这一发现表明,在我们的设置中,策略优化算法的选择至关重要,因为ReST与其他基于RL的方法之间的性能差距在其他领域并不明显。因此,我们的结果强调了在生成长CoT时选择适当的优化策略以最大化效果的重要性。
采样策略
我们进一步展示了我们的课程采样策略的有效性,如Section 2.3.4中所介绍的。我们的训练数据集D包含各种难度水平的问题的多样化混合。使用我们的课程采样方法,我们最初使用D进行预热阶段,然后专注于训练模型的难题。这种方法与一个基线方法进行了比较,该基线方法使用均匀采样策略而没有任何课程调整。如图9所示,我们的结果清楚地表明,所提出的课程采样方法显著提高了性能。这种改进可以归因于该方法的能力,通过逐步挑战模型,使其能够发展出更强大的理解和处理复杂问题的能力。通过在初始一般介绍后专注于更困难的问题进行训练,模型可以更好地加强其推理和问题解决能力。
通过这些实验,论文展示了Kimi k1.5在强化学习框架下如何通过有效的训练和优化来提升其性能。希望这些解释能帮助你更好地理解论文的核心内容。
4 Conclusions
在这一部分,作者总结了他们在Kimi k1.5模型的训练和系统设计中的关键见解和贡献。Kimi k1.5是一款最新的多模态大型语言模型(Multi-modal Large Language Model, 多模态大型语言模型),通过强化学习(Reinforcement Learning, RL)进行训练。
首先,作者强调了上下文长度的扩展(Long Context Scaling)对大型语言模型(Large Language Models, LLMs)持续改进的重要性。他们发现,通过优化学习算法和基础设施优化(如部分展开技术,Partial Rollouts),可以实现高效的长上下文强化学习训练。这种方法使得模型能够处理更长的上下文,从而提高其推理能力。然而,如何进一步提高长上下文强化学习训练的效率和可扩展性仍然是一个重要的研究方向。
其次,作者介绍了他们在改进策略优化(Improved Policy Optimization)方面的贡献。具体来说,他们将长连续推理(Long-CoT)的形式化方法应用于大型语言模型,并使用在线镜像下降(Online Mirror Descent)的变体进行稳健的策略优化。此外,他们还尝试了不同的采样策略、长度惩罚和数据配方优化,以实现强大的强化学习性能。
作者还展示了通过长上下文扩展和改进的策略优化,即使不使用更复杂的技术(如蒙特卡罗树搜索、价值函数和过程奖励模型),也可以实现强大的性能。未来,研究如何改进信用分配(Credit Assignments)和减少过度思考(Overthinking),而不影响模型的探索能力,也将是一个有趣的方向。
此外,作者观察到长到短(Long2Short)方法的潜力。这些方法显著提高了短连续推理(Short CoT)模型的性能。更重要的是,可以将长到短方法与长连续推理强化学习结合起来,以迭代的方式进一步提高令牌效率,并从给定的上下文长度预算中提取最佳性能。
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。