深度学习研究:通过强化学习提升大型语言模型的推理能力
摘要
本文介绍了第一代推理模型:DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一种通过大规模强化学习(RL)训练的模型,它在没有经过监督微调(SFT)的情况下展现了卓越的推理能力。通过RL,DeepSeek-R1-Zero 自然涌现出了许多强大且有趣的推理行为。然而,它也面临一些挑战,如可读性差和语言混杂。为了解决这些问题并进一步提升推理性能,作者引入了 DeepSeek-R1,该模型在RL之前加入了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上达到了与 OpenAI-o1-1217 相当的性能。为了支持研究社区,作者开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 精简得到的六个稠密模型(1.5B、7B、8B、14B、32B、70B)。
主要内容概述
1. 引言
近年来,大型语言模型(LLMs)正在迅速迭代和发展,逐步缩小与通用人工智能(AGI)之间的差距。强化学习后训练已经成为完整训练流程中的重要组成部分。它被证明可以在不需要与预训练相当的计算资源的情况下,增强模型在推理任务上的准确性、符合社会价值观以及适应用户偏好。
2. 方法
作者首先尝试了直接在基模型上应用强化学习,而不依赖于监督微调。这种方法使模型能够探索解决复杂问题的思维链(CoT),从而开发出 DeepSeek-R1-Zero。在训练过程中,DeepSeek-R1-Zero 自然涌现出了许多强大且有趣的推理行为,如自我验证、反思和生成长的思维链。
然而,DeepSeek-R1-Zero 存在一些问题,如可读性差和语言混杂。为了改进这些问题,作者提出了 DeepSeek-R1,它在 RL 之前加入了一小部分冷启动数据和多阶段训练流程,包括:
1. 冷启动:收集少量长思维链数据对基模型进行微调,以提供初始的推理能力。 2. 面向推理的强化学习:在微调后的模型上应用大规模 RL 训练,主要针对数学、编码和逻辑推理等推理密集型任务。 3. 拒绝采样和监督微调:在 RL 训练收敛后,使用模型生成的数据进行拒绝采样,结合其他领域的数据,对模型进行再次微调。 4. 全场景强化学习:在经过多阶段训练后,进一步通过 RL 训练提升模型的有用性和安全性。
3. 实验结果
实验结果表明,DeepSeek-R1 在多个推理基准测试上取得了显著的性能提升。例如:
• 在 AIME 2024 上的 Pass@1 得分为 79.8%,略高于 OpenAI-o1-1217。 • 在 MATH-500 上达到了 97.3% 的得分,与 OpenAI-o1-1217 相当。 • 在编码相关任务中,DeepSeek-R1 在 Codeforces 上达到了专家级水平,超过了 96.3% 的人类参与者。
此外,作者还探索了将 DeepSeek-R1 的推理能力蒸馏到较小的稠密模型中,如基于 Qwen 和 Llama 的模型。结果显示,这些较小的模型在推理基准测试上也取得了优异的表现。
关键要点及分析
1. 纯强化学习提升推理能力
分析:作者证明了在没有任何监督微调数据的情况下,直接对基模型应用大规模强化学习,可以显著提升模型的推理能力。DeepSeek-R1-Zero 展示了模型可以通过自身的学习和探索,自然地涌现出复杂的推理行为,如自我验证和反思。这一发现打破了以往认为需要大量监督数据才能提升模型推理能力的认知,显示了强化学习在培养模型推理能力方面的巨大潜力。
2. 多阶段训练策略
分析:为了进一步提升模型性能并解决 DeepSeek-R1-Zero 存在的问题,作者提出了包含冷启动数据的多阶段训练策略。这种策略包括冷启动的监督微调、面向推理的强化学习、拒绝采样的监督微调以及全场景强化学习。通过这种方法,DeepSeek-R1 不仅在推理性能上达到了先进水平,还在可读性和通用性上取得了显著提升。这表明,多阶段的训练流程可以有效地结合监督学习和强化学习的优势,培养出更强大、更实用的语言模型。
3. 小模型的蒸馏与推广
分析:作者成功地将 DeepSeek-R1 的推理能力蒸馏到了较小的稠密模型中,如 1.5B、7B 等模型。这些模型在推理基准测试上表现出色,甚至在某些任务上超过了大型模型。这一结果具有重要意义,因为它显示了通过蒸馏,大型模型的推理能力可以推广到资源受限的环境中,使得更广泛的研究者和从业者能够受益。
这意味着可以在消费级设备上本地运行能力相当于 o1 的模型了……
在人工智能行业的意义
1. 推进了理解 AI 推理能力的新方法:本文的研究证明了大型语言模型的推理能力可以通过纯强化学习自然涌现,而不依赖大量的监督数据。这为构建具有高级推理能力的 AI 模型提供了新的思路,推动了对 AI 推理机制的理解。 2. 降低了培养高性能模型的门槛:通过将大型模型的推理能力蒸馏到较小的模型中,研究者们可以在计算资源有限的情况下,训练出性能卓越的 AI 模型。这将促进 AI 技术的普及,降低研究和应用的门槛。 3. 提供了可扩展的训练策略:多阶段的训练流程结合了监督学习和强化学习的优势,为业界提供了一种可复制、可扩展的训练方法。这将有助于培养出在不同任务和领域上表现优异的 AI 模型,满足多样化的应用需求。
结论
本文深入研究了通过强化学习提升大型语言模型推理能力的方法。作者首先在没有监督微调的情况下,直接对基模型应用强化学习,得到了具有强大推理能力的 DeepSeek-R1-Zero。随后,作者提出了包含冷启动数据的多阶段训练策略,进一步提升了模型性能,得到的 DeepSeek-R1 在多个基准测试上达到了与先进模型相当的水平。最后,作者成功地将模型的推理能力蒸馏到较小的稠密模型中,为资源受限的环境提供了高性能的解决方案。
这项研究为 AI 领域的发展提供了新的方向和方法,不仅深化了我们对大型语言模型推理能力的理解,也为训练高性能、资源高效的 AI 模型开辟了新的道路。