原文地址: Phil Schmid 博客
发布时间: 2025 年 1 月 17 日
DeepSeek AI 推出了 DeepSeek-R1 模型,一款在复杂推理任务中可与 OpenAI 的 o1 模型竞争的开源模型。其关键创新在于引入了 群体相对策略优化(Group Relative Policy Optimization, GRPO) 和基于强化学习的多阶段训练方法。
群体相对策略优化(GRPO)详解
群体相对策略优化(GRPO) 是一种旨在提升大语言模型(LLM)推理能力的强化学习算法,最早在 DeepSeekMath 论文 中被提出,用于数学推理任务。相比传统的 近端策略优化(Proximal Policy Optimization, PPO),GRPO 不需要价值函数模型,而是通过群体评分来估算基准,从而降低了内存使用和计算开销。这种方法目前也被 Qwen 团队采用,可用于规则/二元奖励以及通用奖励模型,以提升模型的有用性。
GRPO 的主要步骤如下:
采样:使用当前策略为每个提示生成多个输出。
奖励评分:使用奖励函数对每个生成结果进行评分(可以是基于规则或结果的)。
优势计算:以生成输出的平均奖励为基准,计算每个解决方案相对于该基准的优势,并在群 体内进行奖励归一化。
策略优化:通过最大化 GRPO 目标函数来优化策略,该函数包含计算出的优势值和 KL 散度项(不同于 PPO 中将 KL 散度项直接嵌入奖励信号)。
GRPO 与 PPO 的关键区别:
无价值函数:GRPO 不依赖独立的价值函数模型,从而简化了训练过程并降低内存消耗。
基于群体的优势计算:GRPO 以群体输出的平均奖励作为基准,这更契合奖励模型的训练需求,因后者通常需要针对单个输入生成多个输出。
KL 散度直接优化:GRPO 将 KL 散度项直接加入损失函数,而 PPO 则将其作为奖励信号的一部分。
纯强化学习阶段(R1-zero)
在构建 DeepSeek R1 的过程中,团队通过在基础模型上实验强化学习,积累了丰富经验。从 DeepSeek V3 模型开始,团队将 GRPO 应用于无监督推理文本补全任务,并设计了基于规则的奖励模型,主要关注以下方面:
准确性奖励:评估模型响应的正确性,例如是否返回正确结果或成功通过 LeetCode 问题的编译。
格式奖励:确保模型将推理过程格式化在标记对(如
‘’
)内。
这种训练方法将 AIME 2024 测试集上的 pass@1 得分 从 15.6% 提升至 71.0%,达到与 OpenAI o1-0912 相当的性能水平。同时,输出的每道题的平均生成 Token 数增加,表明模型自然学会在推理任务中增加思考时间或生成更多 Token。
尽管如此,这种方法初期会导致生成内容的可读性较差以及语言混杂问题,但最终通过多阶段训练方法(交替进行监督微调和强化学习)得以解决。
DeepSeek R1 的多阶段训练方法
为解决基础模型强化学习冷启动不稳定的问题,团队采用了以下 四阶段训练流程。
第一阶段:基础模型到监督微调(SFT)
收集了长度可达 10k Token 的链式推理(CoT)数据,数据来源包括 R1-zero 模型和人工标注样本。这些数据被用于微调 DeepSeek V3 基础模型,从而提升其可读性和连贯性。
第二阶段:推理任务的强化学习(RL)
使用与 R1-zero 相同的强化学习管道,专注于数学和编程等推理密集型任务,并采用相同的基于规则的奖励模型。此外,增加了“语言一致性”奖励,帮助模型保持输出语言的一致性。
第三阶段:拒绝采样与 SFT
利用拒绝采样(Reject Sampling, RS)生成了大量合成数据集,专注于写作、角色扮演等通用任务。使用第二阶段训练的模型和 DeepSeek V3 作为裁判,生成了约 60 万条推理相关数据 和 20 万条通用任务数据。这些数据包括原有的 DeepSeek-V3 SFT 数据集以及附带 CoT 的重新生成数据。
第四阶段:提高模型有用性的强化学习
在最后阶段,结合基于规则和结果的奖励模型,再次使用 GRPO 优化模型,提升其有用性和安全性,最终形成了 DeepSeek R1 模型。
意外发现
DeepSeek 团队未使用蒙特卡洛树搜索(MCTS)或过程奖励模型(PRM)。
在使用 GRPO 前先进行微调,可以显著加快训练过程并提高稳定性。
针对准确性和格式设计的基于规则的奖励模型,效果优于复杂奖励模型。
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!