RL 并不是你所需要的一切:DeepSeek-R1 使用了两次 RL 和两次 SFT。
GRPO 是 PPO 的一个非常棒的变体,每个实验室都应该考虑使用,因为它使用的内存和计算资源远少于传统方法。
推理 heavily 依赖可验证的结果,如数学和编程,这可能无法推广到模糊推理任务,如“这个广告布局比另一个好么?”
强大模型生成的合成数据对帮助启动更好的模型至关重要。OpenAI/Anthropic 和 Google 有这种优势,因为他们可以不受限制地访问最先进的模型并从中提取数据,而你则无法这么做。
蒸馏的 Qwen 和 Llama 模型并未使用 RL,只用了 SFT。
扩展硬推理是否能提升模糊推理是目前 AI 领域的开放性问题!(可能不能,但让我们拭目以待。)
RL 并不是你所需要的一切
许多人说“RL 是你所需要的一切”,但这并不是全部。
为什么?因为他们训练了两个主要模型:
DeepSeek-R1-Zero:只使用 RL,没有 SFT。
DeepSeek-R1:该模型解决了 DeepSeek-R1-Zero 的局限,使用了两次 RL 和两次 SFT。
令人惊讶的是,他们只用 RL 训练了一个模型(类似 AlphaGo 风格),并使其具备了自发推理能力。但该模型也存在一些问题,如 COT(思维链)可读性差和语言混用(可能是中文和英语混合)等。
那么,RL 就是你需要的一切吗?并不是。但是它依然非常令人兴奋,现在其他实验室肯定会复制这一点,我们很快可能会看到一个纯 RL 模型,类似 AlphaGo Zero。
蒸馏模型
他们还发布了几个蒸馏模型(即从更大更聪明的模型中学习的小模型),这些模型基于 Qwen 和 Llama。
这些模型没有使用 RL,它们是纯 SFT 的,主要是因为用完整的 RL 和 SFT 流程训练 5 或 6 个模型成本太高。
训练数据
拥有强大的基准模型来创建合成数据至关重要。这是 OpenAI/Anthropic/Google 相对于其他公司的优势。它们可以访问自己的不受限制、未审查的模型,生成合成数据来启动新模型,并通过服务条款限制你无法这样做。
DeepSeek 也是这么做的。他们使用强大的 DeepSeek-V3 模型创建了以下数据集:
60 万条合成推理数据集
20 万条非推理数据集
非推理数据有助于避免过度思考,并教会模型快速返回答案,例如事实问答回答,而不是浪费时间在简单问题上思考太多。
“我们通过结合额外的数据扩展数据集,其中一些使用生成奖励模型,将真实数据和模型预测输入 DeepSeek-V3 进行判断。此外,因为模型输出有时混乱且难以阅读,我们过滤掉了混合语言的思维链、长段落和代码块。对于每个提示,我们采样多个响应,并仅保留正确的响应。总的来说,我们收集了大约60万条与推理相关的训练样本。”
“对于非推理数据,例如写作、事实问答、自我认知和翻译,我们采用 DeepSeek-V3 流程,并重新使用 DeepSeek-V3 的部分 SFT 数据集。”
对可验证结果的依赖
模型的奖励建模基于准确性和可验证的结果:
数学:最终答案的正确性。
编程:LeetCode 问题、编译生成的代码、在测试用例上运行的代码。
这意味着,如果你想用 RL 教它一些没有可验证结果的内容(比如判断一篇文章好不好,或是这个广告设计是否比另一个更好),那么你就不能真正使用 RL,而这并不好。
任何现在在做 Agent 工作的实验室,如果想用 RL,必须找到一种方式来验证结果。我们实验室正在尝试用图形用户界面上的任务来做到这一点。
但我们希望模型做的许多事情,并不属于可验证的终极状态,比如判断一个广告设计是否比另一个更好,或者一幅马的卡通画是否美观。
专门训练硬推理(如数学/科学/编程)的模型,是否能推广到其他领域的模糊推理中?
这是一个开放的研究问题,也许是目前 AI 领域最重要的一个。
一些 OpenAI 的人员公开表示,模型可以实现这种推广。但也有其他人表示怀疑,我也有同样的疑虑。
我们很快就会看到答案。
GRPO
GRPO 的主要优势在于它使用了极少的内存和计算资源,并且不需要评论模型。
它是如何工作的:
对于每个问题,GRPO 从旧的策略中抽取一组输出样本。
然后,它计算这些样本输出的奖励。优势根据组内的相对奖励来计算。奖励通过减去组平均值并除以组标准差来进行标准化。
GRPO 然后通过最大化一个目标来优化策略模型,该目标使用这些优势。
与 PPO 的主要区别:
没有评论模型:PPO 通常使用评论模型(一个值函数)来估算基准,而 GRPO 省略了评论模型,使用多个样本输出的平均奖励作为基准。这减少了内存和计算负担。
基准计算:PPO 使用广义优势估计(GAE),依赖于学习的值函数和奖励。GRPO 根据每组样本输出的相对奖励来计算优势。
KL 惩罚:PPO 在奖励中加入了来自参考模型的每个 token 的 KL 惩罚。而 GRPO 直接将训练策略和参考策略之间的KL散度加入到损失中。
GRPO的最大优势?
它基本上降低了训练成本。没有评论模型,内存和计算使用量大大减少。GRPO 对 LLM 特别有效,因为值函数可能非常复杂,通常只有最后一个 token 会获得奖励。
GRPO 的组内相对优势计算方式与奖励模型的比较性质非常契合,这些模型通常通过比较同一问题的不同输出进行训练。更好的是,GRPO 可以同时使用结果监督和过程监督。通过结果监督,奖励在输出结束时给出;通过过程监督,奖励则在推理的每一步给出。
最棒的是,GRPO 还可以以迭代方式使用,通过回放机制不断更新奖励模型,并使用新奖励模型训练策略模型。
AI 制裁无效,且永远不会有效
“有些东西并不喜欢墙,想把它推倒。” —— 罗伯特·弗罗斯特
试图阻止中国发展 AGI 是一场注定失败的游戏,成功的机会为0%。
DeepSeek 实验室的大佬已经开发出了更智能的方式,适用于全球所有实验室,因为每个人都希望减少计算和内存的使用。
由于资源有限,他们开发了更智能的分布式训练方法,可以在较慢的 GPU 上进行切分训练。详见 DeepSeek-V3 论文。
他们还开发了 GRPO,一种比 PPO 更节省内存和计算资源的方法。
论文链接:
DeepSeek-R1:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
DeepSeek-V3:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
GRPO:https://arxiv.org/pdf/2402.03300