AI制裁无效!DeepSeek-R1、DeepSeek-V3和GRPO论文总结

文摘   2025-01-24 11:01   安徽  

  • RL 并不是你所需要的一切:DeepSeek-R1 使用了两次 RL 和两次 SFT。

  • GRPO 是 PPO 的一个非常棒的变体,每个实验室都应该考虑使用,因为它使用的内存和计算资源远少于传统方法

  • 推理 heavily 依赖可验证的结果,如数学和编程,这可能无法推广到模糊推理任务,如“这个广告布局比另一个好么?”

  • 强大模型生成的合成数据对帮助启动更好的模型至关重要。OpenAI/Anthropic 和 Google 有这种优势,因为他们可以不受限制地访问最先进的模型并从中提取数据,而你则无法这么做。

  • 蒸馏的 Qwen 和 Llama 模型并未使用 RL,只用了 SFT

  • 扩展硬推理是否能提升模糊推理是目前 AI 领域的开放性问题!(可能不能,但让我们拭目以待。)




RL 并不是你所需要的一切  



许多人说“RL 是你所需要的一切”,但这并不是全部。


为什么?因为他们训练了两个主要模型:

  • DeepSeek-R1-Zero:只使用 RL,没有 SFT。

  • DeepSeek-R1:该模型解决了 DeepSeek-R1-Zero 的局限,使用了两次 RL 和两次 SFT。


令人惊讶的是,他们只用 RL 训练了一个模型(类似 AlphaGo 风格),并使其具备了自发推理能力。但该模型也存在一些问题,如 COT(思维链)可读性差和语言混用(可能是中文和英语混合)等。


那么,RL 就是你需要的一切吗?并不是。但是它依然非常令人兴奋,现在其他实验室肯定会复制这一点,我们很快可能会看到一个纯 RL 模型,类似 AlphaGo Zero。


蒸馏模型  



他们还发布了几个蒸馏模型(即从更大更聪明的模型中学习的小模型),这些模型基于 Qwen 和 Llama。


这些模型没有使用 RL,它们是纯 SFT 的,主要是因为用完整的 RL 和 SFT 流程训练 5 或 6 个模型成本太高。



训练数据  



拥有强大的基准模型来创建合成数据至关重要。这是 OpenAI/Anthropic/Google 相对于其他公司的优势。它们可以访问自己的不受限制、未审查的模型,生成合成数据来启动新模型,并通过服务条款限制你无法这样做。


DeepSeek 也是这么做的。他们使用强大的 DeepSeek-V3 模型创建了以下数据集:

  • 60 万条合成推理数据集

  • 20 万条非推理数据集


非推理数据有助于避免过度思考,并教会模型快速返回答案,例如事实问答回答,而不是浪费时间在简单问题上思考太多。


“我们通过结合额外的数据扩展数据集,其中一些使用生成奖励模型,将真实数据和模型预测输入 DeepSeek-V3 进行判断。此外,因为模型输出有时混乱且难以阅读,我们过滤掉了混合语言的思维链、长段落和代码块。对于每个提示,我们采样多个响应,并仅保留正确的响应。总的来说,我们收集了大约60万条与推理相关的训练样本。”


“对于非推理数据,例如写作、事实问答、自我认知和翻译,我们采用 DeepSeek-V3 流程,并重新使用 DeepSeek-V3 的部分 SFT 数据集。”



对可验证结果的依赖  



模型的奖励建模基于准确性和可验证的结果:

  • 数学:最终答案的正确性。

  • 编程:LeetCode 问题、编译生成的代码、在测试用例上运行的代码。


这意味着,如果你想用 RL 教它一些没有可验证结果的内容(比如判断一篇文章好不好,或是这个广告设计是否比另一个更好),那么你就不能真正使用 RL,而这并不好。


任何现在在做 Agent 工作的实验室,如果想用 RL,必须找到一种方式来验证结果。我们实验室正在尝试用图形用户界面上的任务来做到这一点。


但我们希望模型做的许多事情,并不属于可验证的终极状态,比如判断一个广告设计是否比另一个更好,或者一幅马的卡通画是否美观。


专门训练硬推理(如数学/科学/编程)的模型,是否能推广到其他领域的模糊推理中?


这是一个开放的研究问题,也许是目前 AI 领域最重要的一个。


一些 OpenAI 的人员公开表示,模型可以实现这种推广。但也有其他人表示怀疑,我也有同样的疑虑。


我们很快就会看到答案。




GRPO  



GRPO 的主要优势在于它使用了极少的内存和计算资源,并且不需要评论模型。


它是如何工作的:

  • 对于每个问题,GRPO 从旧的策略中抽取一组输出样本。

  • 然后,它计算这些样本输出的奖励。优势根据组内的相对奖励来计算。奖励通过减去组平均值并除以组标准差来进行标准化。

  • GRPO 然后通过最大化一个目标来优化策略模型,该目标使用这些优势。


与 PPO 的主要区别:

  • 没有评论模型:PPO 通常使用评论模型(一个值函数)来估算基准,而 GRPO 省略了评论模型,使用多个样本输出的平均奖励作为基准。这减少了内存和计算负担。

  • 基准计算:PPO 使用广义优势估计(GAE),依赖于学习的值函数和奖励。GRPO 根据每组样本输出的相对奖励来计算优势。

  • KL 惩罚:PPO 在奖励中加入了来自参考模型的每个 token 的 KL 惩罚。而 GRPO 直接将训练策略和参考策略之间的KL散度加入到损失中。


GRPO的最大优势?

它基本上降低了训练成本。没有评论模型,内存和计算使用量大大减少。GRPO 对 LLM 特别有效,因为值函数可能非常复杂,通常只有最后一个 token 会获得奖励。

GRPO 的组内相对优势计算方式与奖励模型的比较性质非常契合,这些模型通常通过比较同一问题的不同输出进行训练。更好的是,GRPO 可以同时使用结果监督和过程监督。通过结果监督,奖励在输出结束时给出;通过过程监督,奖励则在推理的每一步给出。


最棒的是,GRPO 还可以以迭代方式使用,通过回放机制不断更新奖励模型,并使用新奖励模型训练策略模型。



AI 制裁无效,且永远不会有效  



有些东西并不喜欢墙,想把它推倒。” —— 罗伯特·弗罗斯特


试图阻止中国发展 AGI 是一场注定失败的游戏,成功的机会为0%


DeepSeek 实验室的大佬已经开发出了更智能的方式,适用于全球所有实验室,因为每个人都希望减少计算和内存的使用。

  • 由于资源有限,他们开发了更智能的分布式训练方法,可以在较慢的 GPU 上进行切分训练。详见 DeepSeek-V3 论文。

  • 他们还开发了 GRPO,一种比 PPO 更节省内存和计算资源的方法。



论文链接:

DeepSeek-R1:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

DeepSeek-V3:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

GRPO:https://arxiv.org/pdf/2402.03300





PyTorch研习社
打破知识壁垒,做一名知识的传播者
 最新文章