AI制裁无效！DeepSeek-R1、DeepSeek-V3和GRPO论文总结

文摘 2025-01-24 11:01 安徽

RL 并不是你所需要的一切：DeepSeek-R1 使用了两次 RL 和两次 SFT。
GRPO 是 PPO 的一个非常棒的变体，每个实验室都应该考虑使用，因为它使用的内存和计算资源远少于传统方法。
推理 heavily 依赖可验证的结果，如数学和编程，这可能无法推广到模糊推理任务，如“这个广告布局比另一个好么？”
强大模型生成的合成数据对帮助启动更好的模型至关重要。OpenAI/Anthropic 和 Google 有这种优势，因为他们可以不受限制地访问最先进的模型并从中提取数据，而你则无法这么做。
蒸馏的 Qwen 和 Llama 模型并未使用 RL，只用了 SFT。
扩展硬推理是否能提升模糊推理是目前 AI 领域的开放性问题！（可能不能，但让我们拭目以待。）

RL 并不是你所需要的一切

许多人说“RL 是你所需要的一切”，但这并不是全部。

为什么？因为他们训练了两个主要模型：

DeepSeek-R1-Zero：只使用 RL，没有 SFT。
DeepSeek-R1：该模型解决了 DeepSeek-R1-Zero 的局限，使用了两次 RL 和两次 SFT。

令人惊讶的是，他们只用 RL 训练了一个模型（类似 AlphaGo 风格），并使其具备了自发推理能力。但该模型也存在一些问题，如 COT（思维链）可读性差和语言混用（可能是中文和英语混合）等。

那么，RL 就是你需要的一切吗？并不是。但是它依然非常令人兴奋，现在其他实验室肯定会复制这一点，我们很快可能会看到一个纯 RL 模型，类似 AlphaGo Zero。

蒸馏模型

他们还发布了几个蒸馏模型（即从更大更聪明的模型中学习的小模型），这些模型基于 Qwen 和 Llama。

这些模型没有使用 RL，它们是纯 SFT 的，主要是因为用完整的 RL 和 SFT 流程训练 5 或 6 个模型成本太高。

训练数据

拥有强大的基准模型来创建合成数据至关重要。这是 OpenAI/Anthropic/Google 相对于其他公司的优势。它们可以访问自己的不受限制、未审查的模型，生成合成数据来启动新模型，并通过服务条款限制你无法这样做。

DeepSeek 也是这么做的。他们使用强大的 DeepSeek-V3 模型创建了以下数据集：

60 万条合成推理数据集
20 万条非推理数据集

非推理数据有助于避免过度思考，并教会模型快速返回答案，例如事实问答回答，而不是浪费时间在简单问题上思考太多。

“我们通过结合额外的数据扩展数据集，其中一些使用生成奖励模型，将真实数据和模型预测输入 DeepSeek-V3 进行判断。此外，因为模型输出有时混乱且难以阅读，我们过滤掉了混合语言的思维链、长段落和代码块。对于每个提示，我们采样多个响应，并仅保留正确的响应。总的来说，我们收集了大约60万条与推理相关的训练样本。”

“对于非推理数据，例如写作、事实问答、自我认知和翻译，我们采用 DeepSeek-V3 流程，并重新使用 DeepSeek-V3 的部分 SFT 数据集。”

对可验证结果的依赖

模型的奖励建模基于准确性和可验证的结果：

数学：最终答案的正确性。
编程：LeetCode 问题、编译生成的代码、在测试用例上运行的代码。

这意味着，如果你想用 RL 教它一些没有可验证结果的内容（比如判断一篇文章好不好，或是这个广告设计是否比另一个更好），那么你就不能真正使用 RL，而这并不好。

任何现在在做 Agent 工作的实验室，如果想用 RL，必须找到一种方式来验证结果。我们实验室正在尝试用图形用户界面上的任务来做到这一点。

但我们希望模型做的许多事情，并不属于可验证的终极状态，比如判断一个广告设计是否比另一个更好，或者一幅马的卡通画是否美观。

专门训练硬推理（如数学/科学/编程）的模型，是否能推广到其他领域的模糊推理中？

这是一个开放的研究问题，也许是目前 AI 领域最重要的一个。

一些 OpenAI 的人员公开表示，模型可以实现这种推广。但也有其他人表示怀疑，我也有同样的疑虑。

我们很快就会看到答案。

GRPO

GRPO 的主要优势在于它使用了极少的内存和计算资源，并且不需要评论模型。

它是如何工作的：

对于每个问题，GRPO 从旧的策略中抽取一组输出样本。
然后，它计算这些样本输出的奖励。优势根据组内的相对奖励来计算。奖励通过减去组平均值并除以组标准差来进行标准化。
GRPO 然后通过最大化一个目标来优化策略模型，该目标使用这些优势。

与 PPO 的主要区别：

没有评论模型：PPO 通常使用评论模型（一个值函数）来估算基准，而 GRPO 省略了评论模型，使用多个样本输出的平均奖励作为基准。这减少了内存和计算负担。
基准计算：PPO 使用广义优势估计（GAE），依赖于学习的值函数和奖励。GRPO 根据每组样本输出的相对奖励来计算优势。
KL 惩罚：PPO 在奖励中加入了来自参考模型的每个 token 的 KL 惩罚。而 GRPO 直接将训练策略和参考策略之间的KL散度加入到损失中。

GRPO的最大优势？

它基本上降低了训练成本。没有评论模型，内存和计算使用量大大减少。GRPO 对 LLM 特别有效，因为值函数可能非常复杂，通常只有最后一个 token 会获得奖励。

GRPO 的组内相对优势计算方式与奖励模型的比较性质非常契合，这些模型通常通过比较同一问题的不同输出进行训练。更好的是，GRPO 可以同时使用结果监督和过程监督。通过结果监督，奖励在输出结束时给出；通过过程监督，奖励则在推理的每一步给出。

最棒的是，GRPO 还可以以迭代方式使用，通过回放机制不断更新奖励模型，并使用新奖励模型训练策略模型。

AI 制裁无效，且永远不会有效

“有些东西并不喜欢墙，想把它推倒。” —— 罗伯特·弗罗斯特

试图阻止中国发展 AGI 是一场注定失败的游戏，成功的机会为0%。

DeepSeek 实验室的大佬已经开发出了更智能的方式，适用于全球所有实验室，因为每个人都希望减少计算和内存的使用。

由于资源有限，他们开发了更智能的分布式训练方法，可以在较慢的 GPU 上进行切分训练。详见 DeepSeek-V3 论文。
他们还开发了 GRPO，一种比 PPO 更节省内存和计算资源的方法。

论文链接：

DeepSeek-R1：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

DeepSeek-V3：https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

GRPO：https://arxiv.org/pdf/2402.03300

PyTorch研习社

打破知识壁垒，做一名知识的传播者

最新文章

结合Neo4j与Milvus的图谱与向量搜索构建GraphRAG Agent

OpenAI o3-mini 干翻了 DeepSeek R1？

探索提升RAG系统问答质量的技术路线

微软CoRAG：提升多步骤问答任务的表现

5种LLM微调策略：动态图示清晰解析

RAG从入门到精通系列6：Retrieval（检索）

深度解析DeepSeek-R1——打造推理型大模型的配方

Model2Vec加速RAG：模型小15倍，速度快500倍：

RAG从入门到精通系列5：Indexing（索引）

RAG从入门到精通系列4：Query Construction（查询构造）

RAG中的5种文档切分策略：动态图示清晰解析

OpenAI发布的Operator是什么？

AI制裁无效！DeepSeek-R1、DeepSeek-V3和GRPO论文总结

Kimi k1.5：与全功率o1性能匹敌的LLM技术分析

DeepSeek-R1发布24小时后，AI行业反应怎么样？

DeepSeek-R1：一款革命性的国产开源推理LLM，挑战OpenAI的高性能模型

Medium上20万次阅读的思维链高级提示付费文章

RAG从入门到精通系列3：Routing（路由）

Agentic RAG实战：LangChain+LangGraph+Docling+ChromaDB

GitHub上41.3k颗星的2025年最新免费LLM课程

传统 RAG vs. Agentic RAG：动态图示清晰解析

吴恩达：AI产品管理的黄金时代已来，未来属于懂技术的PM！

RAG从入门到精通系列2：Query Translation（查询翻译）

OpenAI率先突围：AI自我进化

RAG从入门到精通系列1：基础RAG

LLM应用落地：购买GPU的最佳指南

用LangChain的LLM Graph Transformer解锁构建知识图谱构的新姿势

2025年这7种用于构建Agentic RAG系统的架构不可或缺

CAG能取代RAG吗？别被表面现象迷惑！

增强版o1模型：Search-o1=Agentic搜索+文档内推理机制

8000字文章的AI Agent全解析：工具、规划与失败模式的深度探索

传统的SaaS的将在2025 Agent时代走向终结

NVIDIA CES2025 大会凭什么震撼了整个 AI 领域？

2025如何学习Agent？谷歌重磅发布Agent白皮书

探索AI Agent工作流设计模式：构建智能任务协作的未来

微调提升LLM准确性，SQL查询任务实现从0%到90%准确率的突破！

用基于Qwen-2.5-7B的Code Agent打造本地、开源的Multi-Agent RAG系统

大模型不一定是最优解！小模型更适合企业？

四种腾讯最新的QO技术提高RAG系统的效率和准确性：扩展、分解、消歧、抽象

Graph RAG实战：使用知识图谱和AI检索、筛选和总结医学期刊文章

AGI前夜的思考：从o3到AGI，未来已来（前端可能没未来了）

2025 Agent之年：Anthropic万字文章披露如何构建高效的AI Agent系统

从创意到工作效率，谷歌为你整理了321个生成式AI在多个行业的变革性应用

万万没想到，一家中国量化基金公司年底发布了最强开源LLM：DeepSeek V3

2025年值得入坑AI Agent的五大框架

GPT之父从OpenAI离职！OpenAI“众叛亲离”对AI的发展或许是一件好事

ModernBERT在LLM时代重塑BERT的速度与效能

12天12大突破！OpenAI的创新狂潮，彻底改变未来科技

用 PydanticAI 构建智能体应用：评估驱动开发的新时代

HuggingChat：开源、自由、高效的生成式对话平台

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉