深度解析DeepSeek-R1——打造推理型大模型的配方

文摘 2025-01-29 11:14 安徽

DeepSeek-R1 是 AI 发展浪潮中最新的一记响亮鼓点。对于机器学习研发社区来说，它的发布意义重大，主要原因包括：

它是一个开源权重模型，并提供了更小的蒸馏版本；
它分享并探讨了一种训练方法，可用于复现类似 OpenAI O1 的推理模型。

在本文中，我们将深入探讨 DeepSeek-R1 的构建过程。

本文目录：

回顾：LLM 训练流程

DeepSeek-R1 训练配方

长链推理的 SFT 数据
一个中间产出的高质量推理 LLM（但在非推理任务上表现较差）
利用大规模强化学习（RL）打造推理模型

3.1 面向推理的大规模强化学习（R1-Zero）
3.2 使用中间推理模型创建 SFT 训练数据
3.3 通用 RL 训练阶段

架构

LLM 是如何训练的

与大多数现有的 LLM 类似，DeepSeek-R1 也是一次生成一个 token。但它在数学和推理任务上表现尤为出色，因为它能够通过生成“思维 token”来解释其推理链，从而花费更多时间处理问题。

下图展示了构建高质量 LLM 的一般流程，通常包含以下三个步骤：

语言建模（Language Modeling）
这一阶段，模型通过大规模的互联网数据进行训练，以预测下一个词。这个过程会产出一个基础模型（Base Model）。
监督微调（Supervised Fine-Tuning, SFT）
通过人工标注的数据对模型进行微调，使其更擅长遵循指令并回答问题。这个阶段会得到一个指令微调模型（Instruction-Tuned Model），也称为 SFT 模型。
偏好调整（Preference Tuning）
进一步优化模型行为，使其更符合人类偏好，从而获得最终的偏好调整 LLM（Preference-Tuned LLM），即你在各种 AI 应用和测试环境中与之交互的模型。

DeepSeek-R1 依照这一框架进行训练，并在推理能力上进行了特别优化。

DeepSeek-R1 训练配方

DeepSeek-R1 遵循了上述通用训练流程。其第一阶段的细节来源于先前的 DeepSeek-V3 论文：

https://arxiv.org/pdf/2412.19437v1

R1 使用了该论文中的基础模型（而非最终的 DeepSeek-V3 模型），并继续进行 SFT（监督微调）和偏好调整训练。但 R1 在这些阶段的方法上有所不同，这正是它的特别之处。

在 R1 的训练过程中，有三个关键点值得特别关注。

1. 长链推理的 SFT 训练数据

R1 训练过程中使用了 60 万个 长链推理（Chain-of-Thought, CoT）示例。这类高质量的推理数据极为稀缺，并且大规模人工标注的成本极高。因此，如何构造这些数据集，成为 R1 的第二个关键点。

2. 一个高质量的推理 LLM（但在非推理任务上表现较差）

这些推理数据由 R1 训练前的一个“前身模型”生成。该模型未被正式命名，专注于推理能力，其灵感来源于另一个模型 R1-Zero（稍后会详细介绍）。

尽管这个模型并不适合作为通用 LLM 使用，但它的特殊之处在于：它仅依靠极少量标注数据，加上大规模强化学习（RL），便能在推理任务上表现卓越。

最终，我们可以利用该推理专家模型的输出，来训练一个更通用的 LLM，使其在非推理任务上也达到用户预期的水平。

3. 通过大规模强化学习（RL）构建推理模型

这个过程分为两个步骤：

3.1 面向推理的大规模强化学习（R1-Zero）

在这个阶段，R1-Zero 通过强化学习（RL）直接从预训练的基础模型进化，而不依赖 SFT 训练集。最终，它的推理能力可媲美 OpenAI o1。

这一突破具有重要意义，因为传统 LLM 依赖大规模标注数据，而 R1-Zero 证明了：

现代基础模型已经达到了足够高的质量门槛（R1-Zero 训练时使用了 14.8 万亿高质量 token）。
推理任务不同于一般聊天或写作任务，它可以被自动验证，不需要大量人工标注。

例如，在 RL 训练阶段，我们可以让模型完成如下任务：
“编写一个 Python 程序，对列表进行排序，并在开头添加 42。”

这样的问题可以通过自动化方式进行验证：

代码是否符合 Python 语法？（代码检查工具可自动检测）
代码能否正确运行？（执行代码验证）
代码是否满足题目要求？（自动化单元测试）
是否有更高效的实现？（比较运行效率）

在 RL 训练过程中，模型会生成多种可能的答案，我们可以自动筛选出最佳答案，并用于优化模型。这些奖励信号（Reward Signals）推动模型在不断迭代中提升推理能力。

然而，尽管 R1-Zero 在推理任务上表现卓越，它仍然存在可用性问题，例如：

可读性差（生成的文本难以理解）
语言混杂（在不同语言之间切换不稳定）

我们可以在训练步骤中向模型提出这样的问题，并生成多种可能的解决方案。

我们可以自动检查（无需人工干预）并发现第一个补全甚至不是代码。第二个补全确实是 Python 代码，但并没有解决问题。第三个补全是一个可能的解决方案，但未通过单元测试，第四个补全是一个正确的解决方案。

这些都是可以直接用于改进模型的信号。这当然是通过许多示例（小批量）和连续的训练步骤来完成的。

这些奖励信号和模型更新是模型在 RL 训练过程中不断改进任务的方式，如论文中的图 2 所示。

与这种能力的提升相对应的是生成响应的长度，其中模型生成更多的思考标记来处理问题。

R1 的目标是构建一个更易用的推理模型，因此 R1-Zero 主要用于两个方面：

训练一个中间推理模型，用于生成 SFT 训练数据；
训练最终的 R1 模型，使其在推理和非推理任务上均能表现良好（使用其他类型的验证机制）。

3.2 通过中间推理模型创建 SFT 训练数据

为了使中间推理模型更加稳定，它先经过 SFT 训练，使用了几千个推理问题作为初始数据（其中部分数据来自 R1-Zero）。论文中称之为 “冷启动数据（Cold Start Data）”。

冷启动（Cold Start）

与 R1-Zero 不同，DeepSeek-R1 通过 SFT 进行冷启动，以避免 RL 训练初期的不稳定性。该数据集由多种方法构建，包括：

Few-shot Prompting：利用长链推理示例，引导模型生成答案；
直接提示模型生成详细回答，并进行反思与验证；
收集 R1-Zero 生成的结果，并通过后处理优化可读性；
人工审核，进一步完善数据质量。

但问题在于，虽然这些冷启动数据可行，但规模仍然太小（大约 5000 条）。而 R1 需要 60 万条推理数据！因此，我们使用中间推理模型合成更多训练数据，填补这一空白。

如果你不熟悉 SFT（监督微调），它的核心是向模型提供“提示（Prompt）+ 正确答案（Completion）”的训练样本。

3.3 通用 RL 训练阶段

最终，R1 通过 RL 训练，使其在推理任务和非推理任务上均能表现出色。
与前述 RL 训练不同的是：

这次训练不仅涉及推理任务，还包括更广泛的应用场景；
它引入了“有用性（Helpfulness）”和“安全性（Safety）”奖励模型，类似于 Llama 模型，以提升模型在这些方面的表现。

模型架构（Architecture）

与 GPT-2、GPT-3 等早期模型类似，DeepSeek-R1 采用 Transformer 解码器（Decoder）架构，但有以下特殊之处：

共 61 层 Transformer 块；
前三层是全连接（Dense）层，其余部分是专家混合（MoE）层。

就模型尺寸大小和其他超参数而言，它们看起来像这样：

R1 的详细超参数和模型结构在以下两篇论文中介绍：

https://arxiv.org/pdf/2412.19437v1
https://arxiv.org/pdf/2401.06066

对澳大利亚劳动者的立法保护

通过本文，你应该已经掌握了 DeepSeek-R1 的核心训练方法：

它首先训练了一个 推理专家模型（R1-Zero），无需 SFT 训练集，即可在推理任务上表现出色；
它利用 R1-Zero 训练出一个 中间推理模型，用于生成 60 万条 SFT 训练数据；
最终，DeepSeek-R1 结合 强化学习（RL）、监督微调（SFT）和偏好调整，在推理和非推理任务上都达到了强大性能。

这一训练框架不仅增强了 R1 的推理能力，也提供了一种低成本构建高质量推理 LLM 的新思路。

查阅此前文章：

万万没想到，一家中国量化基金公司年底发布了最强开源LLM：DeepSeek V3

DeepSeek-R1：一款革命性的国产开源推理LLM，挑战OpenAI的高性能模型

DeepSeek-R1发布24小时后，AI行业反应怎么样？

AI制裁无效！DeepSeek-R1、DeepSeek-V3和GRPO论文总结

文章来源：PyTorch研习社

PyTorch研习社

打破知识壁垒，做一名知识的传播者

最新文章

结合Neo4j与Milvus的图谱与向量搜索构建GraphRAG Agent

OpenAI o3-mini 干翻了 DeepSeek R1？

探索提升RAG系统问答质量的技术路线

微软CoRAG：提升多步骤问答任务的表现

5种LLM微调策略：动态图示清晰解析

RAG从入门到精通系列6：Retrieval（检索）

深度解析DeepSeek-R1——打造推理型大模型的配方

Model2Vec加速RAG：模型小15倍，速度快500倍：

RAG从入门到精通系列5：Indexing（索引）

RAG从入门到精通系列4：Query Construction（查询构造）

RAG中的5种文档切分策略：动态图示清晰解析

OpenAI发布的Operator是什么？

AI制裁无效！DeepSeek-R1、DeepSeek-V3和GRPO论文总结

Kimi k1.5：与全功率o1性能匹敌的LLM技术分析

DeepSeek-R1发布24小时后，AI行业反应怎么样？

DeepSeek-R1：一款革命性的国产开源推理LLM，挑战OpenAI的高性能模型

Medium上20万次阅读的思维链高级提示付费文章

RAG从入门到精通系列3：Routing（路由）

Agentic RAG实战：LangChain+LangGraph+Docling+ChromaDB

GitHub上41.3k颗星的2025年最新免费LLM课程

传统 RAG vs. Agentic RAG：动态图示清晰解析

吴恩达：AI产品管理的黄金时代已来，未来属于懂技术的PM！

RAG从入门到精通系列2：Query Translation（查询翻译）

OpenAI率先突围：AI自我进化

RAG从入门到精通系列1：基础RAG

LLM应用落地：购买GPU的最佳指南

用LangChain的LLM Graph Transformer解锁构建知识图谱构的新姿势

2025年这7种用于构建Agentic RAG系统的架构不可或缺

CAG能取代RAG吗？别被表面现象迷惑！

增强版o1模型：Search-o1=Agentic搜索+文档内推理机制

8000字文章的AI Agent全解析：工具、规划与失败模式的深度探索

传统的SaaS的将在2025 Agent时代走向终结

NVIDIA CES2025 大会凭什么震撼了整个 AI 领域？

2025如何学习Agent？谷歌重磅发布Agent白皮书

探索AI Agent工作流设计模式：构建智能任务协作的未来

微调提升LLM准确性，SQL查询任务实现从0%到90%准确率的突破！

用基于Qwen-2.5-7B的Code Agent打造本地、开源的Multi-Agent RAG系统

大模型不一定是最优解！小模型更适合企业？

四种腾讯最新的QO技术提高RAG系统的效率和准确性：扩展、分解、消歧、抽象

Graph RAG实战：使用知识图谱和AI检索、筛选和总结医学期刊文章

AGI前夜的思考：从o3到AGI，未来已来（前端可能没未来了）

2025 Agent之年：Anthropic万字文章披露如何构建高效的AI Agent系统

从创意到工作效率，谷歌为你整理了321个生成式AI在多个行业的变革性应用

万万没想到，一家中国量化基金公司年底发布了最强开源LLM：DeepSeek V3

2025年值得入坑AI Agent的五大框架

GPT之父从OpenAI离职！OpenAI“众叛亲离”对AI的发展或许是一件好事

ModernBERT在LLM时代重塑BERT的速度与效能

12天12大突破！OpenAI的创新狂潮，彻底改变未来科技

用 PydanticAI 构建智能体应用：评估驱动开发的新时代

HuggingChat：开源、自由、高效的生成式对话平台

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉