首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

DeepSeek-R1：通过强化学习激励LLMs的推理能力

文摘 2025-01-29 10:00 山西

这篇论文可谓是AI界又一个核弹，它报告了一个有趣的现象：

只依靠强化学习（RL）对基础模型进行调整，而无需依赖监督微调 (SFT) 即可让大模型获得解决复杂问题的推理思能力！

此前OpenAI-o1依靠强大的推理能力引爆大模型，又开始了大模型的新一阶段领跑。但是官方并没有给出它的背后技术实现思路，各路大神开始自发探索这种大模型的推理能力背后技术细节。

包括基于过程的奖励模型、强化学习以及蒙特卡洛树搜索和束搜索等搜索算法，但这些方法均未能达到与OpenAI的o1系列模型相当的通用推理性能。

多数人怀疑的一点是它背后根本没有所谓创新魔法，背后只是在大模型的基础上使用了链式思维的工具。

deepseek团队又开始押注，他们认为大模型有着非常巨大的潜力，对于推理能力概不例外，只需通过最原始的RL就能够激发出模型本身的推理能力。

幸运女神也似乎偏向了deepseek，团队使用 DeepSeek-V3-Base 作为基础模型，并使用 GRPO 作为强化学习框架来提升模型的推理性能。在训练过程中，DeepSeek-R1-Zero 自然而然地涌现出了许多强大而有趣的推理行为！

这发现，简直就像是发现了一块新大陆！

这其中的细节究竟是如何的？下面一起来看一看！！

此前的工程界的受OpenAI的影响，普遍的直觉和做法是依赖大量监督数据来提高模型性能，这种训练方式的成本和复杂度是很高的。

deepseek要干掉这种“贵族”训练方式，首要的任务是验证一个猜测：

使用纯RL就可以提高模型的推理能力！

DeepSeek-R1-Zero

因此，deepseek的第一个阶段主要是攻克这个问题，此阶段的模型是DeepSeek-R1-Zero：它探索了 LLM在没有任何监督数据的情况下开发推理能力的潜力，重点关注它们通过纯强化学习过程进行自我进化。

强化学习算法

既然要依靠强化学习算法来训练模型的推理能力，首先是强化学习算法的选择。deepseek使用了群体稳健偏好优化（GRPO，Group Robust Preference Optimization：https://arxiv.org/abs/2405.20304）。

GRPO 通过同时优化一组策略的相对表现，而不是单独优化每一个策略。它的核心理念是通过分析一个策略相对于其他策略的表现，来提高最优策略的学习过程。

这样可以避免单一策略优化可能出现的局部最优解问题，并且通过群体内的竞争或协作，提高学习的全局效率，并且由此降低强化学习的难度和成本。

奖励模型

奖励是训练信号的来源，决定了强化学习的优化方向。deepseek采用了基于规则的奖励系统，该系统主要包含两种类型的奖励：

准确度奖励：准确度奖励模型评估响应是否正确。例如，在具有确定性结果的数学问题的情况下，要求模型以指定的格式（例如，在xx约束下）提供最终答案，从而实现可靠的基于规则的正确性验证。

格式奖励：除了准确性奖励模型之外，deepseek还采用了格式奖励模型，强制模型将其思考过程置于“<think>”和“</think>”标签之间。

注意，在开发 DeepSeek-R1-Zero 时，deepseek没有应用结果或过程神经奖励模型，因为他们发现神经奖励模型在大规模强化学习过程中可能会受到奖励黑客攻击，并且重新训练奖励模型需要额外的训练资源，并且使整个训练流程变得复杂。

训练模板

deepseek设计了一个简单的模板，指导基础模型遵指定的推理指令，模板内容如下：

此模板要求 DeepSeek-R1-Zero 首先生成一个推理过程，然后给出最终答案。

可以看到，这个模板让大模型把思考过程和最终的答案都输出到了指定的标签中。这种格式有利于训练过程中对于模型基于纯粹的RL的推理能力进化的过程观测。

deepseek的自我进化过程

如图所示，DeepSeek-R1-Zero 的思考时间在整个训练过程中呈现持续改善。这种改善不是外部调整的结果，而是模型内部的自然发展进化的结果。

DeepSeek-R1-Zero 通过利用延长的测试时间计算，自然获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理 token，使模型能够更深入地探索和完善其思维过程。

这种自我进化最引人注目的方面之一是，随着测试时间计算的增加，复杂的行为也随之出现。诸如反思（模型重新审视并重新评估其先前的步骤）和探索解决问题的替代方法等行为都是自发产生的。

这些行为不是明确编程的，而是模型与强化学习环境交互的结果。这种自发发展显著增强了 DeepSeek-R1-Zero 的推理能力，使其能够以更高的效率和准确性应对更具挑战性的任务。

至此，DeepSeek-R1-Zero 已经完成了它的既定目标，可以说deepseek R系列的目标已经进度完成一半以上，只剩下一些待续解决的缺陷，比如可读性差和语言混合等挑战，然后就是进一步的优化任务。

DeepSeek-R1

这是第二阶段，首先，第一阶段通过单纯的RL就展现了足够强大的推理能力，那么如果通过在训练启动阶段再加入少量精心制作的长 CoT 数据是否可以进一步提高这种个推理能力呢？

冷启动微调

微调的样本包括可读格式收集 DeepSeek-R1-Zero 输出，并通过人工注释者的后期处理来完善结果。

注意这个阶段的训练不是以DeepSeek-R1-Zero为基础的，而是用收集了数千个冷启动数据来微调 DeepSeek-V3-Base 作为 RL 的基础。

这解决了DeepSeek-R1-Zero的问题：

DeepSeek-R1-Zero 的一个关键限制是其内容通常不适合阅读。响应可能混合多种语言或缺乏 markdown 格式来为用户突出显示答案。

相比之下，在为 DeepSeek-R1 创建冷启动数据时，设计了一种可读模式，在每个响应的末尾包含一个摘要，并过滤掉不易于阅读的响应。

另外，通过精心设计冷启动数据模式，结合人类先验知识，deepseek察觉到到其性能优于 DeepSeek-R1-Zero。

面向推理的RL

在冷启动数据上对 DeepSeek-V3-Base 进行微调后，接着采用与 DeepSeek-R1-Zero 相同的大规模强化学习训练流程。

此阶段主要提升模型的推理能力，特别是在编码、数学、科学和逻辑推理等推理密集型任务中，这些任务涉及定义明确且解决方案明确的问题。

为了缓解语言混合的问题，在 RL 训练中引入了语言一致性奖励，其计算方式为 CoT 中目标语言单词的比例。

虽然消融实验表明这种对齐会导致模型性能略有下降，但这种奖励符合人类的偏好，使其更具可读性。最后，将推理任务的准确率和语言一致性的奖励直接相加，形成最终奖励。

有监督微调

当以推理为导向的强化学习收敛时，会利用生成的 checkpoint 来收集 SFT（监督微调）数据，以供下一轮训练使用。

与主要侧重于推理的初始冷启动数据不同，此阶段会整合来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务中的能力（避免拟合到推理能力）。

这个阶段的数据包括两种：

对于推理数据，通过从上述强化学习训练的检查点进行拒绝抽样来整理推理提示并生成推理链数据。

在上一阶段，仅包含可以使用基于规则的奖励进行评估的数据。但是，在此阶段，通过合并其他数据来扩展数据集，其中一些数据使用生成奖励模型，将基本事实和模型预测输入 DeepSeek-V3 进行判断。

此外，由于模型输出有时混乱且难以阅读，还过滤掉了混合语言、长段落和代码块的思路链。

对于非推理数据，例如写作、事实问答、自我认知和翻译，采用 DeepSeek-V3 流程并重用 DeepSeek-V3 的部分 SFT 数据集。对于某些非推理任务，会调用 DeepSeek-V3 生成潜在的思路链，然后再通过提示回答问题。

全场景的强化学习

为了使模型与人类偏好进一步保持一致，实施了二级强化学习阶段，旨在提高模型的有用性和无害性，同时完善其泛化的推理能力。

具体来说，使用奖励信号和各种提示分布的组合来训练模型。对于推理数据，遵循 DeepSeek-R1-Zero 中概述的方法，该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。

对于一般数据，采用奖励模型来捕捉复杂而微妙场景中的人类偏好。以 DeepSeek-V3 管道为基础，采用类似的preference pair 和train prompts。

对于实用性，专注于最终摘要，确保评估强调响应对用户的实用性和相关性，同时最大限度地减少对底层推理过程的干扰。

总结一下DeepSeek-R1的整体训练思路：

两阶段进化路径：从纯RL验证（R1-Zero）到监督增强（R1）

混合奖励系统：规则奖励（确定性任务）+神经奖励模型（复杂场景）

自生成数据循环：通过RL检查点生成SFT数据，形成持续优化闭环

可读性保障机制：语言一致性奖励+人工修正模板设计

2025，注定又是AI 又是波澜壮阔的一年！

读书，摄影，随笔

最新文章

我不明白，为什么我可以心安理得用AI写代码，却倔着不用它写文章

潮水来信——致《龙族III》未抵达的黎明

DeepSeek-R1：通过强化学习激励LLMs的推理能力

DeepSeek是AI工程学的巅峰

今天避雷针，明天又是大跌？

明天会议超重磅？节前节后怎么看

精通LangGraph-多agent-01

精通LangGraph-多agent-02

精通LangGraph-多agent-03

精通LangGraph-状态管理-01

精通LangGraph-状态管理-02

精通LangGraph-Tools call-05

精通LangGraph-Tools call-06

精通LangGraph-Tools call-03

精通LangGraph-Tools call-04

精通LangGraph-Tools call-01

精通LangGraph-Tools call-02

精通LangGraph-子图

精通LangGraph-Stream

精通LangGraph-人机交互

精通LangGraph-Time Travel ⏱️

精通LangGraph-Memory

精通LangGraph-可控性02

精通LangGraph-可控性03

精通LangGraph-持久化

精通LangGraph-可控性01

基于SQL数据库构建问答系统

Langchain构建ChatBot

Langchain-RAG入门4

过去的2024年，感谢李沐老师

Langchain-RAG入门3

Langchain-RAG入门2

Langchain-RAG入门1

微调实战项目-02

微调实战项目-01

Mac Mini部署大模型实测

AutoDL+vllm部署Qwen2.5-7b

超越transformer？：Neural circuit policies（秀丽隐杆线虫仿生网络）

房产绝对不可能立马退出经济机制，也不可能重回巅峰时期

寻求“快乐”是一种病态主义

《寻找斯宾诺莎》摘录：抑制激情，要靠理性所引导的情绪，而非纯粹的理智。

失眠由何而来？如何解决它？

当你还有手有脚的时候，教唆孩子“流浪猫脏得很，离它远远的”，就别怪孩子以后也这样对生活无法自理的你

芒格：经历过三次房地产衰退期，就算我们再笨，也应该明白了，降价是没用的

曾国藩和芒格，跨越时空的人生理念：尽人事，听天命

曾国藩和芒格，跨越时空的人生理念：任事者当置身利害之外，建言者当设身利害之中

《经济学的思维方式》：经济学不研究为何大多数人为何穷，而研究那些少部分人是如何致富的

《经济学的思维方式》: 仅仅依靠分工和交换就能创造财富的魔法是怎么回事？

《经济学的思维方式》:创造财富不止物质生产一种办法

《经济学的思维方式》：经济系统是由“游戏规则”塑造的

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉