全新推理模型 DeepSeek-R1 问世，全面对标 OpenAI o1

2025-01-21 16:23 上海

DeepSeek-R1强势来袭

2025年注定是AI大爆发的一年。就在昨天，深度求索发布了全新的推理模型——DeepSeek-R1，全面对标 OpenAI 的 o1 模型。DeepSeek-R1 遵循 MIT License 协议，这意味着用户可以自由使用模型，并通过蒸馏技术利用 R1 训练其他模型。此外，DeepSeek 还上线了 R1 的 API，用户在调用时只需设置model='deepseek-reasoner'，即可轻松体验其强大的推理功能。从各个高难度benchmark结果来看，DeepSeek-R1已经比肩OpenAI-o1-1217，妥妥的第一梯队推理模型。同时蒸馏Qwen2.5-32B而来的DeepSeek-R1-32B也取得非常惊艳的效果，和OpenAI-o1-mini旗鼓相当。

训练方法

DeepSeek-R1 的训练方法与传统的 SFT+RL 方式不同。深度求索发现，即使不使用监督微调（SFT），也可以通过大规模强化学习（RL）显著提高推理能力。DeepSeek-R1 的训练过程分为以下几个阶段：

DeepSeek-R1-Zero：

算法：采用 Group Relative Policy Optimization（GRPO）算法进行强化学习。

奖励机制：结合准确性奖励和格式奖励，指导模型的学习。准确性奖励评估模型生成的响应是否正确，对于数学问题匹配标准答案，对于代码问题基于编译执行单测进行验证。格式奖励则确保推理过程以标准 <think> 标签包裹。

性能表现：在 AIME 2024 等任务上，达到了与 OpenAI-o1-0912 相当的水平。

DeepSeek-R1：

冷启动数据：通过少量高质量数据进行微调，提升模型的可读性和推理能力。使用 few-shot 提示，直接提示 DeepSeek-R1-Zero 通过反思和验证生成详细答案，再通过人工注释者的后处理来细化结果。

面向推理的强化学习：继续针对推理任务进行强化学习，增加语言一致性奖励，解决语言混杂问题。

拒绝采样与监督微调：通过拒绝采样生成新的 SFT 数据，提升模型的通用能力。推理数据采用拒绝采样方式从前一阶段得到的模型生成推理过程，同时引入无法用规则进行奖励的数据。非推理数据使用 DeepSeek-V3 生成，共计80万样本。

面向全场景的强化学习：为了平衡推理能力和通用能力，最后再进行一次 RL。对于不同的数据类型，采用不同的 prompt 和奖励。对推理数据使用基于规则的奖励，对通用数据使用通用的 RM 来进行奖励。

蒸馏技术

深度求索团队进一步探索了将 R1 的推理能力蒸馏到更小的模型中的可能性。利用 R1 生成的数据，对 Qwen 和 Llama 系列的多个小模型进行了微调，取得了显著的效果。

R1-Distill-Qwen-7B 在 AIME 2024 上的得分达到了 55.5%，远超 QwQ-32B-Preview。
R1-Distill-Qwen-32B 在 AIME 2024 上得分 72.6%，在 MATH-500 上得分 94.3%，在 LiveCodeBench 上得分 57.2%，这些结果显著优于之前的开源模型，并与 o1-mini 相当。

下面对比了 R1-Distill-Qwen-32B 和 R1-Zero-Qwen-32B 的性能。结果表明，直接在 Qwen-32B-Base 上进行强化学习，只能达到与 QwQ-32B-Preview 相当的水平，而经过 R1 蒸馏的 Qwen-32B 模型则远超两者。这说明，R1 学到的推理模式具有很强的通用性和可迁移性，可以通过蒸馏的方式传递给其他模型。　

性能评估

在多个任务的测试中，DeepSeek-R1 展现了强大的性能：

推理任务：在 AIME 2024、MATH-500 等任务上，取得了与 OpenAI-o1-1217 相媲美的成绩。
知识密集型任务：在 MMLU、MMLU-Pro 和 GPQA Diamond 等任务上，性能显著超越了 DeepSeek-V3 模型。
长文本理解任务：在 FRAMES 数据集上的准确率达到了 82.5%，优于 DeepSeek-V3 模型。
开放式问答任务：在 AlpacaEval 2.0 和 Arena-Hard 基准测试中，分别取得了 87.6%的 LC-winrate 和 92.3%的 GPT-4-1106 评分。

模型下载

OpenCSG社区：

https://opencsg.com/models/deepseek-ai/DeepSeek-R1-Zero

https://opencsg.com/models/deepseek-ai/DeepSeek-R1

欢迎加入OpenCSG社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群，分享经验

扫描上方二维码添加小助手

“ 关于OpenCSG

开放传神（OpenCSG）成立于2023年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

OpenCSG社区

该账号是开放传神（OpenCSG）分享大模型的技术、见解、传神开放社区等方面的内容！

最新文章

CodeSouler v1.13.0 版本更新

回首2024 | OpenCSG社区年度报告请查收

全新推理模型 DeepSeek-R1 问世，全面对标 OpenAI o1

直播预告｜OpenCSG&人大YuLan｜LLM数据新范式：深度揭秘高质量开源中文数据集

MiniMax-01重磅发布：突破Transformer架构，4M超长上下文

书生·浦语大模型升级，突破思维密度，4T数据训出高性能模型

CSGHub开源版本v1.3.0更新

直播预告｜LLM数据新范式：深度揭秘OpenCSG高质量开源中文数据集

开年巨献｜OpenCSG携UltraFeedback中文数据集强势来袭

Phi-4: 微软开源的14亿参数模型，重定义AI性能新标准

NVIDIA Cosmos平台：开启物理AI时代的技术革命

OpenCSG助力国产大模型｜YuLan-Mini：数据高效的AI模型突破

直播预告｜OpenCSG AutoHub智能探索：一键开启 AI 浏览器之旅

ModernBERT：下一代 Encoder-Only 模型的全面进化

OpenCSG月度更新2024.12

年终巨献 | OpenCSG开源SmolTalk Chinese数据集

从30年前的一根网线说起中国这张网改变了什么？

开源用户故事｜CSGHub助力国产AI基础设施建设

视频创作迎来“智变”时刻，图森未来发布“Ruyi”大模型！

论文中心｜第34期人工智能领域论文推荐

OpenCSG 2.0：让我们全面拥抱Agentic架构

C4AI Command R7B：多语言高性能AI模型，为复杂任务而生

安装指南｜OpenCSG Starship上架GitHub Marketplace

CSGHub开源版本v1.2.0更新

DeepSeek V2.5正式发布：支持联网搜索，表现全面提升

论文中心｜第33期人工智能领域论文推荐

Meetup回顾 | AI赋能下的开发流程蜕变

Qwen2-VL-72B重磅开源：跨越视觉与语言的新时代 AI 里程碑

Meta重磅开源Llama 3.3-70B：性能大幅提升，成本大幅降低

倒计时2天！ OpenCSG&JetBrains 上海站 Meetup：AI赋能下的开发流程蜕变圆桌议题公布

Hunyuan-Video：腾讯开源高质量中文通用视频生成模型

论文中心｜第32期人工智能领域论文推荐

OpenCSG&JetBrains 上海站 Meetup | AI赋能下的开发流程蜕变

OpenCSG月度更新2024.11

Qwen开源QwQ-32B-Preview：从自省到突破，解锁AI推理的无限可能

阿里国际AI团队最新开源！探索面向开放性问题的推理模型 Marco-o1

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

最快的视频生成模型来了！LTX-Video 重磅发布，开源+RTX 4090 即可跑

Meetup回顾 | 大模型全生命周期管理与AI应用的全栈可观测性

司南 OpenCompass 11月大语言模型评测即将启动，欢迎新合作厂商申请评测！

论文中心｜第31期人工智能领域论文推荐

超越GPT-4o的开源巅峰！Pixtral Large多模态模型重磅登场

RMBG 2.0 ：让图片抠图更简单，史上最强开源背景移除模型

OpenCoder：开源代码大模型，推动编程AI的未来

CodeSouler v1.11.0 版本更新

倒计时2天！大模型全生命周期管理与AI应用的全栈可观测性圆桌议题公布

CSGHub All-in-One Docker 快速部署

重磅揭秘！Auto CSGHub内测视频曝光 | 国产版 HuggingFace+ 引领智能化升级

算力补贴累计超亿元！模速空间“浓缩”上海大模型产业链

报名开始｜《大模型全生命周期管理与AI应用的全栈可观测性》上海站

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉