开源大模型DeepSeek-R1 发布,性能对标GPT o1

科技   2025-01-22 08:00   山西  

-推荐关注-

-正文-

开源DeepSeek-R1 发布,性能对标 OpenAI o1 正式版

  • o1一枝独秀
  • DeepSeek-R1打破僵局
  • 从技术到表现,全面对标 OpenAI o1
  • DeepSeek-R1评估结果
  • 蒸馏小模型超越 OpenAI o1-mini
  • 价格依然很便宜
  • 对开源社区的意义

-- 领取学习资料大礼包,见文末

2025-01-20, DeepSeek正式发布 DeepSeek-R1,并同步开源模型权重,性能对标 OpenAI o1 正式版

DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型,完全开源,不限制商用,无需申请。


以下是 DeepSeek-R1 和 OpenAI-o1-1217 的性能对比表,结合任务背景描述和具体数据:

左右滑动表格查看完整信息(一共6列)

任务任务背景评估方式DeepSeek-R1OpenAI-o1-1217对比分析
AIME 2024
美国数学竞赛,考察代数、几何、数论等高难度数学问题。
Pass@1(正确率)
79.8%
79.2%
DeepSeek-R1 略胜 (+0.6%),两者在复杂数学任务中的表现差距很小。
Codeforces
编程竞赛平台,考察算法设计和逻辑编程能力。
Percentile(排名)
96.3%
96.6%
OpenAI-o1-1217 略高 (+0.3%),反映在算法和编程逻辑任务上性能相近。
GPQA Diamond
高难度问答任务,涉及跨学科领域的知识推理和检索。
Pass@1(正确率)
71.5%
75.7%
OpenAI-o1-1217 明显领先 (+4.2%),在知识覆盖与复杂问答推理中更有优势。
MATH-500
数学竞赛问题,涵盖公式推导、高级计算和数学证明。
Pass@1(正确率)
97.3%
96.4%
DeepSeek-R1 略胜 (+0.9%),在复杂数学推理方面表现稍优。
MMLU
多任务语言理解,覆盖 57 个学术领域,如医学、历史、物理等。
Pass@1(正确率)
90.8%
91.8%
OpenAI-o1-1217 稍高 (+1%),多学科理解能力略优于 DeepSeek-R1。
SWE-bench Verified
软件工程任务,包括代码分析、错误修复和逻辑验证。
Resolved(完成率)
49.2%
48.9%
DeepSeek-R1 略高 (+0.3%),两者在软件工程任务中的表现几乎持平。

两者在绝大多数任务上表现接近,差距通常在 0.3%-4% 之间。

  • DeepSeek-R1 更适合数学密集型任务,而 OpenAI-o1-1217 在语言理解和知识推理任务中更胜一筹。
  • 编程任务上的竞争尤为激烈,几乎平分秋色。

适用场景的选择

  • 若重点关注 数学推理 和 软件工程任务,DeepSeek-R1 是更优选择。
  • 若需要更强的 语言理解 和 知识问答 能力,则 OpenAI-o1-1217 更加适合。

论文链接

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

o1一枝独秀 

近年来,人工智能领域的发展呈现指数级增长,大语言模型(LLM)逐渐成为核心驱动力。尤其是在复杂任务如数学推理、代码生成和科学推理中,模型的能力不断逼近人类专家水平。

然而,开源领域始终缺乏一个能够真正对标 OpenAI 的代表性模型 — o1 系列。但这一局面在 DeepSeek-R1 的推出后迎来了重大转机。这款模型以其卓越的性能和开创性的训练方法,成为开源社区的有力武器。

DeepSeek-R1打破僵局 

DeepSeek-R1 填补了开源领域高性能推理模型的空白,更以其技术上的创新引发了广泛关注。模型的核心包括两个版本:DeepSeek-R1-Zero 和 DeepSeek-R1。前者通过纯强化学习(RL)激发模型推理能力,而后者则在强化学习过程中结合了冷启动数据和多阶段训练。这种结合既提升了模型的推理表现,也优化了生成内容的可读性。

值得一提的是,DeepSeek-R1 不仅仅是为了追赶 OpenAI o1 的脚步,更是对开源社区发展的一次激励。它以宽松的 MIT 许可协议开源,允许用户自由使用,包括商业用途和模型蒸馏。这种开放态度无疑为更多开发者带来了便利。

从技术到表现,全面对标 OpenAI o1 

与传统模型开发路径不同,DeepSeek-R1-Zero 是完全依赖强化学习进行训练。使用“组相对策略优化”(Group Relative Policy Optimization, GRPO)算法,在没有任何监督数据的情况下,模型通过自我演化并逐步提升推理能力,从最初的性能基线达到接近 OpenAI o1 的水准。这一突破在开源社区内具有很好的参考意义。

有意思的是,在 DeepSeek-R1-Zero 的训练过程中观察到了一个特别的顿悟现象:


这种行为不仅是模型推理能力不断增长的证明,也是强化学习导致出乎意料且复杂结果的迷人例子。

在 DeepSeek-R1 中,团队进一步引入冷启动数据来优化模型的训练效果。通过高质量的初始数据集和多阶段强化学习,模型不仅在数学、代码等严谨任务中表现卓越,在自然语言推理和一般性问题上也能稳定输出。这种多阶段训练方法的引入,不仅解决了模型在早期训练中可能出现的语言混杂等问题,还使其在推理链(Chain of Thought, CoT)生成上更加清晰和可控。

DeepSeek-R1评估结果 

DeepSeek-R1 极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。


蒸馏小模型超越 OpenAI o1-mini 

我们在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。


价格依然很便宜 

DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。



左右滑动表格查看完整信息(一共7列)
模型
上下文长度
最大思维链长度
最大输出长度
百万tokens 输入价格 (缓存命中)
百万tokens 输入价格 (缓存未命中)
百万tokens 输出价格 输出价格
deepseek-chat
64K
-
8K
0.5元
0.1元
2元
1元
8元
2元
deepseek-reasoner
64K
32K
8K
1元
4元
16元

deepseek-chat 模型已经升级为 DeepSeek-V3deepseek-reasoner 模型为新模型 DeepSeek-R1

对开源社区的意义 

DeepSeek-R1 的推出不仅是一次技术上的突破,更是对开源生态的一次重要补充。

在闭源模型主导的大环境下,开源社区始终面临着数据资源和计算资源的双重困境。而 DeepSeek-R1 的开源,不仅让更多研究者和开发者得以触及尖端技术,也为未来的开源模型树立了标杆。

模型的开放性进一步加速 AI 技术的传播和应用,为产业创新和学术研究创造更多可能。

DeepSeek-R1 的出现还证明了开源社区在技术发展上的可能性。通过整合强化学习和模型蒸馏技术,它为低资源环境中的 AI 应用提供了全新方案。这种理念将激励更多团队投入开源研发,为整个行业注入新的活力。

有小伙伴评论说:这才是真正的 openai


DeepSeek-R1 的问世是开源社区的一次重大成果,它让我们看到了开源模型在追赶闭源技术时的潜力与可能,也为全球开发者和研究者带来了希望。正是这样的创新,让开源社区有机会在全球技术竞争中占据一席之地。


往日推荐:
  1. AI Agent不能缺少的基本能力之一:自我反思(Self-Reflecting)
  2. LangChain实战 | 实现一个检索增强生成系统(RAG)
  3. 从0到1开发AI Agent(智能体)(八)| 智能体3:通过Llamalndex实现检索增强生成(RAG)

    有需要的,在公众号「AI取经路」发消息「学习资料」即可获取。

    --END--

    点亮“赞”“在看”“分享”好友一起看

    AI取经路
    踏上取经路,比抵达灵山更重要! AI技术、 AI知识 、 AI应用 、 人工智能 、 大语言模型
     最新文章