-推荐关注-
开源DeepSeek-R1 发布,性能对标 OpenAI o1 正式版
o1一枝独秀 DeepSeek-R1打破僵局 从技术到表现,全面对标 OpenAI o1 DeepSeek-R1评估结果 蒸馏小模型超越 OpenAI o1-mini 价格依然很便宜 对开源社区的意义
-- 领取学习资料大礼包,见文末
2025-01-20, DeepSeek正式发布 DeepSeek-R1,并同步开源模型权重,性能对标 OpenAI o1 正式版
DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型,完全开源,不限制商用,无需申请。
以下是 DeepSeek-R1 和 OpenAI-o1-1217 的性能对比表,结合任务背景描述和具体数据:
左右滑动表格查看完整信息(一共6列)
任务 | 任务背景 | 评估方式 | DeepSeek-R1 | OpenAI-o1-1217 | 对比分析 |
---|---|---|---|---|---|
AIME 2024 | 79.8% | ||||
Codeforces | 96.6% | ||||
GPQA Diamond | 75.7% | ||||
MATH-500 | 97.3% | ||||
MMLU | 91.8% | ||||
SWE-bench Verified | 49.2% |
两者在绝大多数任务上表现接近,差距通常在 0.3%-4% 之间。
DeepSeek-R1 更适合数学密集型任务,而 OpenAI-o1-1217 在语言理解和知识推理任务中更胜一筹。 编程任务上的竞争尤为激烈,几乎平分秋色。
适用场景的选择:
若重点关注 数学推理 和 软件工程任务,DeepSeek-R1 是更优选择。 若需要更强的 语言理解 和 知识问答 能力,则 OpenAI-o1-1217 更加适合。
论文链接:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
o1一枝独秀
近年来,人工智能领域的发展呈现指数级增长,大语言模型(LLM)逐渐成为核心驱动力。尤其是在复杂任务如数学推理、代码生成和科学推理中,模型的能力不断逼近人类专家水平。
然而,开源领域始终缺乏一个能够真正对标 OpenAI 的代表性模型 — o1 系列。但这一局面在 DeepSeek-R1 的推出后迎来了重大转机。这款模型以其卓越的性能和开创性的训练方法,成为开源社区的有力武器。
DeepSeek-R1打破僵局
DeepSeek-R1 填补了开源领域高性能推理模型的空白,更以其技术上的创新引发了广泛关注。模型的核心包括两个版本:DeepSeek-R1-Zero 和 DeepSeek-R1。前者通过纯强化学习(RL)激发模型推理能力,而后者则在强化学习过程中结合了冷启动数据和多阶段训练。这种结合既提升了模型的推理表现,也优化了生成内容的可读性。
值得一提的是,DeepSeek-R1 不仅仅是为了追赶 OpenAI o1 的脚步,更是对开源社区发展的一次激励。它以宽松的 MIT 许可协议开源,允许用户自由使用,包括商业用途和模型蒸馏。这种开放态度无疑为更多开发者带来了便利。
从技术到表现,全面对标 OpenAI o1
与传统模型开发路径不同,DeepSeek-R1-Zero 是完全依赖强化学习进行训练。使用“组相对策略优化”(Group Relative Policy Optimization, GRPO)算法,在没有任何监督数据的情况下,模型通过自我演化并逐步提升推理能力,从最初的性能基线达到接近 OpenAI o1 的水准。这一突破在开源社区内具有很好的参考意义。
有意思的是,在 DeepSeek-R1-Zero 的训练过程中观察到了一个特别的顿悟现象:
这种行为不仅是模型推理能力不断增长的证明,也是强化学习导致出乎意料且复杂结果的迷人例子。
在 DeepSeek-R1 中,团队进一步引入冷启动数据来优化模型的训练效果。通过高质量的初始数据集和多阶段强化学习,模型不仅在数学、代码等严谨任务中表现卓越,在自然语言推理和一般性问题上也能稳定输出。这种多阶段训练方法的引入,不仅解决了模型在早期训练中可能出现的语言混杂等问题,还使其在推理链(Chain of Thought, CoT)生成上更加清晰和可控。
DeepSeek-R1评估结果
DeepSeek-R1 极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
蒸馏小模型超越 OpenAI o1-mini
我们在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
价格依然很便宜
DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。
deepseek-chat
模型已经升级为 DeepSeek-V3;deepseek-reasoner
模型为新模型 DeepSeek-R1。
对开源社区的意义
DeepSeek-R1 的推出不仅是一次技术上的突破,更是对开源生态的一次重要补充。
在闭源模型主导的大环境下,开源社区始终面临着数据资源和计算资源的双重困境。而 DeepSeek-R1 的开源,不仅让更多研究者和开发者得以触及尖端技术,也为未来的开源模型树立了标杆。
模型的开放性进一步加速 AI 技术的传播和应用,为产业创新和学术研究创造更多可能。
DeepSeek-R1 的出现还证明了开源社区在技术发展上的可能性。通过整合强化学习和模型蒸馏技术,它为低资源环境中的 AI 应用提供了全新方案。这种理念将激励更多团队投入开源研发,为整个行业注入新的活力。
有小伙伴评论说:这才是真正的 openai
DeepSeek-R1 的问世是开源社区的一次重大成果,它让我们看到了开源模型在追赶闭源技术时的潜力与可能,也为全球开发者和研究者带来了希望。正是这样的创新,让开源社区有机会在全球技术竞争中占据一席之地。
AI Agent不能缺少的基本能力之一:自我反思(Self-Reflecting) LangChain实战 | 实现一个检索增强生成系统(RAG) 从0到1开发AI Agent(智能体)(八)| 智能体3:通过Llamalndex实现检索增强生成(RAG)
有需要的,在公众号「AI取经路」发消息「学习资料」即可获取。
--END--
点亮“赞”和“在看”,“分享”好友一起看