1 月 20 日, DeepSeek 团队开源全新一代推理模型 DeepSeek-R1,旨在通过大规模强化学习(RL)提升推理能力。
目前,DeepSeek 在网页端、App 端和 API 端全面上线了 R1,下图为网页端对话界面,选择 DeepSeek-R1 就能直接体验。
体验地址:https://www.deepseek.com/
DeepSeek 在 Huggingface 上上传了 R1 系列的技术报告和各种信息。
论文链接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
此次,DeepSeek 发布了三组模型:
参数为 660B 的 DeepSeek-R1-Zero,不依赖监督微调(SFT),直接通过 RL 训练,展现了强大的推理行为。
参数为 660B 的 DeepSeek-R1,它从经过数千个长思想链(CoT)示例微调的检查点开始应用 RL;在 RL 前引入冷启动数据,进一步提升了推理性能,与 OpenAI-o1 在数学、代码和推理任务上表现相当。
从 DeepSeek-R1 中蒸馏推理能力到小型密集模型,参数从小到大分别为 1.5B、7B、8B、14B、32B 以及 70B。这六个模型同样完全开源,旨在回馈开源社区,推动「Open AI」的边界。
模型下载地址:https://huggingface.co/deepseek-ai?continueFlag=f18057c998f54575cb0608a591c993fb
下图为 R1 与 o1-1217、o1-mini、自家 DeepSeek-V3 在多个数据集上的性能比较,可以看到,R1 与 o1-1217 不相上下、互有胜负。
具体地,DeepSeek-R1 表现:
DeepSeek-R1 在AIME2024上获得了79.8%的成绩,略高于 OpenAI-o1-1217。
在MATH-500上,DeepSeek-R1 获得了97.3%的惊人成绩,表现与 OpenAI-o1-1217 相当,并明显优于其他模型。
在编码相关的任务中,DeepSeek-R1 在代码竞赛任务中表现出专家水平,在Codeforces上获得了2029 Elo评级,在竞赛中表现优于96.3%的人类参与者。
对于工程相关的任务,DeepSeek-R1 的表现略优于 OpenAI-o1-1217。
性能方面,蒸馏后的 R1 32B 和 70B 版本远远超过了 GPT-4o、Claude 3.5 Sonnet 和 QwQ-32B,并逼近 o1-mini。
从下表中可以看出,DeepSeek-R1-Distill-Qwen-32B 在AIME 2024中的得分达到 72.6%,在 MATH-500 中得分为 94.3%,在 LiveCodeBench 中得分为 57.2%。这些成绩都远超之前的开源模型,与 o1-mini 不相上下。
在价格方面,DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。
此次技术报告里披露的技术路线,最让人惊叹的是R1 Zero的训练方法。
以往的研究主要依赖大量的监督数据来提升模型性能。
DeepSeek 的开发团队则开辟了一种全新的思路:即使不用监督微调(SFT)作为冷启动,通过大规模强化学习也能显著提升模型的推理能力。如果再加上少量的冷启动数据,效果会更好。
下如图所示,做 2024 年的 AIME 数学奥赛试卷,DeepSeek-R1-Zero 的平均 pass@1 分数从最初的 15.6% 显著提升到了 71.0%,达到了与 OpenAI-o1-0912 相当的水平。
在多数投票机制中,DeepSeek-R1-Zero 在 AIME 中的成功率进一步提升到了 86.7%,甚至超过了 OpenAI-o1-0912 的表现。
以下是 DeepSeek-R1-Zero 与 OpenAI 的 o1-0912 在多个推理相关基准测试上的得分对比。
结果显示,通过RL,即便没有监督微调数据,DeepSeek-R1-Zero 依然获得了强大的推理能力。这一成果意义非凡,表明模型仅依靠 RL 就能学习并实现泛化。
参考:
https://github.com/deepseek-ai/DeepSeek-R1