DeepSeek才是“真正的OpenAI”？｜甲子光年

科技科技 2025-01-21 21:53 北京

虚假的OpenAI在被打假，真正的“OpenAI”在开源。

作者｜王艺‍‍

编辑｜赵健

“爆打奸商OpenAI。”

“DeepSeek才是真正的‘OpenAI’！”

还有人做了一幅赛博对联：“上联：真本事酒香不怕巷子深。下联：不公关真金不怕火来炼。横批：DeepSeek。”

这是昨晚推理模型DeepSeek R1发布之后的评论区，清一色为DeepSeek的叫好声。而与此形成对比的是，大洋彼岸的OpenAI，正在遭遇o3的打假风波。有人爆料称，o3之所以在数学基准FrontierMath上取得惊人的成绩，是因为OpenAI资助了FrontierMath，并且可以访问大部分数据集。

OpenAI的推理模型o1与o3都是闭源模型。在其网站上有关o1模型的技术原理中，有信息量的其实只有短短的一句话：o1模型通过大规模强化学习进行训练，以使用思维链（chain-of-thought）进行推理。而更多的技术细节则只字未提。

而DeepSeek，则直接开源了一篇20多页的详细技术报告。

英伟达AI科学家Jim Fan称赞DeepSeek是“真正开放的前沿研究，赋能所有人”，并直言Deepseek才是保持初心的“OpenAI”。

1.强化学习引导“顿悟时刻”

DeepSeek R1发布的论文中提到，提升推理能力的一种有效办法是“后训练”（post-training），主要包括监督微调（Supervised Fine-Tuning, SFT）和强化学习（Reinforcement Learning, RL）两个方向。

SFT的使用是ChatGPT当初成功的关键，而今天的R1 Zero完全用RL取代了SFT。可以说，此次DeepSeek R1发布最大的亮点，就是“没有监督微调下的直接强化学习”。

此次DeepSeek开源了三个系列的模型，分别是DeepSeek-R1-Zero、DeepSeek-R1推理大模型和六个稠密小模型。其中，DeepSeek-R1-Zero直接将RL应用于基础模型而无需任何SFT数据；DeepSeek-R1从使用数千个长思维链（CoT）示例微调的检查点开始应用RL；六个稠密小模型则基于Qwen和Llama，从DeepSeek-R1蒸馏得到。

DeepSeek团队做的第一件事，就是尝试“零监督”直接对基础模型进行大规模强化学习训练（即纯RL），得到了 DeepSeek-R1-Zero。

具体而言，他们使用DeepSeek-V3-Base作为基础模型，并采用GRPO作为RL框架来提高模型在推理方面的性能。它不再引入与模型同等规模的Critic网络，而是把一次性采样到的一组输出互相做对比，就像让模型在同一个问题上输出多个答案，比较每个答案得分的高低，得分高的就学“该怎么写”，得分低的则学“不要那样写”。

接着，DeepSeek团队设计了一组基于规则的奖励系统（包含准确性奖励和格式奖励两种模型），通过不断告诉模型“什么是好”的方式，反复训练模型。

经过数千次RL步骤后，DeepSeek-R1-Zero的推理性能稳步提升：不仅大幅提高了在数学、编程等推理任务上的准确率，甚至学会了很多惊喜的“自发行为”，比如反思自己的答案，进行多次思考迭代等，甚至出现了“顿悟时刻（aha moment）”。顿悟时刻不仅证明了模型推理能力的不断增长，也是对强化学习所能产生复杂结果的绝佳说明。

DeepSeek-R1-Zero中级版本的“顿悟时刻”，模型学会重新思考，并使用拟人化的语气

报告显示，DeepSeek-R1-Zero在AIME 2024上的pass@1分数从15.6%提高到了71.0%，通过多数投票，分数进一步提高到86.7%，与OpenAI-o1-0912的性能相匹配。

DeepSeek-R1-Zero在训练过程中的AIME精度，图源：DeepSeek技术报告

然而，DeepSeek的团队发现，DeepSeek-R1-Zero的这种“自发行为”有时也带来缺点，比如文字可读性差、语言混乱等。为了解决这一问题，他们设计了一个四阶段的流程，让模型从“能思考”到“会表达”，DeepSeek-R1也就此诞生。

具体而言，DeepSeek团队先收集了少量的高质量长链式推理数据（Long Chain-of-Thought），让模型在上面做一个初步的监督微调（SFT）作为冷启动；接着使用类似DeepSeek-R1-Zero的强化学习方法训练模型；得到通过RL训练后模型产出的较大规模推理数据和通用SFT数据后，通过“拒绝采样（Rejection Sampling）”的方法训练和微调DeepSeek-V3这一基座模型；最后再整体进行一次“全场景强化学习（Reinforcement Learning for all Scenarios）”，最终得到了DeepSeek R1。

冷启动阶段的引入，帮助模型跳过了纯RL初期可能的混乱状态；RL帮助模型提升了在推理任务上的表现；拒绝采样+监督微调的方法让模型保留了正确或可读性高的回答，最后一轮全场景的RL则让模型在所有场景（比如聊天友好度、礼貌性、无害性、安全性等）中尽量满足人类偏好。

通过这种方法训练出的DeepSeek-R1达到了世界顶尖模型的性能，从图中可以看出，DeepSeek-R1在AIME2024上获得了79.8%的成绩，略高于OpenAI-o1-1217；在MATH-500上，它取得了97.3%的惊人成绩，表现与OpenAI-o1-1217相当，并明显优于其他模型；在编码相关的任务中，DeepSeek-R1在代码竞赛任务中表现出专家水平，在Codeforces上获得了2029 Elo评级，竞赛中的表现优于96.3%的人类参与者。对于工程相关的任务，DeepSeek-R1的表现略优于OpenAI-o1-1217。

DeepSeek-R1在各项基准评测集上的表现，图源：DeepSeek技术报告

不仅开源了DeepSeeK-R1，DeepSeek还直接开源了从超小模型1.5B，到70B的各种型号模型。这些小模型是DeepSeek团队训练好的DeepSeek-R1基础上，用Qwen和Llama等开源模型“蒸馏”的——先使用DeepSeek-R1 作为教师模型生成800K数据，再用这些数据对几个小模型进行微调。相当于把老师的推理思路“蒸馏”到了学生身上。

小模型的性能同样令人惊喜：DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试上优于GPT-4和Claude-3.5-Sonnet，在AIME上得分为28.9%，在MATH上为83.9%；其32B和70B的模型在多项能力上更是实现了对标OpenAI o1-mini的效果。

DeepSeek-R1-Distill-Qwen-7b全面优于GPT-4o-0513等非推理模型图源：DeepSeek技术报告

蒸馏模型和强化模型在推理相关基准上的比较，图源：DeepSeek技术报告

综上，DeepSeek-R1展现了一种非常清晰的模型训练思路——数据即模型。DeepSeek-R1-Zero很可能只是用来给DeepSeek-R1生成推理数据的，而“数据的调配”是DeepSeek-R1训练过程中平衡不同任务策略的基石。此外，DeepSeek-R1的超强性能也证明了模型的能力仍未见底，而特定的数据是进一步挖掘模型能力的关键。

2.大道至简：用Rule-based写一封给RL的情书

除了“数据即模型”的训练思路，DeepSeek-R1另一个突出的价值或许在于，它证明了“基于一个很强的模型、用最简单的Rule-based奖励来做RL、经过大量训练，也能达到最强推理模型的效果”。

一个系统越简洁就意味着实现难度越大。正如AlphaGo早期也是走类似SFT的“监督学习（Supervised Learning，SL）”的路线，后来经历了三个版本的迭代后，才推出了无需人类棋谱、可以自我对弈训练的AlphaGO Zero和Alpha Zero，转向了完全的强化学习（RL）。

Rule-based（基于预定义规则的决策方法）是大模型在做可证实任务（verifiable task）中最直观、也是最可靠的奖励方式，但同时也是最难的——正是因为规则简洁，所以模型在外界找不到足够多的奖励信号，难以通过试错找到有效的策略。

因此，在复现OpenAI o1的道路上，众多模型厂商一直在艰难探索什么样的奖励方式才是更适合强化学习的——

早期过程奖励模型（PRM）是各大厂商的首选，但是由于其依赖高质量的人类偏好数据、数据收集和标注的成本极高，且训练不稳定、容易发生Reward Hacking（奖励破解，指智能体通过利用奖励函数的设计缺陷，找到一种非预期的方式最大化奖励，而不是真正完成目标任务）现象，后来被很多团队弃用；

后来人们又探索出了基于结果的奖励模型（ORM），比如OpenAI在开发InstructGPT时将ORM用于评估生成文本的质量，Qwen、Eurus、Moss模型在RLHF阶段也会采用ORM来确保生成的内容的流畅性和安全性。但是ORM难以捕捉复杂的、隐式的奖励信号，而且在某些主观性强的任务下可能也无法准确反映真实目标。

此外，像逆强化学习奖励模型（Inverse Reinforcement Learning, IRL）、分层奖励模型（Hierarchical Reward Model）等其他的奖励模型也各有各的问题。

在训练DeepSeek-R1系列模型的的过程中，DeepSeek同样遇到了此类问题。比如他们在尝试过程奖励模型（PRM）的时候，发现虽然模型在重新排序模型生成的前N个回答或协助引导搜索方面表现出一定的能力，但在大规模强化学习过程中的优势是有限的；再比如，在尝试蒙特卡洛树搜索（MCTS）的过程中，遇到了搜索空间爆炸、价值模型训练困难等重大挑战。

因此，行业的风向也在逐渐回归Rule-based，但前提是，要给定足够多的Query（问询），以确保Rule-based过程中对于各种突发情况的覆盖，才能减少偏差，增强模型的泛化性和通用性。

比起其他厂商，DeepSeek做Rule-based有一个巨大的优势——他们不仅拥有足够强的基座模型（DeepSeek-V3），其DeepSeek-Math/DeepSeek-Coder系列模型更是在多年做量化投资的过程中积累了大量数据，可以很好地用Rule-based的方法，在大量训练的基础上实现更好的推理效果。

正如NLP科学家Casper Hensen在X上发帖表示，“我的大脑拒绝接受这个强大模型的训练过程竟然可以如此简单”。但他拒绝接受的事实确实在DeepSeek身上发生了。

3.真正的开放AI在中国？

从2024年9月OpenAI发布o1-preview到现在，仅仅过去了不到四个月，市场上媲美甚至超越其性能的推理模型就已遍地开花：

2024年11月17日，Kimi发布数学推理模k0-math；
2024年11月20日， DeepSeek发布 R1-lite-preview；
2024年11月27 日，Qwen发布Qwen/QwQ-32B-Preview；
2024年12月19日， Google发布 Gemini 2.0 Flash Thinking；
2025年1月20日，DeepSeek发布R1系列模型；
2025年1月20日，Kimi发布k1.5多模态思考模型。

在这众多的模型之中，DeepSeek不仅率先实现了媲美OpenAI-o1模型的效果，更是将推理模型的成本压缩到了极低——基于R1模型的DeepSeek Reasoner每百万输入token成本为0.55美元（4元/百万tokens），每百万输出token成本为2.19美元（16元/百万tokens），相比OpenAI-o1的每百万输入token成本为15美元、每百万输出token成本为60美元，下降了约95%；

DeepSeek R1 API价格，图源：DeepSeek

DeepSeek R1模型与o1类推理模型输入输出价格对比，图源：DeepSeek

这样的价格策略，不仅为中小企业带来了希望，还传递出一个信号：AI不再是少数精英企业的专属，它将成为全球各行各业的基础工具。

低价还只是其次。更重要的是，DeepSeek R1系列模型，是开源的。

“开源”这两个字对很多人来说，是“技术自由”的代名词，OpenAI创立的初衷，也是作为一家非营利组织，希望“以最有可能造福全人类的方式推进数字智能发展，而不受产生财务回报需求的限制。”然而，由于商业化压力、对模型滥用的担忧、构筑技术壁垒、内部价值观冲突等等的原因，OpenAI在GPT-3发布之后限制了对模型的访问权限，仅通过API提供服务，在GPT-4发布之后更是隐藏了其训练数据和模型权重、完全走向了“闭源”。这极大背离了其创立时的初衷，也让人们在探索AGI的道路上多了些波折。

尽管OpenAI的做法有其自己的考量，但人类需要开源。开源不仅是技术上的“开放”，更是对商业和产业链上下游合作的重新定义。它为更多创新提供了诞生的土壤，也让全球的开发者可以共同参与进来，探索人工智能的下一个边界。

而DeepSeek开源的选择，正是这种“美美与共”精神的体现。换句话说，DeepSeek-R1的低价和开源战略，实际上在构建一个更加开放和包容的AI生态。而在DeepSeek等开源模型厂商的共同努力下，一个全人类共同为AGI奋斗的时代，似乎离我们不远了。

（封面图来源：DeepSeek Github）

END.

甲子光年

甲子光年是一家科技智库，包含智库、社群、企业服务版块，立足中国科技创新前沿阵地，动态跟踪头部科技企业发展和传统产业技术升级案例，推动人工智能、大数据、物联网、云计算、新能源、新材料、信息安全、大健康等科技创新在产业中的应用与落地。

最新文章

英伟达市值蒸发创纪录，DeepSeek掀起AI算力革命意味着什么？｜甲子光年

🧧甲子光年乙巳蛇年限定动态红包封面等你来领！｜甲子光年

对话flowith创始人：chatbot式AI将成为历史｜甲子光年

从上游锂矿到下游车企，宁德时代投资战略大转移｜甲子光年

请回答2025：35位大模型创业者一致看好智能体爆发｜甲子光年

“绝版车”维修困境：配件短缺、软件封锁、入狱警告｜甲子光年

年底基座大模型轮番炸场，谁是“多模态之王”？｜甲子光年

DeepSeek才是“真正的OpenAI”？｜甲子光年

OpenAI之后首个多模态o1发布，这篇技术报告讲清楚了！｜甲子光年

具身智能行业发展研究报告 | 甲子光年智库

独家：清华系AI Infra明星企业“清程极智”完成新一轮融资｜甲子光年

生数科技发布Vidu 2.0，推动视频生成走向人人可用｜甲子光年

仅8个月就把GPT-4o带到了端侧，面壁智能拿到了什么秘籍？｜甲子光年

MiniMax开源报告精读：规模化验证替代传统Transformer的新架构｜甲子光年

假租约、套补贴、卖绿电，千亿智算中心，喂饱了一群“野蛮人”｜甲子光年

追不回的应收款Ⅱ：怎么敢因为账期太长就和客户闹僵呢｜甲子光年

CES 2025灵魂三问：这是什么？能买吗？对我有什么用？｜甲子光年

甲小姐对话九章云极DataCanvas方磊：算力不应成为大宗商品，应该成为零售｜甲子光年

那个制造性爱机器人的公司，在CES上发了新品｜甲子光年

独家专访小鹏汇天仇明全：不破冰，市场不会等着你去做｜甲子光年

现场直击黄仁勋CES 2025演讲：疯狂的观众与超级芯片队长｜甲子光年

2025大模型的新惊喜：昆仑万维全面上线天工大模型4.0｜甲子光年

旷视印奇的下一步，选择了智能汽车｜甲子光年

2024，AI企业出海的四个误区｜甲子光年

CES 2025亮点前瞻，我们想在现场遇见你｜甲子光年

昆仑万维周亚辉投资笔记：机器人时代的社会结构模型与十年后中国首富预测｜甲子光年

拥抱新世代的生产力——《中国AI算力行业发展报告》｜甲子光年

智驾竞争下半场，传统车企亮出杀手锏｜甲子光年

OpenAI将成为公益公司，但这个公司是为了营利 | 甲子光年

万卡时代，一家IT企业的智算革命｜甲子光年

当科研撞上市场刚需：高等学府与企业的双向奔赴｜甲子引力

从实验室走向市场：深度学习改变科学研究方法｜甲子引力

增程车的2024：火热的销量，不确定的下半场｜甲子光年

卓世科技创始人兼CEO屠静：全场景大模型破局AI商业化落地｜甲子引力

不用ChatGPT的图灵奖得主，正在深耕AI教育｜甲子光年

放弃幻想！ChatBI其实跟你想的不一样｜甲子光年

PPIO CEO姚欣：AI应用即将迎来免费时代｜甲子引力

AI应用时代，模型能力应该如何进化？｜甲子光年

南阶跃、北智谱：大模型“基模双雄”格局初现｜甲子光年

神州数码副总裁李刚：大模型幻灭低谷or波动上升？｜甲子引力

分析100万条人与AI对话的背后：人类没有看一条对话｜甲子光年

AI in ALL时代，希望你来参与——甲子光年特别策划｜甲子光年

最强推理模型o3来了！OpenAI副总裁不慎透露秘密被Altman“闭麦”｜甲子光年

对话面壁智能刘知远：Densing Law是大模型能力的另一个度量衡｜甲子光年

国内首款量产AI眼镜发布，零一万物前联创担任AI合伙人｜甲子光年

如何捕捉低空经济的创新机遇与市场红利？｜甲子引力

毛绒绒的AI智能宠物，正在海外流行｜甲子光年

AI应用竞争激烈，如何留在牌桌？｜甲子引力

迎接具身智能落地应用的星辰大海｜甲子引力

万字实录：生数、智谱、宇树、智源对谈AI的共识与非共识｜甲子光年

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉