最近,AI 圈子被一家名叫 DeepSeek 的“中国黑马”刷了屏。
它在中国、美国的科技媒体中频频亮相,甚至连在 Meta 做生成式 AI 的工程师都在公司内部社区 Blind 发文称,“Meta 的生成式 AI 部门已经开始恐慌”,原因正是 DeepSeek 的大模型 R1在一些基准测试中跑赢了还未正式发布的 Llama 4,且关键是整个训练费用极低。
更有甚者,DeepSeek 的移动端应用已冲到苹果 App Store 榜单第八名,风头一时无两,下载热度仅次于 ChatGPT。
如此气势,难怪 Scale AI 创始人亚历山大·王(Alexandr Wang)都在达沃斯世界经济论坛直言,这家中国团队或许将“改变一切”。
然而,DeepSeek 真的已经在技术上超越了 OpenAI 吗?
下这个结论还为时尚早。
DeepSeek 的表现固然令人刮目相看,但其成长路径和所谓的“突破性”创新,背后有更复杂的因素,绝非几篇新闻报道或孤立的基准测试就能把结论拍板。
AI 界的“拼多多”
DeepSeek 之所以被称为 “AI 界的拼多多”,就在于它虽然一开始技术相对粗糙,甚至在 DeepSeek V1 阶段大量调用了 GPT-3.5 的 API,做了很多“开源数据整合与工程优化”的活儿,却以令人咋舌的低成本达到了与某些顶尖大模型相近的性能。
最近发布的 DeepSeek-R1 模型,不仅在数学、代码、自然语言推理等任务上据称可与 OpenAI 的最新版本比肩,而且训练成本极低。
正如亚历山大·王所说,DeepSeek 相比美国顶尖 AI 的“十年领先优势”,靠这样一条“平替”路线,似乎一步追了上来。
而在移动端应用方面,DeepSeek 已经超越了 Google Gemini、Microsoft Copilot 等同类产品,完全不像一家仅有数百万美元预算的“名不见经传”公司。
直接强化学习:R1 真正的创新?
DeepSeek-R1 之所以备受关注,主要是它提出了一种名为“DeepSeek-R1-Zero”的训练路线,号称无需传统的大规模监督微调(SFT),也不依赖海量标注数据,就能通过在基础模型上直接使用强化学习(RL),让模型实现“自我进化”。
在 AIME 2024 的基准测试中,DeepSeek-R1-Zero 得到了 86.7% 的准确率。
艾伦人工智能研究所的科学家内森·兰伯特(Nathan Lambert)认为,这篇论文或许会成为 AI 推理模型方向上的重要转折点,因为它让工业界和学术界看到,“大模型也能像 AlphaGo 那样,自主地通过强化学习实现飞跃式迭代”。
这当然令人惊喜,但若要说 DeepSeek-R1 带来了颠覆性新范式,怕也言之过早。
根据中山大学集成电路学院助理教授王美琪的分析,DeepSeek 在 RL 上的成功离不开其团队在多版本迭代中摸索出的工程优化,譬如简化奖惩模型设计、避免对大规模人工标注的过度依赖,这些都极大降低了计算资源和研发人员投入。
换言之,它更像是一场工程上的降本增效革命。
这并不意味着 DeepSeek 与 OpenAI、Meta 等在根本技术思路上有着完全不同的突破。
毕竟,在 RLHF(带人类反馈的强化学习)等路线已经被诸多团队尝试多轮之后,强化学习与自然语言生成相结合,更多是大势所趋,并非横空出世的新鲜招数。
算力与迭代的终极较量
在《人类简史》中尤瓦尔·赫拉利曾提到,“科技演进往往并非单点突破,而是多项要素的共振。”
大模型的研发更是如此,算力规模和长期迭代才是真正影响未来 AI 发展走向的关键。
OpenAI、谷歌、微软、Meta、xAI 等巨头依然在进行大手笔的算力投资。
特朗普宣布了 OpenAI 与甲骨文、日本软银的合作,成立 5000 亿美元的“星际之门”新计划,要在美国加速建设至少 1000 亿美元的 AI 基础设施。
马斯克的 xAI 也放话要扩充到 100 万块 GPU 级别的算力,用来训练 Grok AI。
正如图灵奖得主、Meta 首席科学家杨立昆(Yann LeCun)所说,“给那些看到 DeepSeek 表现后,就觉得‘中国在 AI 上已经超越美国’的人,你们的解读是错的。正确的解读应该是——‘开源模型正在超越封闭的专有模型’。”
这句话很关键,它点出了 DeepSeek 的另一个背景:它并非完全封闭的商用模型,而是延续了大模型开源路线的一部分优势。
在开源社区的帮助下,高效地获取了大量数据、算法、反馈,乃至拼凑出了一整套快速迭代、不断试错的“社区共创”模式。这与 OpenAI、谷歌等巨头“自建高墙”的策略迥异。
所谓“东方神秘力量”或许并不神秘。
风头虽盛,但仍在险峰
DeepSeek 成果之所以备受瞩目,也与地缘政治和国际竞争的大背景密不可分。
国外科技媒体对这家中国团队的讨论中,不乏“美国 AI 十年领先的格局即将瓦解”的论调。
难怪会有人担心:DeepSeek 是否会遭遇类似华为的限制?
现实并非那么简单。一方面,DeepSeek 作为“大模型黑马”固然有潜力,但还远没到支撑“中国整体 AI 技术超越美国”的地步;另一方面,算力与芯片依旧是 AI 行业发展的“血液和氧气”,美国和国际巨头们在这方面的投入远远不止数亿美元。
当对手都在疯狂“囤积”算力时,DeepSeek 要想持续走低成本高效率的路线,就必须面对政策与技术层面的诸多不确定性。
就像马尔科姆·格拉德威尔在《引爆点》中所描述的,“社会现象的爆发常常源于一些触发临界点的小事件”。DeepSeek 或许正在处于这样的“爆发前夜”,它的成败不仅取决于技术和资金,还取决于在全球科技博弈之下能否顺利获得更多算力支持,以及是否能在商业与研究之间取得平衡。
结语
DeepSeek 的确给了中国和全球 AI 从业者一针兴奋剂,证明开源思想与高效的工程迭代能够打造媲美主流大模型性能的产品。
但是,要说它已经完全超越 OpenAI、谷歌、Meta 等国际顶尖团队,还为时尚早。
如果只通过“一份测试数据”或“单一模型”就断言“中国 AI 赶超了美国”,显然是以偏概全。
套用亚当·斯密的一句话:“正确的道路往往是曲折而漫长的。”
DeepSeek 这匹“黑马”能跑多远,既要看它自己的内功修炼,也要看国际环境下能否持续投入资源。
AI 大模型之战才刚刚开始,高峰尚远,谁胜谁负仍是未知数。
R1技术详解
1. 核心理念:通过强化学习提升推理能力
DeepSeek-R1 的核心思想是利用强化学习来训练模型,使其在没有大量监督数据的情况下也能自主学习推理。这与传统的监督微调 (SFT) 方法不同,后者需要大量的人工标注数据。 DeepSeek-R1 的目标是通过 纯强化学习 来激发模型的推理能力,使其能够自我进化,并通过迭代训练不断提升性能。 文章中强调了 后训练 在提升推理能力方面的重要性,而 DeepSeek-R1 正是这一理念的实践。
2. DeepSeek-R1-Zero:纯强化学习的基线
- 直接应用 RL
: DeepSeek-R1-Zero 的关键在于直接对基础模型应用 RL,而不进行任何 SFT 预处理。这种方法旨在探索模型在没有任何先验知识的情况下,通过 RL 自主学习推理能力的可能性。 - GRPO 算法
: 为了节省 RL 训练成本,DeepSeek-R1-Zero 使用了 组相对策略优化 (GRPO) 算法,该算法通过比较一组输出的得分来估计基线,从而避免使用与策略模型大小相同的批评模型。 - 规则奖励模型
: DeepSeek-R1-Zero 采用简单的规则奖励模型,主要包括: - 准确性奖励
: 评估模型答案的正确性。 - 格式奖励
: 强制模型将推理过程放在 <think>
和</think>
标签之间。 - 自我进化
: 通过 RL 训练,DeepSeek-R1-Zero 会自主增加思考时间,出现反思 和探索替代方法等复杂行为,这展示了 RL 的强大能力。 - 局限性
: DeepSeek-R1-Zero 的主要问题是可读性差和语言混合。
3. DeepSeek-R1:基于冷启动的强化学习
- 引入冷启动数据
: 为了解决 DeepSeek-R1-Zero 的局限性并进一步提升性能,DeepSeek-R1 引入了少量高质量的冷启动数据,这些数据包括长思维链 (CoT) 示例,以及带有反思和验证的详细答案。 - 可读性
: 冷启动数据的一个关键优势是提高了模型输出的可读性,确保输出内容更适合人类阅读,并避免了语言混合问题。 - 多阶段训练流程
: DeepSeek-R1 的训练流程包括四个主要阶段:
- 冷启动微调
: 使用冷启动数据微调基础模型。 - 面向推理的 RL
: 对微调后的模型进行 RL 训练,类似于 DeepSeek-R1-Zero。 - 拒绝采样和 SFT
: 从 RL 检查点收集 SFT 数据,用于后续微调。 - 所有场景的 RL
: 再次进行 RL 训练,以提升模型的帮助性和无害性。
4. 知识蒸馏:将推理能力转移到小型模型
- 直接微调
: DeepSeek-R1 的另一个重要技术是知识蒸馏,它利用 DeepSeek-R1 生成的 80 万个训练样本,直接微调开源模型,如 Qwen 和 Llama。 - SFT 阶段
: 知识蒸馏仅采用 SFT 阶段,不包括 RL 阶段,目的是展示蒸馏技术本身的有效性。 - 结果
: 蒸馏后的模型在推理任务上表现显著提升,表明大型模型的推理能力可以成功迁移到小型模型。 - 效率
: 知识蒸馏是一种更经济高效的方法,可以在不进行大规模 RL 训练的情况下提升小型模型的性能。
5. 总结
DeepSeek-R1 通过一系列精心设计的训练步骤,包括 纯 RL、冷启动数据、多阶段训练和知识蒸馏,显著提升了模型的推理能力。 - DeepSeek-R1-Zero
是纯 RL 的基线,而 DeepSeek-R1 则通过引入冷启动数据和多阶段训练,取得了更好的性能。 - 知识蒸馏
是一个关键环节,它能够将大型模型的推理能力高效地转移到小型模型,使其在资源有限的情况下也能获得优秀的推理表现。
总而言之,DeepSeek-R1 的技术原理体现了通过强化学习和知识蒸馏来提升语言模型推理能力的新方向。它不仅在推理性能上取得了突破,也为未来更高效、更强大的 AI 模型的开发提供了重要参考。
参考资料:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf