深度译读《DeepSeek FAQ》- 关于 DeepSeek 的答疑解惑

文摘   2025-02-05 11:12   安徽  

译者注:这篇来自Ben Thompson的关于DeepSeek的答疑文写得非常好 - 文章的格局对比Dario的那篇不知所谓的万字长文高出了N个段位!因此决定精翻一下供大家参考。我个人总结印象深刻的有三点:

第一点是关于效率。Deepseek证明了在受限硬件(H800)上通过极致优化可以达到令人惊讶的结果。这推翻了”更强算力=更好AI”的简单假设 - 重要的不是你有多少算力,而是你如何使用它;

第二是关于开放。当OpenAI在2019年以”安全”为由转向封闭时,他们实际上是在建立垄断。但DeepSeek证明了开放可能是更好的战略:它能吸引最好的人才,建立生态系统,并通过降低成本而不是提高价格来获取优势;

第三点是关于如何看待创新和政策。美国的芯片禁令和AI监管战略建立在一个错误假设上:认为可以通过限制访问来保持领先。但DeepSeek表明,限制反而会激发创新。他们被迫在H800上优化,结果发明了更好的方法。

因此,如果从全局来看,在技术竞争中(尤其在颠覆性领域中),防守性策略往往会适得其反。真正的竞争优势来自持续创新和开放协作,而不是试图通过监管或限制来保护现有地位。

正如互联网证明的那样,开放标准和广泛参与会创造更大的价值。AI也将遵循这条路径:它会变得更便宜、更普及、更商品化,但整体价值会因此呈指数增长。

赢家将是那些拥抱这种转变,而不是抵抗它的人

DeepSeek FAQ

现在是2025年1月27日星期一。为什么你还没有写关于 DeepSeek 的文章?

我写了!上周二我写了关于 R1 的文章。

我完全忘记了这件事。

这是我的责任。我依然认可这篇文章的观点,包括我强调的两个最重要的发现(通过纯强化学习产生的思维链推理能力,以及知识蒸馏的强大效果),我也提到了低成本和芯片禁令带来的影响,但这些观察仅限于当前 AI 技术发展的层面。我完全没有预见到这个消息会对更宏观的战略讨论产生如此广泛的影响,尤其是在中美关系这个层面上。

这种疏忽有先例吗?

有的。2023年9月,华为推出了Mate 60 Pro,这款手机搭载了中芯国际制造的7纳米芯片。对于持续关注该领域的人来说,这款芯片的出现并非意外:中芯国际在一年前就已成功研制出7纳米芯片,而台积电此前也完全依靠DUV(深紫外光刻)技术就实现了7纳米芯片的规模化生产(直到后期的7纳米制程才开始采用EUV技术)。英特尔在几年前同样通过纯DUV工艺就生产出了10纳米芯片(相当于台积电7纳米工艺水平),但始终未能实现具有商业价值的良品率;因此,中芯国际利用现有设备制造7纳米芯片这一事实,尤其是在不把良率作为首要考虑因素的情况下,在我看来完全在情理之中。

令我完全始料未及的是华盛顿特区的强烈反应。拜登政府最终将芯片销售体系转变为基于许可的管控机制,这一芯片禁令的大幅扩展,主要是因为决策者们不了解芯片生产的内在复杂性,并且对华为Mate 60 Pro的出现毫无心理准备。我注意到在过去72小时内,类似的情况再次发生:与其关注DeepSeek究竟实现了什么、还有什么没有实现这样的具体细节,人们的反应以及这些反应所折射出的固有认知偏见反而更值得关注。

那么 DeepSeek 宣布了什么?

导致本周末业界剧烈反应的直接触发点是R1模型的发布,这是一个与OpenAI的o1类似的推理型大语言模型。不过值得注意的是,引发这次热议的诸多关键信息(包括DeepSeek的模型训练成本在内)其实早在圣诞节期间随V3模型发布时就已经公开。不仅如此,V3模型所依赖的大量技术创新,实际上在去年1月V2模型发布时就已经展示给业界了。

这种模型命名惯例是 OpenAI 犯下的最大罪行吗?

是第二大罪行;我们稍后会讲到最大的罪行。

让我们从头来看:V2 模型是什么,为什么它很重要?

DeepSeek-V2 模型引入了两个重要的突破:DeepSeekMoE 和 DeepSeekMLA。DeepSeekMoE 中的”MoE”指的是”专家混合”(mixture of experts)。一些模型,如 GPT-3.5,在训练和推理期间都会激活整个模型;然而事实证明,并非每个模型部分都对当前主题必要。MoE 将模型分成多个”专家”,只激活必要的部分;GPT-4 是一个 MoE 模型,据信有16个专家,每个专家约有1100亿参数。

DeepSeekMoE 在 V2 中实现时,在这个概念上引入了重要创新,包括在更细粒度的专门专家和具有更通用能力的共享专家之间进行区分。关键是,DeepSeekMoE 还在训练过程中引入了新的负载均衡和路由方法;传统上 MoE 是以增加训练中的通信开销为代价来换取高效推理,但 DeepSeek 的方法也让训练变得更加高效。

DeepSeekMLA 是一个更大的突破。推理的最大限制之一是所需的内存量:你既需要将模型加载到内存中,也需要加载整个上下文窗口。上下文窗口在内存使用方面特别昂贵,因为每个 token 都需要一个键和对应的值;DeepSeekMLA,即多头潜在注意力(multi-head latent attention),使得压缩键值存储成为可能,大大减少了推理过程中的内存使用。

我不确定我理解了这些内容。

这些突破的关键含义 — 也是你需要理解的部分 — 只有在 V3 中才变得明显。V3 增加了一种新的负载均衡方法(进一步减少通信开销)和训练中的多token预测(进一步密集化每个训练步骤,再次减少开销):V3 的训练成本令人震惊地低。DeepSeek 声称模型训练花费了2,788千 H800 GPU 小时,按每 GPU 小时2美元计算,仅花费了557.6万美元。

这看起来低得离谱。

DeepSeek 明确表示这些成本仅包括最终训练运行,不包括其他所有费用;来自 V3 论文的原文如下:

最后,我们再次强调 DeepSeek-V3 经济的训练成本,如表1所示,这是通过我们优化的算法、框架和硬件的协同设计实现的。在预训练阶段,在每万亿个 token 上训练 DeepSeek-V3 仅需要18万 H800 GPU 小时,也就是在我们2048个 H800 GPU 的集群上用时3.7天。因此,我们的预训练阶段在不到两个月内完成,耗费2664K GPU 小时。加上上下文长度扩展的119K GPU 小时和后训练的5K GPU 小时,DeepSeek-V3 的完整训练仅耗费278.8万 GPU 小时。假设 H800 GPU 的租用价格为每小时2美元,我们的总训练成本仅为557.6万美元。请注意,上述成本仅包括 DeepSeek-V3 的正式训练,不包括与前期研究和架构、算法或数据的消融实验相关的成本。

所以不,你不能用557.6万美元复制整个 DeepSeek 公司。

我仍然不相信这个数字。

实际上,一旦你理解了 V3 架构,怀疑的责任就在质疑者身上。记住关于 DeepSeekMoE 的那部分:V3 有6710亿参数,但每个 token 只计算370亿个活跃专家参数;这相当于每个 token 333.3亿次浮点运算。这里我应该提到另一个 DeepSeek 创新:虽然参数以 BF16 或 FP32 精度存储,但在计算时降低到 FP8 精度;2048个 H800 GPU 的计算能力为3.97 exaflops,即3.97亿亿次浮点运算。同时,训练集包含14.8万亿个 token;一旦你完成所有计算,就会发现280万 H800 小时足以训练 V3。再次强调,这只是最终运行,而不是总成本,但这是一个合理的数字。

Scale AI 的 CEO Alexandr Wang 说他们有50,000个 H100。

我不知道 Wang 从哪里得到这个信息;我猜他指的是 Dylan Patel 在2024年11月的推文,说 DeepSeek 有”超过5万个 Hopper GPU”。

H800实际上就是 Hopper GPU,只是由于美国制裁,它们的内存带宽比 H100 受到更多限制。

关键是:我上面解释的大量创新都是为了克服使用 H800 而不是 H100 带来的内存带宽限制。而且,如果你真的计算了前面的问题,你会发现 DeepSeek 实际上有多余的计算能力;这是因为 DeepSeek 实际上专门编程了每个 H800 上132个处理单元中的20个来管理跨芯片通信。这在 CUDA 中实际上是不可能做到的。DeepSeek 的工程师们不得不降级到 PTX,这是 Nvidia GPU 的一个低级指令集,基本上就像汇编语言。这种疯狂的优化程度只有在使用 H800 时才有意义。

同时,DeepSeek 还要让他们的模型可用于推理:这需要大量额外的 GPU,超出训练所需的数量。

那么这违反了芯片禁令吗?

没有。芯片禁令禁止了 H100,但没有禁止 H800。每个人都假设训练前沿模型需要更多的芯片间内存带宽,但这正是 DeepSeek 围绕其模型结构和基础设施进行优化的地方。

再次强调一下,DeepSeek 在这个模型设计中做出的所有决定只有在受限于 H800 时才有意义;如果 DeepSeek 能使用 H100,他们可能会使用更大的训练集群,而不需要那么多专门针对带宽不足的优化。

所以 V3 是一个前沿模型?

它确实可以与 OpenAI 的 4o 和 Anthropic 的 Sonnet-3.5 竞争,而且似乎比 Llama 的最大模型更好。看起来很可能的是 DeepSeek 能够通过蒸馏这些模型来为 V3 提供高质量的训练 token。

什么是蒸馏?

模型蒸馏是一种从另一个模型中提取理解的方法;你可以向”教师模型”发送输入并记录输出,然后用这些数据来训练”学生模型”。这就是如何从 GPT-4 得到 GPT-4 Turbo 这样的模型。对于公司来说,在自己的模型上进行蒸馏更容易,因为他们拥有完整访问权限,但你仍然可以通过 API 以一种较为受限的方式进行蒸馏,甚至如果你够有创意的话,可以通过聊天客户端来实现。

蒸馏显然违反了各种模型的服务条款,但阻止它的唯一方法是通过 IP 封禁、速率限制等方式切断访问。在模型训练方面,蒸馏被认为是普遍存在的,这也是为什么越来越多的模型正在逐渐接近 GPT-4 级别的质量。虽然我们无法确定 DeepSeek 是否对 GPT-4 或 Claude 进行了蒸馏,但实际上,如果他们没有这样做反而令人意外。

蒸馏对领先模型来说似乎很糟糕。

确实如此!从积极的方面来看,OpenAI、Anthropic 和 Google 几乎肯定在使用蒸馏来优化他们用于面向消费者应用的推理模型;从消极的方面来看,他们实际上承担着训练前沿技术的全部成本,而其他人都在搭他们投资的便车。

实际上,这可能是微软和 OpenAI 之间缓慢分道扬镳的核心经济因素。微软对向其客户提供推理服务感兴趣,但对于投资1000亿美元建设数据中心来训练前沿模型的热情则少得多,因为这些模型很可能在1000亿美元折旧之前就被商品化了。

这就是为什么所有大型科技公司的股票都在下跌吗?

从长远来看,模型商品化和更便宜的推理 — DeepSeek 也已经证明了这一点 — 对大型科技公司来说是件好事。在一个微软可以以更低成本为客户提供推理服务的世界里,意味着微软需要在数据中心和 GPU 上花费更少,或者更有可能的是,由于推理成本如此之低,会看到使用量大幅增加。另一个大赢家是亚马逊:AWS 在很大程度上未能制造出自己的高质量模型,但如果有非常高质量的开源模型可以以远低于预期的成本提供服务,这就不重要了。

苹果也是一个大赢家。推理所需的内存大幅减少使边缘推理更加可行,而苹果恰好有最适合这一点的硬件。苹果芯片使用统一内存,这意味着 CPU、GPU 和 NPU(神经处理单元)可以访问共享内存池;这意味着苹果的高端硬件实际上拥有最好的消费级推理芯片(Nvidia 游戏 GPU 最多只有32GB VRAM,而苹果的芯片可以达到192GB RAM)。

与此同时,Meta 是最大的赢家。我去年秋天就已经说明了 Meta 的每个业务方面如何从 AI 中受益;实现这一愿景的一个大障碍是推理成本,这意味着大幅降低的推理成本 — 以及考虑到 Meta 需要保持在技术前沿的情况下,大幅降低的训练成本 — 使这一愿景更容易实现。

与此同时,Google 可能处境更糟:硬件需求的降低减少了他们从 TPU 获得的相对优势。更重要的是,零成本推理的世界增加了取代搜索的产品的可行性和可能性;当然,Google 也能获得更低的成本,但任何改变现状的事情可能都是净负面的。

我问的是为什么股票价格在下跌;你刚才描绘的是一幅积极的画面!

我描绘的是长期情况;今天是短期,市场似乎正在消化 R1 存在带来的冲击。

等等,你还没有谈到 R1。

R1 是一个类似于 OpenAI 的 o1 的推理模型。它有能力思考问题,产生更高质量的结果,特别是在编码、数学和逻辑方面。

这比 V3 更令人印象深刻吗?

实际上,我之所以花这么多时间讨论 V3,是因为那个模型实际上展示了许多似乎引发如此多惊讶和争议的动态。然而,R1 值得注意,因为 o1 作为市场上唯一的推理模型独占鳌头,是 OpenAI 作为市场领导者最明显的标志。

R1 以几个重要方面打破了 o1 的神话。首先是它的存在这一事实。OpenAI 并不拥有什么无法复制的特殊秘方。其次,R1 — 像所有 DeepSeek 的模型一样 — 有开放权重(这里不能说是”开源”,因为我们并没有用于创建它的训练数据)。这就意味着,你不必向 OpenAI 支付费用来获得推理能力,而是可以在自己选择的服务器上运行 R1,甚至可以在本地运行,从而大幅降低使用成本。

DeepSeek 是如何制作 R1 的?

DeepSeek 实际上制作了两个模型:R1 和 R1-Zero。我实际上认为 R1-Zero 更重要;正如我上面提到的,这是我上周更新中最关注的:

R1-Zero 在我看来才是更重要的。论文原文如下:

“在这篇论文中,我们迈出了使用纯强化学习(RL)提高语言模型推理能力的第一步。我们的目标是探索 LLM 在没有任何监督数据的情况下发展推理能力的潜力,专注于通过纯 RL 过程进行自我进化。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,采用 GRPO 作为 RL 框架来提高模型在推理方面的表现。在训练过程中,DeepSeek-R1-Zero 自然而然地展现出许多强大和有趣的推理行为。

经过数千次 RL 步骤,DeepSeek-R1-Zero 在推理基准测试上表现出色。比如,在 AIME 2024 上的 pass@1 分数从15.6%提高到71.0%,使用多数投票后,分数进一步提高到86.7%,与 OpenAI-o1-0912 的表现相匹配。”

强化学习(Reinforcement Learning,简称RL)是一种机器学习方法,它通过向模型输入大量数据并设定特定的奖励函数来实现学习。最经典的例子就是 AlphaGo:DeepMind 只需要向模型提供围棋的基本规则,并将赢得比赛设定为奖励函数,然后让模型自主学习和探索其他所有内容。事实证明,这种方法最终取得了惊人的成效,其表现甚至超越了那些需要更多人类指导的传统技术。。

然而,到目前为止的 LLM 都依赖于RLHF(人类反馈的强化学习) - 人类参与其中来帮助指导模型,在奖励不明显的困难选择中导航等。RLHF 是将 GPT-3 转变为 ChatGPT 的关键创新,实现了组织良好的段落,简洁且不会陷入无意义内容的回答等。

然而,R1-Zero 去掉了人类反馈/HF部分 — 只是纯粹的强化学习/RL。DeepSeek 给模型一组数学、代码和逻辑问题,并设置了两个奖励函数:一个用于正确答案,另一个用于利用思维过程的正确格式。此外,这种技术很简单:不是试图逐步评估(过程监督),或者搜索所有可能的答案(像 AlphaGo 那样),DeepSeek 鼓励模型一次尝试几个不同的答案,然后根据这两个奖励函数对它们进行评分。

最终形成的是一个自行发展推理和思维链的模型,包括 DeepSeek 称之为”顿悟时刻”的现象:

在 DeepSeek-R1-Zero 的训练过程中,我们观察到了一个特别有趣的现象,即”顿悟时刻”(aha moment)的出现。如表3所示,这种现象发生在模型演进的中期阶段。在此期间,DeepSeek-R1-Zero 学会了通过重新评估其初始方法来为问题分配更多的思考时间。这种行为不仅证明了模型推理能力的提升,同时也展现了强化学习如何能够带来意想不到且富有深度的结果。

这不仅是模型的”顿悟时刻”,也是研究人员在观察其行为时的顿悟。这凸显了强化学习的强大能力和内在魅力:我们并非直接教导模型如何解决问题,而是仅仅提供正确的激励机制,便能让它自主发展出高级的问题解决策略。这个”顿悟时刻”生动地提醒我们,强化学习有望在人工系统中实现智能的质的飞跃,从而为未来发展更具自主性和适应性的模型开辟新的道路。

这是迄今为止对”The Bitter Lesson(苦涩教训)”最有力的证明之一:你无需教导AI如何进行推理,只要提供足够的算力和数据,它就能自主学习!

不过也不完全如此:虽然R1-Zero(AI模型)确实具备推理能力,但其推理方式对人类来说仍然难以理解。让我们回到论文原文中的描述:

然而,DeepSeek-R1-Zero面临着可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能,我们推出了DeepSeek-R1,该模型采用了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集了数千条冷启动数据来微调DeepSeek-V3-Base模型。随后,我们像DeepSeek-R1-Zero那样实施了基于推理的强化学习。在RL过程接近收敛时,我们通过对RL模型进行拒绝采样来创建新的有监督微调(SFT)数据,并结合DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据,重新训练DeepSeek-V3-Base模型。在使用新数据进行微调后,该模型还需经过一轮额外的强化学习过程,期间会考虑所有场景下的提示词。经过这些步骤,我们最终得到了名为DeepSeek-R1的模型,其性能可与OpenAI-o1-1217相媲美。

这与 OpenAI 在 o1 上采用的方法非常相似:DeepSeek 首先让模型接触大量思维链式推理的示例,使其掌握更适合人类理解的表达方式,随后通过强化学习提升其推理能力,并经过多轮编辑和优化;最终的模型表现出了与 o1 相匹敌的能力。

在这里,DeepSeek 似乎再次从知识蒸馏中获得了显著优势,特别是在训练 R1 方面。这本身就揭示了一个重要现象:我们正在见证 AI 模型教导其他 AI 模型,同时 AI 模型也在进行自我学习。我们正在实时观察一个 AI 技术爆发性发展场景的形成。

那么我们接近 AGI 了吗?

确实如此。这也解释了为什么软银(以及孙正义召集的其他投资者)愿意向OpenAI提供微软所不愿提供的资金:他们相信我们正在接近一个临界点,到那时,具备先发优势将能带来实质性的回报。

但是现在 R1 不是已经领先了吗?

我认为没有;这一点被夸大了。R1 确实能与 o1 竞争,尽管其能力中似乎存在一些漏洞,表明它可能从 o1-Pro 获得了一定程度的蒸馏。同时,OpenAI 已经展示了 o3,这是一个远更强大的推理模型。DeepSeek 绝对是效率方面的领导者,但这与整体领先是不同的。

那为什么每个人都在惊慌?

我认为这里存在多个因素。首先是中国追赶上美国顶尖实验室所带来的冲击,这颠覆了”中国在软件领域不及美国”这一普遍认知。这可能是我此前对这种反应感到诧异时最没有考虑到的因素。实际上,中国拥有一个极其成熟的软件产业,在AI模型研发领域也有着出色的技术积累。

其次是 V3 的低训练成本和 DeepSeek 的低推理成本。这一点确实也让我感到十分意外,但这些数据是有说服力的。这种情况不可避免地引发了市场对英伟达的担忧,进而对整个市场造成了显著影响。

第三点是DeepSeek在芯片禁令下依然实现了这一技术突破。虽然芯片禁令确实存在不少漏洞,但据我判断,DeepSeek应该是通过合法获得的芯片完成了这项研发工作。

我拥有英伟达的股票!我完蛋了吗?

这个消息确实给英伟达的故事带来了真正的挑战。英伟达有两大护城河:

  • CUDA 是这些模型的首选开发语言,但它只能在 Nvidia 芯片上使用;
  • 英伟达在将多个芯片组合成一个大型虚拟 GPU 的能力方面遥遥领先;


这两个护城河是相互配合的。我之前提到,如果 DeepSeek 能使用 H100,他们可能会使用更大的集群来训练他们的模型,仅仅因为那会是更简单的选择;他们没有这样做,而是受限于带宽,这推动了他们在模型架构和训练基础设施方面的许多决定。看看美国的实验室:他们没有花太多时间在优化上,因为英伟达一直在积极发布越来越强大的产品来满足他们的需求 - 最简单的方法就是付钱给英伟达。然而,DeepSeek 刚刚证明还有另一条路可走:在较弱的硬件和更低的内存带宽上,通过大量优化可以产生显著的结果;简单地支付更多钱给英伟达并不是制造更好模型的唯一方式。

话虽如此,英伟达仍然具有三个优势:

  1. 如果将DeepSeek的方法应用到H100或即将推出的GB100上,会展现出怎样的能力?他们找到了更高效的计算方式,但这并不意味着更强大的计算能力就没有价值;
  2. 从长远来看,更低的AI推理成本必然会带来更大的使用量。微软CEO萨提亚·纳德拉在一条夜间发布的、几乎可以确定是对市场释放信号的推文中就明确表达了这一点:

杰文斯悖论(Jevons Paradox)又灵验啦!随着 AI 变得越来越高效、越来越唾手可得,我们会看到它的使用量暴涨,最终变成一个我们永远都觉得用不够的日常必需品。

第三,像 R1 和 o1 这类推理模型的优越性能就源于使用了更多的计算能力。AI 的能力和性能提升在多大程度上依赖于算力,英伟达就能在多大程度上从中受益!

尽管如此,情况并不都是乐观的。至少,DeepSeek 的效率和广泛可用性对英伟达最乐观的增长故事带来了重大质疑,至少在短期内是这样。模型和基础设施优化带来的收益也表明,特别是在推理方面,探索替代方案可能会带来显著收益。例如,在独立的 AMD GPU 上运行推理可能更加可行,完全绕过了 AMD 在芯片间通信能力方面的劣势。推理模型还增加了对推理专用芯片的回报,这些芯片比英伟达的 GPU 更加专业化。

简而言之,英伟达作为公司依然稳如泰山;但其股票却突然面临着更多尚未被市场定价的不确定性。而这种不确定性最终将会拖累整个市场。

那芯片禁令呢?

最容易做出的论点是,考虑到美国在软件方面的领先优势正在迅速消失,芯片禁令的重要性只会更加突出。软件和技术诀窍无法被禁运 — 我们之前就有过这样的辩论和认识 — 但芯片是实物,美国有理由将它们远离中国。

同时,我们应该对这样一个事实保持谦逊:早期的芯片禁令似乎直接导致了 DeepSeek 的创新。此外,这些创新不仅适用于走私的英伟达芯片或像 H800 这样被削弱的芯片,也适用于华为的昇腾芯片。实际上,你完全可以说芯片禁令的主要结果就是今天英伟达股票价格的暴跌

令人担忧的是芯片禁令背后的心态:美国并非致力于通过未来的创新来竞争,而是选择压制既有的创新成果。诚然,这种做法在短期内可能会产生效果——如果有更多的计算能力,DeepSeek确实会更加强大——但从长远来看,这实际上是在美国具有绝对主导地位的芯片和半导体设备行业埋下了隐患。。

就像 AI 模型一样?

AI 模型就是一个很好的例子。我前面提到过我会讲到 OpenAI 最大的罪行,在我看来,那就是 2023 年拜登颁布的人工智能行政令。正如我在《创新的衰减》一文中所写:

关键在于:如果你认同监管会让现有市场领导者持续保持优势这一前提,那么我们就会注意到一个显著现象:早期AI领域的成功者们似乎最热衷于在华盛顿引发对AI的担忧。然而有趣的是,他们所表现出的担忧程度显然还不足以让他们暂停自身的AI研发工作。不,他们将自己塑造成负责任的一方,标榜自己是足够重视问题而呼吁监管的群体;如果这些对假想危害的担忧恰好能够阻碍那些必然出现的竞争者,那对他们来说无疑是更好的结果

那段话专门针对 OpenAI,以及更广泛的湾区 AI 社区。多年来,我们一直受制于那些致力于构建 AI 的人 — 和控制它的人 — 对 AI 危险的担忧。这些所谓的危险是 OpenAI 在 2019 年发布 GPT-2 时转向封闭的动因:

由于担心大语言模型被用于大规模生成具有欺骗性、偏见性或攻击性的语言,我们仅发布了一个较小版本的GPT-2和采样代码⁠。我们不会公开数据集、训练代码或GPT-2模型权重…我们了解到,部分研究人员具备重现并开源我们研究成果的技术能力。我们相信,我们的发布方案能够限制最初选择这样做的组织数量,从而给AI社区留出更多时间来讨论此类系统带来的影响。

此外,我们认为各国政府应当考虑扩大或启动相关举措,以更系统地监测AI技术对社会的影响和传播,并衡量此类系统能力的发展进程。如果能够推进这些工作,将能为AI实验室和政府在发布决策和更广泛的AI政策方面提供更好的决策基础。

这番话既狂妄自大,更重要的是被证明完全徒劳:六年后的今天,全世界都能获取一个远比当初强大得多的模型权重。OpenAI在美国政府支持下实施的控制计划已经彻底失败。在这段时间里,仅仅因为顶尖模型不开放权重,我们究竟扼杀了多少创新可能?更进一步说,他们在游说政府构建行业壁垒上耗费了多少时间和精力?而这道壁垒如今已被DeepSeek轻易击破,这些宝贵的时间和精力本该用来推动真正的创新,不是吗?

所以你不担心 AI 末日场景?

我确实理解这种担忧,而且刚才也提到我们正在达到 AI 在训练 AI,并且在自主学习推理的阶段。然而,我认识到这趟列车是停不下来的。更重要的是,这正是为什么开放如此重要:我们需要世界上有更多的 AI,而不是一个不负责任的董事会统治我们所有人。

等等,为什么中国要开源他们的模型?

好吧,要说清楚,是 DeepSeek 在开源;CEO 梁文峰在一次必读的采访中提到,开源对吸引人才至关重要:

在面对颠覆性技术时,闭源创造的护城河是暂时的。即使是 OpenAI 的闭源方法也无法阻止其他人赶上。所以我们将价值锚定在我们的团队上 — 我们的同事通过这个过程成长,积累知识,形成一个能够创新的组织和文化。这就是我们的护城河。

开源、发表论文,实际上不会让我们失去任何东西。对技术人才来说,让其他人跟随你的创新会带来巨大的成就感。事实上,开源更多是一种文化行为而不是商业行为,为之做贡献让我们赢得尊重。对公司来说,这也有文化吸引力。

当采访者问这种做法是否会改变:

采访者:DeepSeek 现在有一种理想主义的光环,让人想起 OpenAI 的早期,而且它是开源的。你们以后会改为闭源吗?OpenAI 和 Mistral 都从开源转向了闭源。

梁文峰:我们不会改为闭源。我们相信首先拥有一个强大的技术生态系统更重要。

这种观点的合理性已经超越了单纯的理想主义。如果模型都变成了大宗商品——现状确实朝这个方向发展——那么长期的竞争优势就来自于更低的成本体系;这正是DeepSeek已经做到的,而这种模式恰恰呼应了中国是如何在其他行业占据主导地位的。与之形成鲜明对比的是大多数美国公司的差异化思维——他们通常倾向于通过开发具有特色的产品来追求更高的利润空间。

那 OpenAI 完蛋了吗?

不一定。ChatGPT 让 OpenAI 意外成为了一家消费科技公司,或者说一家产品公司;通过订阅和广告的某种组合,在可商品化的模型上建立一个可持续的消费者业务是有可能的。当然,还有在AI技术突破竞赛中获胜的赌注。

另一方面,Anthropic可能是这个周末最大的输家。DeepSeek登上了App Store榜首,这恰恰凸显了与之相比,Claude在旧金山之外根本没有获得任何吸引力。虽然其API业务表现较好,但API业务总体上最容易受到似乎不可避免的商品化趋势影响(值得注意的是,OpenAI和Anthropic的”推理成本”之所以看起来比DeepSeek高得多,是因为他们在其中获取了大量利润空间,而这种情况正在消失)。

那这一切听起来都很令人沮丧,是吗?

实际上,不是。我认为 DeepSeek 为几乎每个人都提供了一份巨大的礼物。最大的赢家是消费者和企业,他们可以期待一个实际上免费的 AI 产品和服务的未来。从长远来看,杰文斯悖论(Jevons Paradox)将主导这一天,所有使用 AI 的人都将是最大的赢家。

另一批赢家是大型消费科技公司。在AI免费的世界里,产品和分销渠道最为重要,而这些公司已经在这场游戏中获胜;《开端的终结》是对的。

中国也是一个大赢家,这一点我怀疑将随着时间推移变得越发明显。不仅是因为该国能够使用DeepSeek,而且我怀疑DeepSeek相对于美国领先AI实验室的成功,将会因为他们意识到自己有能力竞争而进一步释放中国的创新力。

这就留给了美国一个需要做出的选择。出于非常合理的原因,我们可以加倍采取防御措施,比如大幅扩大芯片禁令,对芯片和半导体设备实施类似欧盟对待科技的许可制监管制度;另一种选择是,我们可以意识到我们面临着真正的竞争,并且真正允许自己去竞争。停止纠结不安,停止倡导监管——事实上,走向相反的方向,剔除公司中所有与获胜无关的累赘。

如果我们选择竞争,我们仍然可以获胜,而且如果我们获胜了,我们将要感谢一家中国公司。

---
我写过的另外几篇DeepSeek专题:
1. DeepSeek-R1的创新到底在哪儿? - 重新定义AI推理能力的培养之道
2别那么快抛售英伟达:重新思考AI进化中的算力角色
343国登顶:见证Deepseek这家中国AI公司的出圈时刻

AI前沿速递
持续分享最新AI前沿论文成果
 最新文章