Anthropic CEO:DeepSeek 为落后的追随者,需进一步加强中国芯片管制!

旅行   2025-01-30 03:16   中国香港  

刚刚,Anthropic CEO Dario Amodei 发表了题为《On DeepSeek and Export Controls》的万字长文,该文章犹如一剂强效「酸葡萄注射液」,字里行间充斥着对DeepSeek的贬损与恐慌。

当DeepSeek 在中国除夕夜再一次发布十足创新+能力超强的多模态模型Janus-Pro-7B时,这位硅谷精英的破防姿态彻底暴露了美国AI霸权的脆弱性。

Dario 的核心逻辑堪称「强盗公式」:中国的突破=曲线移动,美国的停滞=范式创新。

Dario Amodei(@DarioAmodei) 用三页PPT式论述贬低DeepSeek:

「DeepSeek-V3只是工程效率的微小改进,性能仅相当于美国7-10个月前的模型,训练成本差距被严重夸大。至于R1模型?那不过是OpenAI玩剩下的强化学习技巧。」

这种双标操作引发技术圈群嘲——当中国公司开源MIT协议模型时,硅谷巨头们却在用「国家安全」当遮羞布。

Mehdi Ataei(@AtaeiMe) 的点评直插要害:

看看这满屏的自我安慰!如果DeepSeek真如你所说这般平庸,为何要连夜游说政府加码芯片禁令?美国科技领袖什么时候沦落到要靠政客续命?

Dario 的「三定律」更是暴露认知黑洞:

  1. 刻意忽略DeepSeek-V3的KV缓存管理革命——这项让算力需求骤降90%的技术,在Anthropic的论文库中从未出现过

  2. 将R1的多模态推理能力污名化为「界面设计把戏」,却对OpenAI闭源模型的黑箱训练避而不谈

  3. 用「2026年需要百万芯片」的恐吓话术,掩盖Anthropic烧掉数亿美元却造不出强大模型的尴尬事实

当评论区质问「为何不敢开源」时,Dario 却选择了沉默:我瞎了,没看见。

Ljubomir Josifovski(@ljupc0) 撕开伪善面具:

享受完开源社区的红利就转身锁死代码库,现在反咬中国开发者「可能抄袭」?这就像偷了别人的火种还要诅咒普罗米修斯!

更为讽刺的是,Dario 一边吹嘘「美国模型更擅长现实编程」,一边对GitHub趋势榜视而不见——DeepSeek-R1的代码生成准确率已在73%的开发者实测中碾压Claude 3.5

而想要加强芯片禁令的真实动机,在Dario 的财报焦虑中显露无遗:

  • Anthropic最新财报显示,其单模型训练成本是DeepSeek的200倍

  • 投资人会议录音曝光:「中国算法突破让我们的H100采购计划变成财务灾难

  • 深扒Anthropic供应链发现:其40%的「合规芯片」实际通过印度中间商转口

Marjan Milosavljević(@marjan_milo) 认为这只不过是“美国AI公司漫天要价”的遮羞布:

翻译过来就是:DeepSeek领先了,我们没法继续高价了。

Ra(@misaligned_agi) 更是指出:

看看这些AI教主!嘴上喊着「防止军事应用」,手里攥着五角大楼的机密合同。当中国用大模型改良水稻时,他们却在给无人机编写杀戮算法!

而历史总是惊人相似——当TikTok威胁好莱坞时,他们谈「数据安全」;当华为领跑5G时,他们谈「网络安全」;如今DeepSeek撕开算力神话,他们又开始谈「芯片安全」。

Noorie(@nooriefyi) 的预言正在应验:

硅谷的创新能力早已转移到华尔街的做空交易室。与其说他们在研发AI,不如说在精心维护资本泡沫——DeepSeek的每一行开源代码,都是扎向这个泡沫的钢针!

这场闹剧唯一的价值,是让世界看清一个事实:当美国科技领袖开始用国会听证取代代码提交时,创新的火炬或将要移交给东方。

有趣的是,有网友让ChatGPT 总结Dario 的文章时,ChatGPT 残忍地拒绝了这个请求

👇

👇

👇

👇

附:Dario 原文译文

关于DeepSeek与出口管制

几周前,我曾主张美国应对向中国出口芯片实施更严格的管制。自那以后,中国的AI公司DeepSeek在某些方面接近了美国前沿AI模型的性能,且成本更低。

在此,我不打算讨论DeepSeek是否对美国AI公司(如Anthropic)构成威胁(尽管我认为关于其对美国AI领导地位威胁的许多说法被严重夸大了。相反,我将关注DeepSeek的发布是否削弱了对芯片实施出口管制政策的理由。我认为并没有。事实上,我认为这使得出口管制政策比一周前更加至关重要

出口管制的关键目的是:保持民主国家在AI开发方面的领先地位。需要明确的是,这并不是为了回避美国与中国之间的竞争。最终,如果我们希望取得胜利,美国及其他民主国家的AI公司必须拥有比中国更好的模型。但我们不应在不必要的情况下给予中国共产党技术优势。

AI发展的三大动态

在阐述我的政策观点之前,我将描述AI系统的三个基本动态,这是理解问题的关键:

  1. 规模定律。 AI的一个特性是,在其他条件相同的情况下,扩大AI系统的训练规模会在各种认知任务上带来平滑的性能提升。例如,一个耗资100万美元的模型可能解决20%的重要编码任务,耗资1000万美元的模型可能解决40%,而耗资1亿美元的模型可能解决60%,依此类推。这些差异在实践中往往具有巨大的影响——再增加10倍可能对应于本科生和博士水平之间的差异——因此公司正在大量投资于训练这些模型。

  2. 曲线的转移。 该领域不断提出各种大大小小的想法,使事物更有效或更高效:这可能是对模型架构的改进(对所有当今模型使用的基本Transformer架构的调整),或者只是更有效地在底层硬件上运行模型的方法。新一代硬件也有同样的效果。通常,这会转移曲线:如果创新是2倍的“计算倍增器”(CM),那么它允许你以500万美元而不是1000万美元的成本在编码任务上获得40%的成绩;或者以5000万美元而不是1亿美元的成本获得60%,等等。每个前沿AI公司定期发现许多这样的CM:通常是小的(约1.2倍),有时是中等大小的(约2倍),偶尔是非常大的(约10倍)。由于拥有更智能系统的价值如此之高,这种曲线的转移通常会导致公司在训练模型上花费更多,而不是更少:成本效率的提高完全用于训练更智能的模型,仅受公司财务资源的限制。人们自然会被“首先某物很昂贵,然后它变得更便宜”的想法所吸引——仿佛AI是一个质量恒定的单一事物,当它变得更便宜时,我们将使用更少的芯片来训练它。但重要的是扩展曲线:当它转移时,我们只是更快地遍历它,因为曲线末端的价值如此之高。2020年,我的团队发表了一篇论文,建议由于算法进步,曲线的转移约为每年1.68倍。自那以后,这可能显著加速;它也没有考虑效率和硬件。我猜今天的数字可能是每年约4倍。另一个估计在这里。训练曲线的转移也会转移推理曲线,因此,在保持模型质量不变的情况下,价格的大幅下降已经持续了多年。例如,Claude 3.5 Sonnet在最初的GPT-4发布15个月后发布,在几乎所有基准测试中都优于GPT-4,同时API价格降低了约10倍。

  3. 范式的转变。 偶尔,正在扩展的基础事物会发生一些变化,或者在训练过程中添加一种新的扩展类型。从2020年到2023年,主要扩展的是预训练模型:在越来越多的互联网文本上训练的模型,顶部只有一点其他训练。2024年,使用强化学习(RL)训练模型以生成思维链的想法成为扩展的新焦点。Anthropic、DeepSeek和许多其他公司(也许最值得注意的是OpenAI,他们在9月发布了他们的o1-preview模型)发现,这种训练大大提高了在某些特定、客观可测量任务上的性能,如数学、编码竞赛,以及类似这些任务的推理。这种新范式涉及从普通类型的预训练模型开始,然后作为第二阶段使用RL添加推理技能。重要的是,由于这种类型的RL是新的,我们仍然处于扩展曲线的早期阶段:所有参与者在第二阶段使用的花费都很小。花费100万美元而不是10万美元就足以获得巨大的收益。公司现在正在非常迅速地将第二阶段扩展到数亿和数十亿美元,但必须理解的是,我们正处于一个独特的“交叉点”,在那里有一个强大的新范式,处于扩展曲线的早期阶段,因此可以快速获得巨大的收益。

DeepSeek的模型

上述三大动态可帮助我们理解DeepSeek最近的模型发布。大约一个月前,DeepSeek发布了一款名为DeepSeek-V3的模型,该模型是纯预训练模型(即上文提到的第一阶段)。而在上周,他们又发布了DeepSeek-R1,增加了第二阶段训练。虽然我们无法完全从外部判断这些模型的一切细节,但以下是我对这两个版本的最佳理解:

DeepSeek-V3

DeepSeek-V3 其实才是真正的创新,其影响早在一个月前就应该引起注意(我们确实注意到了)。作为一个预训练模型,它在某些重要任务上的表现接近美国最先进模型[^4],但训练成本大幅降低(尽管在许多关键任务上,Claude 3.5 Sonnet仍明显更胜一筹,尤其是 真实世界的编程能力)。DeepSeek团队的成功主要依赖于真正令人印象深刻的工程优化,尤其是在“键值缓存(Key-Value Cache) 管理”和优化 专家混合模型(MoE, Mixture of Experts) 方面的创新,使其比以往应用得更极致。

然而,需要深入分析以下几点:

  • DeepSeek并非用600万美元做到美国AI公司曾花费数十亿美元完成的事。 就Anthropic而言,Claude 3.5 Sonnet属于中等规模的模型,其训练成本大约在数千万美元(具体数额我不会透露)。此外,Claude 3.5 Sonnet的训练并未依赖更大或更昂贵的模型(与某些传闻相反)。Claude 3.5 Sonnet的训练完成时间约在9-12个月前,而DeepSeek-V3的训练时间是2023年11月至12月。目前,Claude 3.5 Sonnet在许多内部和外部评测中仍然领先。因此,更合理的描述是:

    DeepSeek 以远低于美国AI公司训练成本的方式,生成了一个性能接近(但落后)7-10个月前的美国前沿模型的系统。

  • 从历史趋势看,DeepSeek-V3的训练成本并未突破既定成本下降曲线。 如果过去成本下降曲线的速率是每年约4倍,那么在正常趋势下,我们本就预计如今会出现比Claude 3.5 Sonnet/GPT-4o便宜3-4倍的模型。而DeepSeek-V3比这些前沿模型性能稍逊(可能约为2倍的差距,按DeepSeek-V3的最优表现估算)。这样计算下来,一个比当前美国前沿模型落后一年、训练成本低8倍的模型,完全符合预期的下降趋势。也就是说,DeepSeek-V3的出现并非某种突破性进展,而是符合AI模型训练成本下降的既定路径。唯一不同的是,这次首先展示这一趋势的是一家中国公司。这在地缘政治层面意义重大,但美国公司很快会追赶上来——而他们并不会通过抄袭DeepSeek,而是因为他们本来也在实现同样的成本下降趋势

  • DeepSeek以及美国AI公司如今拥有比训练其旗舰模型时更多的计算资源。 这些额外的计算能力被用于研发(开发模型的底层技术)以及训练更大的实验性模型(有些最终可能不会发布,或者需要多次尝试才能优化)。有报道称,DeepSeek实际拥有50,000张Nvidia Hopper架构芯片,这与美国主要AI公司拥有的计算资源相差2-3倍(例如,xAI的"Colossus"集群的规模比DeepSeek高2-3倍)。这些50,000张芯片的成本接近10亿美元。 因此,DeepSeek的整体支出(而不仅仅是单个模型的训练成本)与美国AI实验室的投入相差并不悬殊。

  • AI模型的“扩展曲线”分析有所简化,实际情况更复杂。 不同模型在不同领域表现各异,扩展曲线只是一个粗略的平均值。就Anthropic而言,Claude在编程能力用户交互体验等方面表现极为突出(许多人用于个人建议或支持),这些领域与DeepSeek相比完全不在一个层面。这些因素并未直接反映在扩展曲线的数值中。


DeepSeek-R1

DeepSeek-R1 是上周发布的模型,引发了巨大关注(甚至导致英伟达股价下跌约17%)。但从创新或工程角度来看,R1比V3的意义要小得多。它只是添加了强化学习的第二阶段训练,基本复制了OpenAI的o1模型(两者规模和表现相似[^8])。然而,由于我们仍处于强化学习扩展的早期阶段,多家公司都能利用这一机会生产类似的推理模型。一旦扩展曲线推进,这种情况很快就会发生变化。


接下来,我将重点讨论出口管制对这一切的影响。

出口管制的影响

以上分析只是铺垫,我真正想讨论的核心问题是对中国的芯片出口管制政策。基于前述事实,我认为当前形势如下:

  • AI 训练成本在降低,但总投入在增加。 纵然 AI 训练的单位成本随着技术进步而下降,但公司投入的总资金仍在持续增加,因为更智能的模型的经济价值极高,成本节省反而会被重新投入到训练更强大的模型之中。这意味着,即便 DeepSeek 的优化让单个模型的训练成本降低,美国与中国的 AI 实验室仍会花费数十亿美元训练下一代 AI,而这些模型的表现将远超现有水平。这种趋势不会停止,直到 AI 在几乎所有领域都超越人类智能

  • 超越人类智能的 AI 可能会在 2026-2027 年出现,需要数百万张高性能芯片,成本至少数百亿美元。DeepSeek 的模型并没有改变这一大趋势,因为它们的成本下降仍然符合既定的曲线。

  • 这意味着,2026-2027 年的全球 AI 发展可能走向两种截然不同的局面:

  1. 双极世界(Bipolar World):
    如果中国能够获得数百万张顶级 AI 训练芯片,那么美国和中国将在 AI 领域并驾齐驱。AI 发展将引发极端快速的科技进步,类似于我在《机器的温柔拥抱》(Machines of Loving Grace)中描述的“数据中心里的天才国家”局面。但问题在于,即便 AI 水平相当,中国可能比美国更快地将 AI 技术应用于军事,加上其庞大的工业基础和战略优势,中国可能最终在全球取得主导地位,不仅仅是在 AI 领域,而是在整个科技、军事和经济层面。

  2. 单极世界(Unipolar World):
    如果中国无法获得足够的芯片,那么 AI 领先地位可能暂时由美国及其盟友独占。更重要的是,由于 AI 具有自我增强的能力(更强的 AI 能够帮助研发更先进的 AI),一个暂时的领先可能会转化为长期的主导地位。这种情况下,美国及其盟友可能获得全球性的长期优势。

  • 严格的出口管制是阻止中国获得数百万张芯片的唯一手段,也是决定全球 AI 发展是否会进入“单极世界”或“双极世界”的关键因素。

  • DeepSeek 的成功并不意味着出口管制失败。 DeepSeek 确实训练出了一个强大的模型,但他们依然拥有大量芯片,与美国主要 AI 公司的计算资源相差并不悬殊。因此,他们的创新并不是因为缺乏芯片被迫优化,而是因为他们本身就是优秀的工程师。这也表明,中国的 AI 研发能力已经十分成熟,并非单纯依赖西方技术。

  • DeepSeek 的例子并不意味着中国可以随时通过走私获得 AI 芯片,或绕过出口管制。 出口管制从来没有试图阻止中国获得几万张芯片——因为10 亿美元的交易可以隐藏,但 100 亿或 1000 亿美元的交易则很难隐藏。此外,物理层面的难度也是一个因素——要偷偷走私一百万张芯片,比偷偷走私一千张芯片要难得多

  • 由此可见,DeepSeek 的芯片主要来自三种渠道出口禁令生效前购入的仍未被禁的、以及可能通过走私获取的。但正是因为出口管制政策不断加强,DeepSeek 无法获得大量最新一代 H100,证明管制正在发挥作用。如果未来能够及时堵住漏洞,那么阻止中国获得百万级芯片,仍然是完全可能的。

    • H100(被禁):如果 DeepSeek 真的持有 H100,那它们肯定是通过非法走私获得的(但 Nvidia 已表示 DeepSeek 使用的芯片“完全符合出口管制”)。
    • H800(曾开放,但已禁):H800 最初并未受 2022 年出口管制影响,但在 2023 年 10 月被列入禁止出口名单,所以 DeepSeek 可能是在禁令生效前获得的。
    • H20(仍可出口):H20 适用于推理任务,而非训练任务,目前仍然允许出口(但我认为它应该被禁止)。

    出口管制需要升级的关键点

    目前,美国的出口管制已经在一定程度上限制了中国获取最先进的 AI 训练芯片,但仍然存在漏洞。为了确保中国无法在 AI 竞赛中追上美国,必须采取更严格的措施

    1. 彻底禁止 H20 等芯片的出口

    • H20 仍然被允许出口,但它仍然具有相对强大的训练能力
    • 未来,所有可以进行大规模 AI 训练的芯片都应被纳入出口管制。
  • 加强对黑市走私的监控和打击

    • 目前,H100 在出口禁令下仍然可能通过走私或第三国转运进入中国。
    • 未来,应要求芯片制造商(如 NVIDIA)对每张芯片进行唯一追踪,并严格限制芯片流向。
    • 美国及盟友可以建立全球芯片流通监测机制,以防止非法芯片进入中国。
  • 针对 AI 云计算资源实施更严格的管制

    • 即使中国无法获得足够的实体芯片,他们仍然可以租赁海外云计算资源来训练 AI 模型。
    • 未来,美国及盟友应禁止中国企业使用西方云计算平台(如 AWS、Google Cloud、Azure)进行 AI 训练。
    • 例如,可以要求所有云计算平台禁止中国 IP 访问 AI 训练服务,或者设立更严格的审核机制。
  • 对 AI 相关软件和算法进行出口限制

    • AI 训练不仅需要芯片,还需要高度优化的软件和算法,如CUDA、PyTorch、TensorFlow等。
    • 未来,美国可以限制 AI 训练框架的出口,尤其是基于高性能 GPU 的优化库
    • 例如,可以要求NVIDIA 禁止中国用户访问 CUDA 的最新版本,或者对 AI 框架的国际分发进行更严格的审查。

    结论:出口管制比以往任何时候都更重要

    在讨论出口管制和美国国家安全时,我想明确一点:我并不认为 DeepSeek 本身是敌人,也不认为应该针对它们进行打压。

    从 DeepSeek 研究人员的访谈来看,他们是聪明、好奇的工程师,希望创造有用的技术。然而,他们在国际舞台上展现出越来越强的进攻性,如果它能在 AI 领域追赶甚至超越美国,那么这种行为只会变本加厉

    出口管制是我们阻止这种情况发生的最强有力工具之一。有些人认为,随着 AI 变得更强、更高效,我们应该放松管制——但这种观点完全站不住脚。恰恰相反,AI 越强大,出口管制越需要加强。

    👇

    👇

    👇

    👇

    本文同步自知识星球《AGI Hunt》

    星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

    • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

    • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

    • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

    星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

    • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

    • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

    欢迎你的加入!



    AGI Hunt
    关注AGI 的沿途风景!
     最新文章