DeepSeek R1 6百万美元训练成本是否真实?

旅行   2025-01-25 11:14   江苏  

硅谷震惊:中国团队称仅花550万美元就训练出媲美GPT-4的模型!

这个数字在全球AI圈引发轩然大波。

比Meta 高管年薪还低的550 万美元训练成本,这是真的吗?

仅冰山一角?

Nathan Lambert 指出:DeepSeek的实际投入远超这个数字:

  • GPU投资可能超过10亿美元

  • 运营成本每年数亿美元

  • 约150位顶级研究员参与v3技术论文,仅人力成本就超5000万美元/年

斯坦福AI实验室博士后Kawin Ethayarajh 也补充到:

「DeepSeek的技术报告揭示了大量建模和基础设施决策的细节,这些数据让Meta 看起来在GPU 使用上效率低下。」

但实际上,Kawin 指出,他们(DeepSeek)在报告中也坦承:「上述成本仅包括DeepSeek-V3的正式训练,不含前期研究和实验成本。

突破性技术创新

DeepSeek在训练栈上实现了五大关键突破:

  1. 多头潜在注意力(MLA):最小化注意力算子的内存使用

  2. 多token预测:提升建模性能

  3. 高效专家混合架构:在训练计算效率上持续提升

  4. 部分8位本地训练:有效将计算能力提升近一倍

  5. 定制多GPU通信协议:优化H800通信速度,提升预训练吞吐量

从技术指标看:

  • 使用14.8T tokens进行训练

  • 总参数671B,活跃参数仅37B

  • 每万亿tokens训练仅需180K H800 GPU小时

  • 整个预训练阶段不到两个月

量化出身

研究人员Shane Gu揭示了团队的独特基因:「他们都来自量化交易领域,那里更重视效率和杠杆,而不是人数。

好的领导者重在优先级排序,而不是过度招聘。如果优先级排得好,团队就不会疲惫,无需扩张也能保持质量。

这就是DeepSeek团队的核心理念。

实力突破

在关键评测中,DeepSeek展现出惊人实力:

  • MATH 500和AIME 2024数学测试:超越GPT-4和Claude 3.5

  • Codeforces编程竞赛:表现优异

  • SWE-bench Verified:在OpenAI的改进数据集上表现出色

  • ChatBotArena排名:进入前10,超越Gemini Pro和Grok 2

The AI Investor透露:

DeepSeek实际拥有约5万台H800,因美国出口管制原因不便公开。

Scale AI CEO Alexandr Wang也证实了这一点。

颠覆性的市场策略

在定价策略上,DeepSeek展现出强大的市场竞争力:

  • 美国用户:7美元

  • 中国用户:2.19美元

Sacha 道破玄机:

「关键不在具体花费,而是他们比美国同行效率高出至少10倍。美国公司在AI上的年支出接近100亿美元,DeepSeek却只用5-10亿美元就达到了相近水平。」

用户体验方面,signüll(@signulll)分享道:

「看着模型与自己对话、测试想法、改进方法,感觉惊人地接近人类认知。它不只是在产生答案,而是在思考。这是第一次,真切感受到我们在与另一种智能共享这个星球。」

xlr8harder用数据说话:

「DeepSeek v3有37B活跃参数,训练了14.8万亿tokens,计算量为3.3e24 flops,完全可以用280万H800 GPU小时完成。对于质疑者,你们认为额外的算力用在了哪里?」

Perry E. Metzger更是直言:「很多质疑的声音背后是动机推理,比如希望出口管制能奏效。但真相很快就会水落石出,因为其他公司必然会尝试复制这一实验。

最新消息显示,已有不少工程师开始尝试使用这个模型。

Nairebis分享了他的实测体验:

「我用了一个包含4340行多语言源代码的提示,让它分析错误处理改进建议。它完美处理了这个任务,并给出了具体修改方案。这个模型是真的,而且能处理大规模代码。」

背后基建投入

根据DeepSeek官方文件和对其创始人梁文峰的采访显示,仅GPU支出就达到1.4亿美元。但这还只是设备投入的一部分:

  • 数据中心运营成本:每年仅电费就超过1000万美元

  • 冷却系统投入:维持大规模GPU集群所需的制冷设施投资巨大

  • 网络设施支出:为支持高速数据传输,网络基础设施投入可观

团队解密

DeepSeek团队有一个显著特点:几乎所有核心成员都来自High-Flyer这家市值千亿的量化交易公司。这个背景带来了独特优势:

  • 量化思维:习惯于用数据驱动决策

  • 效率至上:深谙资源优化之道

  • 技术积累:在处理大规模数据方面有丰富经验

高效之谜

Semi Analysis的研究表明,对于拥有10000+台A/H100的大型GPU集群:

  • 年度电费支出超过1000万美元

  • 冷却系统维护费用巨大

  • 基础设施更新成本持续攀升

但DeepSeek采用了不同策略:

  • 分布式训练:利用2048台H800进行核心训练

  • 资源优化:通过创新的通信协议提升GPU利用效率

  • 算法创新:多项技术突破降低了计算资源需求

成本优势

DeepSeek的成本优势来自多个方面:

  • 人才成本:中国AI人才薪资约为美国同行的1/10

  • 基建成本:与美国相比,中国的数据中心运营成本更低

  • 能源成本:得益于更经济的电力价格

Ethan Yu指出:「作者显然不了解中国基金公司的真实薪资水平(可能只有美国的1/10),而且这对他们来说只是个副业项目

真相

Perry E. Metzger预测:「真相很快就会水落石出,因为其他公司必然会尝试复制这一实验。我的赌注是这个数字是真实的。

但也有人持不同观点。Alice Maz质疑:「如果他们现在就用较少的GPU资源达到了这样的效果,除非遇到硬性扩展瓶颈,否则6个月内他们可能会完全超越现有水平。

The All-Seeing Eye则担忧:「不知道美国如何在大量投资都流向虚假炒作者的情况下保持竞争优势。

有一点是确定的:DeepSeek展示了一个全新的AI发展路径。

他们证明,在AI领域,效率投入更重要,智慧胜过资本

如Shane Gu所说:「好的领导重在排序优先级,而不是过度招聘。

这个来自量化交易的中国团队,正用他们的方式重新定义AI的发展路径。

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章