首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

DeepSeek R1 6百万美元训练成本是否真实？

旅行 2025-01-25 11:14 江苏

硅谷震惊：中国团队称仅花550万美元就训练出媲美GPT-4的模型！

这个数字在全球AI圈引发轩然大波。

比Meta 高管年薪还低的550 万美元训练成本，这是真的吗？

仅冰山一角？

Nathan Lambert 指出：DeepSeek的实际投入远超这个数字：

GPU投资可能超过10亿美元
运营成本每年数亿美元
约150位顶级研究员参与v3技术论文，仅人力成本就超5000万美元/年

斯坦福AI实验室博士后Kawin Ethayarajh 也补充到：

「DeepSeek的技术报告揭示了大量建模和基础设施决策的细节，这些数据让Meta 看起来在GPU 使用上效率低下。」

但实际上，Kawin 指出，他们（DeepSeek）在报告中也坦承：「上述成本仅包括DeepSeek-V3的正式训练，不含前期研究和实验成本。」

突破性技术创新

DeepSeek在训练栈上实现了五大关键突破：

多头潜在注意力（MLA）：最小化注意力算子的内存使用
多token预测：提升建模性能
高效专家混合架构：在训练计算效率上持续提升
部分8位本地训练：有效将计算能力提升近一倍
定制多GPU通信协议：优化H800通信速度，提升预训练吞吐量

从技术指标看：

使用14.8T tokens进行训练
总参数671B，活跃参数仅37B
每万亿tokens训练仅需180K H800 GPU小时
整个预训练阶段不到两个月

量化出身

研究人员Shane Gu揭示了团队的独特基因：「他们都来自量化交易领域，那里更重视效率和杠杆，而不是人数。」

「好的领导者重在优先级排序，而不是过度招聘。如果优先级排得好，团队就不会疲惫，无需扩张也能保持质量。」

这就是DeepSeek团队的核心理念。

实力突破

在关键评测中，DeepSeek展现出惊人实力：

MATH 500和AIME 2024数学测试：超越GPT-4和Claude 3.5
Codeforces编程竞赛：表现优异
SWE-bench Verified：在OpenAI的改进数据集上表现出色
ChatBotArena排名：进入前10，超越Gemini Pro和Grok 2

The AI Investor透露：

「DeepSeek实际拥有约5万台H800，因美国出口管制原因不便公开。」

Scale AI CEO Alexandr Wang也证实了这一点。

颠覆性的市场策略

在定价策略上，DeepSeek展现出强大的市场竞争力：

美国用户：7美元
中国用户：2.19美元

Sacha 道破玄机：

「关键不在具体花费，而是他们比美国同行效率高出至少10倍。美国公司在AI上的年支出接近100亿美元，DeepSeek却只用5-10亿美元就达到了相近水平。」

用户体验方面，signüll(@signulll)分享道：

「看着模型与自己对话、测试想法、改进方法，感觉惊人地接近人类认知。它不只是在产生答案，而是在思考。这是第一次，真切感受到我们在与另一种智能共享这个星球。」

xlr8harder用数据说话：

「DeepSeek v3有37B活跃参数，训练了14.8万亿tokens，计算量为3.3e24 flops，完全可以用280万H800 GPU小时完成。对于质疑者，你们认为额外的算力用在了哪里？」

Perry E. Metzger更是直言：「很多质疑的声音背后是动机推理，比如希望出口管制能奏效。但真相很快就会水落石出，因为其他公司必然会尝试复制这一实验。」

最新消息显示，已有不少工程师开始尝试使用这个模型。

Nairebis分享了他的实测体验：

「我用了一个包含4340行多语言源代码的提示，让它分析错误处理改进建议。它完美处理了这个任务，并给出了具体修改方案。这个模型是真的，而且能处理大规模代码。」

背后基建投入

根据DeepSeek官方文件和对其创始人梁文峰的采访显示，仅GPU支出就达到1.4亿美元。但这还只是设备投入的一部分：

数据中心运营成本：每年仅电费就超过1000万美元
冷却系统投入：维持大规模GPU集群所需的制冷设施投资巨大
网络设施支出：为支持高速数据传输，网络基础设施投入可观

团队解密

DeepSeek团队有一个显著特点：几乎所有核心成员都来自High-Flyer这家市值千亿的量化交易公司。这个背景带来了独特优势：

量化思维：习惯于用数据驱动决策
效率至上：深谙资源优化之道
技术积累：在处理大规模数据方面有丰富经验

高效之谜

Semi Analysis的研究表明，对于拥有10000+台A/H100的大型GPU集群：

年度电费支出超过1000万美元
冷却系统维护费用巨大
基础设施更新成本持续攀升

但DeepSeek采用了不同策略：

分布式训练：利用2048台H800进行核心训练
资源优化：通过创新的通信协议提升GPU利用效率
算法创新：多项技术突破降低了计算资源需求

成本优势

DeepSeek的成本优势来自多个方面：

人才成本：中国AI人才薪资约为美国同行的1/10
基建成本：与美国相比，中国的数据中心运营成本更低
能源成本：得益于更经济的电力价格

Ethan Yu指出：「作者显然不了解中国基金公司的真实薪资水平（可能只有美国的1/10），而且这对他们来说只是个副业项目。」

真相

Perry E. Metzger预测：「真相很快就会水落石出，因为其他公司必然会尝试复制这一实验。我的赌注是这个数字是真实的。」

但也有人持不同观点。Alice Maz质疑：「如果他们现在就用较少的GPU资源达到了这样的效果，除非遇到硬性扩展瓶颈，否则6个月内他们可能会完全超越现有水平。」

The All-Seeing Eye则担忧：「不知道美国如何在大量投资都流向虚假炒作者的情况下保持竞争优势。」

有一点是确定的：DeepSeek展示了一个全新的AI发展路径。

他们证明，在AI领域，效率比投入更重要，智慧胜过资本。

如Shane Gu所说：「好的领导重在排序优先级，而不是过度招聘。」

这个来自量化交易的中国团队，正用他们的方式重新定义AI的发展路径。

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

关注AGI 的沿途风景！

最新文章

从DeepSeek R1看推理模型的四种进化路线

对DeepSeek的五大误解！

重磅！Gemini 2.0全家桶发布：Flash免费用，Pro会写代码，还有一个便宜货

传言称Grok-3延迟！但马斯克仍手握最强算力

Deep Research 开源版来了！立省200美元

魔幻现实之：美国人下载DeepSeek 将坐牢20年？！

爆料：Anthropic 有比o3 更强的模型，但不敢放出来

Lex Fridman 最新播客：Deepseek与o3-mini，芯片管制与中美竞争、AI Agent与AGI……

华为突围：910C芯片性能达H100的60%！DeepSeek 已验证

OpenAI Deep Research上线：人类研究员失业倒计时？

基于o3-mini 的浏览器agent，打造属于自己的Operator

伯克利教授：AI思考的越多，越容易出错

o3-mini 的10 大疯狂应用案例！

指责DeepSeek 的OpenAI 们才是真正的賊！

特斯拉：This robot sucks!

Yann LeCun 痛批硅谷精英的优越感！

o3-mini 发布，但仍未走出DeepSeek 阴影

美分析机构称DeepSeek V3 成本远超600 万美元，实际达13亿美元！

OpenAI 最强模型o3 今晚发布！

重现Deepseek R1 「Aha Moment」的完整教程来了！

当马斯克的脑机接口卷到了书法界，我们正在见证史上最硬核的意念书法大赛！

Stable Diffusion 创始人：DeepSeek 没有抄袭！

Anthropic CEO：DeepSeek 为落后的追随者，需进一步加强中国芯片管制！

OpenAI 称有证据证明DeepSeek违规使用其模型！

Grok 重磅推出推理能力，Grok 3 或指日可待！

DeepSeek严正声明：警惕虚假账号冒充！

手把手教学：40000 元在家跑顶级DeepSeek R1的完整方案！

重磅！OpenAI 推出美国政府专用版ChatGPT Gov！

Meta 或成开源竞赛中最大输家！

DeepSeek 入场，Meta 或成开源竞赛中最大输家！

终于，Sam Altman 正面迎战DeepSeek！

量化压缩80%！160GB就能运行671B的DeepSeek R1

炸裂！DeepSeek 的新春礼物——多模态模型Janus-Pro 详解

DeepSeek 爆火遭Scale AI 华裔 CEO Alexandr Wang 痛批：美国必须加强对中国AI 管制！

继Operator 之后，Perplexity 推出多模态助手！

马斯克：OpenAI 星门计划将流产！

DeepSeek R1 6百万美元训练成本是否真实？

试用完 OpenAI 的新代理工具，以下是我们的发现

哈佛医学院：AI 将治愈癌症，Sam Altman 没在吹牛！

重磅！字节发布UI-TARS大模型，三句话搞定电脑操作！碾压GPT-4！

Perplexity发布Sonar API，提供实时信息搜索功能，一举超越所有搜索引擎和LLM！

Perplexity发布Sonar API，一举超越所有搜索引擎和LLM

重磅！OpenAI 宣布5000亿美元启动Stargate项目，「星门计划」再起波澜！

Anthropic发布 Agent 最佳实践指南！

重磅！Anthropic CEO 称将于2025年推出数字员工！

Perplexity CEO：印度应向中国学习模型研发！

DeepSeek R1 训练方法解析

超便携AI超算来了！这台「公文包」竟能塞下一台超级计算机

以小博大，DeepSeek-R1-Distill-Qwen-1.5B 开源模型击败GPT-4和Claude 3.5!

爬虫工程师将失业！Firecrawl 能让你一句话抓取全网数据！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉