马斯克：这是我见过的对 DeepSeek 最透彻的分析！

职场 2025-01-28 11:52 河南

“
马斯克评论： "有趣的分析。我所见过的最好的。"
"AI 将无处不在。"

DeepSeek r1 的真相与细节

真实情况：

它在相关 App Store 类别中下载量排名第一。明显领先于 ChatGPT，这是 Gemini 和 Claude 都未能实现的。
从质量角度来看，它与 o1 相当，但仍落后于 o3。
实现了真正的算法突破，使其在训练和推理方面都大大提高了效率。FP8 训练、MLA 和多 token 预测都具有重要意义。
容易验证 r1 的训练成本仅为 600 万美元。虽然这在字面上是真实的，但也极具误导性。
即使他们的硬件架构也很新颖，值得注意的是他们使用 PCI-Express 进行扩展。

重要细节：

根据技术论文，600 万美元并不包括"与前期研究和架构、算法和数据消融实验相关的成本"。这意味着，只有在实验室已经在前期研究上投入数亿美元并且能够访问更大规模集群的情况下，才有可能以 600 万美元的成本训练出 r1 质量的模型。DeepSeek 显然拥有远超 2048 个 H800 的算力；他们早期的一篇论文提到拥有 10000 个 A100 的集群。一个同样聪明的团队不可能仅凭 600 万美元就能启动 2000 个 GPU 集群并从头开始训练 r1。大约 20% 的 Nvidia 收入来自新加坡。尽管他们尽了最大努力，但 20% 的 Nvidia GPU 可能并不在新加坡。
存在大量的知识蒸馏——也就是说，如果没有对 GPT-4o 和 o1 的无障碍访问，他们可能无法完成这个训练。正如 @altcap 昨天向我指出的，限制前沿 GPU 的访问权限却不对中国蒸馏美国前沿模型的能力采取任何措施，这很有趣——显然违背了出口限制的目的。为什么要买牛，如果可以免费获得牛奶？

核心发现：

DeepSeek r1 确实具有重要意义，但需要注意一些细微差别。最重要的是 r1 在推理成本上比 o1 低得多且效率更高，这比 600 万美元的训练成本更具意义。r1 的每次 API 调用成本比 o1 低 93%，可以在高端工作站上本地运行，而且似乎没有遇到任何速率限制，这很不可思议。简单计算一下，每 10 亿个活跃参数在 FP8 下需要 1GB 的 RAM，因此 r1 需要 37GB 的 RAM。批处理大大降低了成本，更多的计算能力增加了每秒 token 数，所以云端推理仍然具有优势。还要注意，这里存在真正的地缘政治动态，我认为这在"Stargate"之后发布并非巧合。再见了，5000 亿美元——我们几乎都还没认识你。

结论要点：

降低训练成本将提高 AI 的投资回报率。
在短期内，这对训练资本支出或"能源"主题都不会产生积极影响。
目前"AI 基础设施"赢家（跨科技、工业、公用事业和能源领域）面临的最大风险是：r1 的精简版本可以在高端工作站（如有人提到的 Mac Studio Pro）上本地运行。这意味着类似的模型将在约 2 年内可以在高性能手机上运行。如果推理计算转移到边缘设备是因为"够用了"，那么我们将面临一个截然不同的世界，出现不同的赢家——即我们将见证有史以来最大规模的 PC 和智能手机升级周期。计算能力一直在集中化和去中心化之间摆动。
人工超级智能（ASI）已经非常接近，但没有人真正知道超级智能的经济回报会是什么。如果一个耗资 1000 亿美元、在 10 万多个 Blackwells（o5、Gemini 3、Grok 4）上训练的推理模型能够治愈癌症和发明曲速引擎，那么 ASI 的回报将非常高，训练资本支出和能源消耗将稳步增长；戴森球将重新成为解释费米悖论的最佳理论。我希望 ASI 的回报是高的——那将太棒了。
这对于使用 AI 的公司都非常有利：软件、互联网等。
从经济角度来看，这极大地提升了分发渠道和独特数据的价值——YouTube、Facebook、Instagram 和 X。
美国的实验室可能会停止发布其前沿模型，以防止对 r1 至关重要的知识蒸馏，尽管在这方面，猫可能已经完全跑出了袋子。即 r1 可能足以训练 r2 等。

Grok-3 的影响

Grok-3 的出现可能会显著影响上述结论。这将是自 GPT-4 以来首次对预训练扩展定律的重要测试。就像花了几周时间通过强化学习将 v3 转变为 r1 一样，运行必要的强化学习来提高 Grok-3 的推理能力也可能需要几周时间。基础模型越好，推理模型就应该越好，因为三个扩展定律是相乘的——预训练、后训练期间的强化学习，以及推理过程中的测试时计算（这是强化学习的函数）。Grok-3 已经表明它可以完成超出 o1 的任务——参见 Tesseract 演示——超出多少将变得很重要。用《双塔奇兵》中一个匿名兽人的话来说，"肉可能很快就会重新上菜"。时间会告诉我们答案，"当事实改变时，我就改变主意。"

来源 | https://x.com/elonmusk/status/1883917889654382910
编译 | 公众号@AI智见录

欢迎关注 “AI智见录”，为您分享更多精彩 AI 内容。

期文章推荐

- 这是底线 -

扫描以下二维码加小编微信，备注 “ai”，一起交流 AI 技术！

AI智见录

洞见AI前沿，分享技术与实践，助力智慧未来

最新文章

清华大学《DeepSeek：从入门到精通.pdf》

王者归来！GitHub Copilot 重磅推出 Agent 模式，剑指 Cursor

DeepSeek 中老年人使用指南，90%的人都不知道的使用技巧，强烈建议收藏！

秘塔AI×DeepSeek R1强强联合：解决 99% 用户的联网搜索问题！

OpenAI 祭出 "深度搜索" 大杀器！没想到DeepSeek的回复够犀利！

深度揭秘！99%人不知道的DeepSeek隐藏用法，用错血亏！

打工人逆袭！DeepSeek隐藏的8个AI神操作，每天偷懒2小时竟被夸效率高

重磅！华为芯片跑通DeepSeek！国产AI大模型最低1元100万Token，还能白嫖！

Cursor 说 o3-mini 所有用户免费使用！

重磅！OpenAI 发布免费推理模型 o3-mini，正面对标 DeepSeek，AI 领域再掀波澜

刚刚！Windsurf 宣布支持 DeepSeek R1 和 V3，成本比 Claude 便宜 4 倍！

DeepSeek 使用技巧，强烈建议收藏！普通人逆袭就靠它了！

知乎上爆火的 DeepSeek 梁文峰深夜回信，R1 模型说大概率 AI 写的！

连环出击！美国刚对 DeepSeek 网络攻击，意大利就要求下架？

爆火！新人小白也能用 DeepSeek 写新年祝福！

马斯克：这是我见过的对 DeepSeek 最透彻的分析！

DeepSeek 深夜发布新模型 Janus-Pro！刚打完 OpenAI，现在又脚踢 Midjourney！

重磅升级！Cursor 0.45：AI 更懂代码、DeepSeek 双模型加持

Cline 发布 3.2：白嫖 Claude 3.5、秒变架构师！

V0 的弟弟 “V2” 来了！

硬刚OpenAI o1，DeepSeek开源R1，自带思维链能力，能够推理和解决复杂问题

直冲 Cursor！字节发布全新 AI IDE Trae，Claude-3.5 无限量免费用！

Windsurf 新版本抢占高地，Cursor 说我又拿了 7 亿融资，谁会赢的未来？

Windsurf 发布Wave 2，Web实时搜索、URL上下文、自动化记忆等一大波新功能来袭！

Qwen Chat 发布全新 Web UI！体验超棒！

Roo Cline 3.0 重磅发布：人手一个架构师时代到来！

Gemini 2.0 Flash + Cline 打造最强 0 元购组合！

Cline 3.1 最新发布：体验感拉升一个新高度！

太火爆！Browser-Use WebUI 已被纳入 browser-use 麾下！

Browser-Use WebUI + DeepSeek V3 把浏览器整成自动化了!

Windsurf：唯一让 Cursor 瑟瑟发抖的最强对手！

一起来聊聊 Cursor、Copilot、Windsurf、V0...

Cline + DeepSeek-V3 对打 Cursor，谁更胜一筹？

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

Cursor Yolo 模式太棒了！

国产大模型 DeepSeek-V3 正式发布：代码场景逼近Claude-3.5-Sonnet和GPT-4o

Cursor发布0.44版本：全面提升Agent能力！

感受下 Cursor Agent 的强大魅力！

尤大亲自转发点赞！Github Copilot Edits 有何魔力？

字节最新开源：让 AI 给你写 UI 自动化测试

Cursor 的最佳搭档来了，专治不会写提示词！

Sora 正式发布：刚推出就火的让奥特曼关闭注册功能了！

antd 对 ai 下手了！Vue 开发者表示羡慕！

v0 急了！迎来重大更新，这是要对标 Bolt.new 和 Cursor？

斯坦福大学教授开源新项目：一个接口调用 OpenAI 等众多大模型

那个被何同学抄袭的项目 ASCII-generator 是干嘛用的？

40.9K Star！单图秒变主角，AI实时换脸神器引爆创意新潮流

OpenAI 写给学生的《12 条 ChatGPT 使用指南》

苹果上的 ChatGPT 现已支持 VS Code、Xcode、Terminal 等应用

只需 2 分钟，让 Bolt.new 写一个 “抖音”！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉