这篇对 DeepSeek 的分析：获马斯克点赞

职场 2025-01-28 21:51 重庆

获马斯克称赞 “饶有趣味的分析。我所见过的最好的。”，“AI 将无所不在。”

作者：Gavin Baker 是 Atreides Management， LP 的执行合伙人兼首席投资官，该公司专注于技术和消费者公共和私人股本。

DeepSeek r1 具有一些重要的细节。

最重要的莫过于这一点：r1 的推理成本比 o1 低得多，推理效率却要比 o1 高得多，训练费用仅为 600 万美元。r1 每次 API 调用的*使用*成本比 o1 低 93%，可以在高端工作站上本地运行，而且似乎没有遇到任何速率限制，这很不可思议。

简单计算一下，每 10 亿个活跃参数在 FP8 下需要 1GB 的内存，因此 r1 需要 37GB 的内存。批处理大大降低了成本，更多的计算能力增加了每秒 token（词元）数，所以云端推理仍然具有优势。

另外要指出的一点是，这里牵涉真正的地缘政治因素，我认为这在“Stargate”之后发布并非巧合。再见了，5000 亿美元——我们几乎都还没认识你。

真实情况：

1）它在相关 App Store 类别中下载量排名第一。明显领先于 ChatGPT，这是 Gemini 或 Claude 都未能实现的。

2）从质量角度来看，它比肩 o1，但仍落后于 o3。

3）实现了真正的算法突破，使其在训练和推理方面都大大提高了效率。FP8 训练、MLA 和多 token 预测都具有重要意义。

4）很容易验证 r1 训练成本仅为 600 万美元。虽然这在字面上确实如此，但也极具误导性。

5）就连它们的硬件架构也很新颖，值得注意的是它们使用 PCI-Express 进行扩展。

重要细节：

1）根据技术论文，600 万美元并不包括“与前期研究和架构、算法和数据消融实验相关的成本”。这意味着，只有在实验室已经在前期研究上投入数亿美元并且能够访问更大规模集群的情况下，才有可能以 600 万美元的成本训练出 r1 质量的模型。

DeepSeek 显然拥有远超 2048 块 H800 的算力；他们早期的一篇论文提到拥有 10000 块 A100 的集群。

一个同样聪明的团队不可能仅凭 600 万美元就能启动 2000 块 GPU 组成的集群并从头开始训练 r1。

大约 20% 的英伟达收入来自新加坡。尽管他们尽了最大努力，但 20% 的英伟达 GPU 可能并不在新加坡。

2）存在大量的知识蒸馏——也就是说，如果没有无障碍地访问 GPT-4o 和 o1，他们可能无法完成这个训练。

正如 @altcap 昨天向我指出的那样，限制访问前沿 GPU 的渠道却不对中国蒸馏美国前沿模型的能力采取任何措施，这很可笑——显然违背了出口限制的目的。如果可以免费获得牛奶，为什么要买母牛？

结论：

1）降低训练成本可望提高 AI 方面的投资回报率。

2）在短期内，这对训练资本支出或“能源”主题都不会产生积极影响。

3）目前科技、工业、公用事业和能源领域的“AI 基础设施”赢家面临的最大风险是，r1 的蒸馏版本可以在高端工作站（比如 Mac Studio Pro）上边缘端本地运行。这意味着类似的模型将在约 2 年内可以在超级手机上运行。如果推理因“足够好”而转移到边缘端进行处理，我们将置身一个截然不同的世界，到时会有不同的赢家——即我们将见证有史以来最大规模的 PC 和智能手机升级周期。长期以来，计算能力一直在集中化和去中心化之间摆动。

4）人工超级智能（ASI）已经非常接近，但没有人真正知道超级智能的经济回报会是什么。如果一个耗资 1000 亿美元、在 10 万多块 Blackwell 上训练的推理模型（o5、Gemini 3、Grok 4）可以治愈癌症和发明曲速引擎，那么 ASI 的回报将非常高，训练资本支出和能源消耗将稳步增长；戴森球（Dyson Sphere）将重新成为解释费米悖论的最佳理论。我希望 ASI 的回报是高的——那就太棒了。

5）这对于“使用”AI 的公司都非常有利：软件公司和互联网公司等。

6）从经济角度来看，这极大地提升了分发渠道和独特数据的价值——YouTube、Facebook、Instagram 和 X。

7）美国的实验室可能会停止发布其前沿模型，以防止对 r1 至关重要的知识蒸馏，不过在这方面，猫可能已经完全从袋子里跑出来；换而言之， r1 可能足以训练 r2 。

Grok-3 即将发布，可能会显著影响上述结论。

这将是自 GPT-4 以来首次对预训练扩展定律进行的重大检验。就像花了几周时间通过强化学习将 v3 转变为 r1 一样，运行必要的强化学习来提高 Grok-3 的推理能力也可能需要几周时间。

基础模型越好，推理模型就应该越好，因为三个扩展定律是呈倍增的——预训练、后训练期间的强化学习以及推理过程中的测试时计算（与强化学习密切相关）。

Grok-3 已经表明它可以完成超出 o1 的任务——参见 Tesseract 演示——超出多少将变得很重要。用《双塔奇兵》中一个匿名兽人的话来说，“肉可能很快又会重新出现在菜单上”。时间会告诉我们答案，“当事实发生变化时，我改变主意。”

DeepSeek 对原始英文内容的总结：

ChatGPT 总结：

@THE END

分割线

应广大粉丝要求，我们建立了一个【领导者管理交流群】，小伙伴们热情踊跃，目前人数已经上万人了，不能直接进群啦，想要进群的添加小编微信，拉你进群。两个添加其一即可！

欢迎加入10W+领导者社群

文章来源 ：领导者养成笔记「ID：GoToLead 」，转载请公众号回复“转载”

版权说明 ：我们尊重原创者版权，除我们确实无法确认作者外，我们都会注明作者和来源。在此向原创者表示感谢。本文所用视频、图片、文字如涉及作品版权问题，请第一时间告知，我们将根据您提供的证明材料确认版权立即删除内容；本文内容为原作者观点，并不代表本公众号赞同其观点和对其真实性负责。

领导者管理笔记

关注我，与100万领导者一起学组织和管理。张三峯，15年500强高层管理经验，“人人都是领导者“理念推动者，“商业新知”管理十佳创作者，多家公司管理咨询顾问。

最新文章

这篇对 DeepSeek 的分析：获马斯克点赞

英伟达市值蒸发近6000亿美元，而DeepSeek刚刚又开源新模型

全球掀DeepSeek复现狂潮！硅谷巨头神话崩塌，30刀见证啊哈时刻

DeepSeek创始人梁文锋专访：中国的AI不可能永远跟随，需要有人站到技术的前沿

史上首次，DeepSeek登顶中美AppStore！NYU教授：全球「AI霸权」之争已结束

DeepSeek登顶中美双榜，CNBC 40分钟深度专题访谈实录

马斯克与“第一性原理”：颠覆创新的哲学根基

高质量的沟通：从第一分钟开始！

警惕那些正在拖垮你人生的“狗屁”工作！40%的工作都无意义

开会，最显一个人的领导力

《企业经营分析-揭秘商业本质，提升管理效益》读书笔记PPT

2025开年第-课 | 读懂2025年经营关键词《胖东来经营的本质》全面解读 | 火热报名中！

曾国藩的中国式领导力：如何将乌合之众打造成一支精兵？

真正有效的员工激励：让归属感带领团队嗷嗷前进（推荐）

战略，其实就6个字：选择-聚焦-击穿

领导10 句话，搞定下属立信任

精美PPT 读书笔记丨《金字塔原理》完全解析

走上管理岗才明白：让员工死心塌地、拼命干活的办法，从来都不是“钱”

P90彼得·德鲁克《卓有成效的管理者-55周年新译本》读书笔记

新年研学第一课：《解码零售标杆胖东来——用心发现/用心领悟自由•爱！》，火热报名中！

埃隆·马斯克：判断一个人有没有领导力，就看这5点

走上管理岗位才知道，真正决定一个人职场的上限的是“复盘”能力

金字塔原理·构建逻辑思考与高效表达——最经典的思维训练课

特朗普的四大“成功特质”，让他成为美国第47任总统

走上管理岗位才知道，一流的企业都善于“复盘”

好公司与烂公司的区别：精细化管理

走上管理岗才明白：跟领导汇报，姿态越高越好

吉姆·柯林斯《从优秀到卓越》读书笔记PPT（干货）

答案在路上-全球考察：7天6晚，日本精益精进道场训战版【打造企业独有的精益改善小组】！

TikTok CEO“狠人”周受资：高级人才的5个基本素质

开会，最显一个人的领导力

罕见！任正非述职报告

53页《华为人力资源管理实践》.pptx（推荐）

从混沌到清晰：用金字塔原理升级你的逻辑思维表达能力

华为是怎么做干部述职的？（方式、模型、内容、流程）

90%的领导者都犯过的十大错误招聘方法！

有本事的领导和没本事的领导，总结的很到位！（不能再真实）

真正优秀的管理者，如何制定符合“SMART原则”的目标（干货）

任正非：华为如何打造“狼狈合作”的战斗进攻型组织（建议收藏）

梁宁产品思维：产品能力是每个人的底层能力(完整版)

乔布斯：简洁才是王道

一旦当了领导，马上换掉这6种下属

史上最经典的40大思维模型-个人能力知识地图（干货）

如何打造一流组织能力（杨三角模型，阿里/腾讯组织案例）

66页《有效沟通与团队协作》.pptx

人效冠军：揭秘人效提升的秘密，62页PPT详解

变强的思维：借力、借智、借势

50页PPT《比亚迪人力资源管理体系》下载

新年深度研学第一课：《解码零售标杆胖东来——用心发现/用心领悟自由•爱！》，火热报名中！

一流高手如何建立“多元思维模型”知识体系？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉