外媒SemiAnalysis的一篇深度长文,全面分析了DeepSeek背后的秘密——不是「副业」项目、实际投入的训练成本远超600万美金、150多位高校人才千万年薪,攻克MLA直接让推理成本暴降......
DeepSeek不是「副业」,在GPU等硬件支出远超5亿美元,论文中600万美元仅是预训练运行GPU成本,研发、硬件总拥有成本(TCO)被排除在外 DeepSeek大约有5万块Hopper GPU,包括特供版H800和H20 DeepSeek大约有150名员工,并定期从北大、浙大等招募顶尖人才,据称有潜力的候选人能拿到超130万美元(934万元)薪水 DeepSeek一个关键创新——多头潜注意力(MLA),耗时多月开发,将每个查询KV量减少93.3%,显著降低推理价格 o3性能远超R1和o1,谷歌Gemini 2.0 Flash Thinking与R1不相上下 V3和R1发布后,H100价格猛涨,杰文斯悖论(Jevonʼs Paradox)正发挥作用
5万块Hopper GPU,投资超5亿美金
150+顶尖人才,年薪934万
训练成本不止600万美金
训练成本解析
算法优化,让性能差距缩小
R1与o1打平手,「推理」新范式
谷歌推理模型,实力相当
中国MLA创新,让全世界抄作业
训练(前期和后期)
多头潜注意力(MLA)
R1并非真正动摇o1技术优势
率先破局者,手握定价权
免费,还能维持多久?
@THE END
欢迎加入10W+领导者社群
文章来源 :领导者养成笔记「ID:GoToLead 」,转载请公众号回复“转载”
版权说明 :我们尊重原创者版权,除我们确实无法确认作者外,我们都会注明作者和来源。在此向原创者表示感谢。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权立即删除内容;本文内容为原作者观点,并不代表本公众号赞同其观点和对其真实性负责。