新智元报道
新智元报道
【新智元导读】外媒SemiAnalysis的一篇深度长文,全面分析了DeepSeek背后的秘密——不是「副业」项目、实际投入的训练成本远超600万美金、150多位高校人才千万年薪,攻克MLA直接让推理成本暴降......
DeepSeek不是「副业」,在GPU等硬件支出远超5亿美元,论文中600万美元仅是预训练运行GPU成本,研发、硬件总拥有成本(TCO)被排除在外 DeepSeek大约有5万块Hopper GPU,包括特供版H800和H20 DeepSeek大约有150名员工,并定期从北大、浙大等招募顶尖人才,据称有潜力的候选人能拿到超130万美元(934万元)薪水 DeepSeek一个关键创新——多头潜注意力(MLA),耗时多月开发,将每个查询KV量减少93.3%,显著降低推理价格 o3性能远超R1和o1,谷歌Gemini 2.0 Flash Thinking与R1不相上下 V3和R1发布后,H100价格猛涨,杰文斯悖论(Jevonʼs Paradox)正发挥作用
5万块Hopper GPU,投资超5亿美金
150+顶尖人才,年薪934万
训练成本不止600万美金
训练成本解析
算法优化,让性能差距缩小
R1与o1打平手,「推理」新范式
谷歌推理模型,实力相当
中国MLA创新,让全世界抄作业
训练(前期和后期)
多头潜注意力(MLA)
R1并非真正动摇o1技术优势