深度揭秘:马斯克如何快速建设10万卡超级计算机,并震惊AI竞争对手

科技   2024-11-14 11:13   北京  

当地时间1113日,硅谷科技媒体The information发布长篇文章,非常详实地描述了埃隆·马斯克如何在短时间内建立起庞大的AI超级计算机设施,以及这一举动如何影响了整个AI行业的竞争格局。


今年6月,马斯克的xAI团队联合英伟达等合作伙伴,建立了孟菲斯超级计算集群。该集群由10万块液冷H100芯片组成,是全球最强的超算集群,整个数据中心建成上线就用了 122 天,而从服务器硬件安装到开始训练只花了19天时间,创下行业内迄今为止最快的速度。


这甚至让英伟达CEO黄仁勋公开称赞埃隆·马斯克是“超人”


在参加《Bg2 Pod》播客节目访谈中,黄仁勋指出,一般人需要3-4年的时间才能完成这项任务。而马斯克及xAI能在如此短的时间内完成在孟菲斯的超级计算机项目,是一项超人的成就。


“马斯克对工程、建筑、大型系统和资源调配的理解独一无二,这简直令人难以置信。”黄仁勋表示。


马斯克为什么这么快?


马斯克将新建成的孟菲斯数据中心命名为"巨人"(Colossus)。


The information报道,马斯克似乎之所以能如此快速地建成孟菲斯数据中心,部分原因是省略了一些关键环节——例如,在确保从电网获得足够电力来运行"巨人"之前就开始推进项目。


据一位参会投资者透露,5月份,马斯克与潜在的xAI投资者进行了视频通话。他向他们展示了建设世界上最大超级计算机的愿景,他称之为"计算超级工厂",命名类似特斯拉全球的制造工厂。


马斯克与不到十几名其他xAI员工围坐在一张桌子旁,透露了他的计划:将英伟达当时市场上最先进的10万个H100 GPU连接成一个单一集群。


屏幕上的一张图表显示,xAI将以大约五分之一的常规时间建成其超级计算机。并承诺"埃隆个人负责按时交付数据中心。"


当时,马斯克还没想好是与云厂商合作,还是单干。但是目标是明确的:马斯克希望xAI数据中心位于孟菲斯的一个前伊莱克斯家电制造厂,并希望在2024年秋季之前完工。


马斯克跟甲骨文创始人埃里森是好朋友,所以先找到甲骨文。但是,甲骨文高管告诉马斯克,他们认为无法按照他要求的速度建成,主要是所在建筑物没有足够的电力来支持整个GPU集群需要的电力。


马斯克很快对甲骨文高管的异议感到不满,于是决定单干,“亲自掌控方向盘”。


为了实现他的激进时间表,马斯克推动孟菲斯当地官员以创纪录的速度批准数据中心。幸运的是,孟菲斯当地急于满足他的要求,以吸引他的业务。


6月初,马斯克拿到前伊莱克斯家电制造厂的厂房。


在接下来的几周里,马斯克和他的xAI团队清空了孟菲斯制造设施,为将容纳英伟达GPU的一排排机架腾出空间。他们安装了电气、机械和管道设备,并安装了服务器水冷系统。


对于电力短缺的问题,马斯克想出了一个权宜之计:他引入了移动的天然气涡轮发电机提供补充电力,同时等待当地当局批准该基地额外100兆瓦电力的申请。


马斯克还跳过了数据中心上线需要的任何合规测试。


通常而言,微软在将服务器交付给OpenAI或其他Azure云客户之前会进行多项数据安全测试,以保证数据中心的稳定性以及数据安全等。


在大力删除了很多繁琐的“流程”之后,马赛克的团队们用 122 天保证了数据中心上线,并在19天后开始训练Grok。


这种违反常规流程操作的方法,是马斯克创造奇迹反复使用的策略。


《埃隆·马斯克传》中将这种方法总结为“五步工作法”,其中第一步就是提出质疑,第二步就是尽删除一切可以删掉的环节。


可以说,马斯克和xAI 团队正在从“第一性原理”出发,重新思考建设数据中心的整个过程。


对手们震惊了


这种速度,当然震惊四野。


The information报道,当马斯克超级计算机进展的消息在今年夏天传开时,亚马逊、微软和谷歌的高级数据中心主管开始给英伟达的员工打电话,问的都是同一个问题的不同版本:马斯克是如何能在超级计算机项目上进展如此之快的?


据一位与这些公司交谈过的人士透露,这些公司以及包括Meta在内的其他公司的高管还致电一家小型竞争云服务提供商,看看该公司是否能比他们自建更快地提供数据中心容量。


随着关于孟菲斯数据中心的更多信息逐渐披露,竞争对手们破解项目奥秘的热情只增不减。


一个具体的表现是:一家数据中心厂商派出一架螺旋桨飞机,在xAI的数据中心上空多次盘旋,机上乘客拍摄着该设施的照片和视频,他们试图获取关于这个戒备森严的设施运营的任何信息。


不用说,马斯克造超级计算机的速度引起了OpenAI CEO山姆·奥特曼的警觉。


据一位听到他言论的人透露,在马斯克在X上发布消息后,奥特曼与微软的基础设施主管们发生争执,告诉他们他担心xAI的进展速度超过了微软。


他担心xAI很快就会拥有比OpenAI更强大的超级计算机。这种担忧促使OpenAI首次寻求微软以外的替代方案。


这次OpenAI找到了马斯克此前“抛弃”的甲骨文,签约租用后者在德克萨斯州阿比林的一个在建数据中心。


在这个地方,一群公司正在为明年将容纳OpenAI的10万芯片集群的数据中心准备场地。


The information报道称,据三位直接了解情况的人士透露,OpenAI已要求其项目合作伙伴考虑使用燃气涡轮发电机,以防在按时获得电力供应方面出现任何问题。


在这一点上,奥特曼不知道是不是受到了马斯克的启发。


推荐阅读:


马斯克xAI花19天建成10万GPU卡计算集群,最坐不住的是OpenAI

经济学人:OpenAI不会一直是微软囚禁的鸟



觉得内容有收获,请您个关注,标个星~ 谢谢您

智能超参数
看趋势,涨知识,开眼界。 记录AI技术与商业。 提供独立思考与理性价值。
 最新文章