「谍战」开启!基建狂魔马斯克122天交付10万卡超算,对手大恐慌派间谍飞机侦查

文摘   2024-11-17 22:10   山西  

122天交付10万卡超算,神奇的「马斯克速度」,直接把竞争对手们整崩溃了!

消息传出,整个行业都震惊不已。

就在今天,The Information甚至曝出内幕大瓜:有人甚至直接租飞机,直接飞到马斯克的数据中心上空侦查。

他们想知道,马斯克究竟是什么超人,能创下这样的奇迹。

要知道,正常来说,10万H100的超算中心,通常需要3年建成,再需要1年调试,才能投入使用。

马斯克这么一搞,让OpenAI奥特曼连微软都看不顺眼了——你这样显得我们弱爆了!

因为嫌弃微软建数据中心的速度太慢,OpenAI据说直接扭头找了其他初创公司,来造十万卡集群。

而英伟达CEO老黄,则毫不掩饰自己对马斯克的溢美之词——

全世界,只有一个人能做到这一点。Elon对工程、建筑、系统和资源掉配的理解,是独一无二的。

间谍飞机出动,「马斯克速度」不能忍了!


10月一个阳光明媚的日子,一架螺旋桨飞机在田纳西州孟菲斯市中心一座大型工业建筑物上空多次盘旋。

机上的乘客,不断地拍摄着这座设施的照片和视频。

这是一次秘密侦查任务。

马斯克将这座原本生产家用电器的制造厂,改造成了一个数据中心,里面装有全球最大的AI模型训练算力集群之一。

马斯克如此快速地为xAI建成了这台AI超算,直接引发了OpenAI等对手领导层的焦虑和困惑。

那么,飞机上的神秘乘客是谁呢?

The Information得到的消息是,他们是来自竞争对手数据中心的员工。

这个设施戒备森严,所以他们只能以这种方式获取信息。

他们注意到,马斯克运来大量燃气涡轮机为设施供电,同时也希望xAI是如何控制建筑物内服务器散热的。

孟菲斯上空的这架侦察飞机,只是科技史上最昂贵竞赛的一次缩影罢了。

现在,微软、Meta、谷歌、亚马逊都在狂砸数百亿美元建设新的数据中心,好为训练模型提供算力。

所有人都在为这样一个简单的信念冒险下注:算力集群越大,它训出的AI模型就越好。

而这个信念,从ChatGPT在2022年底推出时,就根植于业内大多数人的脑海中。

马斯克作为OpenAI的共同创始人和早期投资者,开始在这场数据中心竞赛中是落后的。

但通过无视传统的暴力建法,他如今已经后来居上,掀起了巨大的波澜。

Colossus超算有两点震惊了竞争对手:一个是规模,一个是速度。

它有10万块GPU,规模是Meta等巨头过去建造超算的数倍。

将如此多的GPU连接成一台超算并不简单,因为服务器会消耗大量电力,用于连接这些GPU的网络设备也存在瓶颈。

xAI能以如此快的速度完成这个项目,更是前所未有的壮举。

马斯克和为Colossus提供GPU的AI芯片巨头英伟达表示,这个数据中心和超算仅用122天就建成了。

在最近的一期播客中,英伟达CEO黄仁勋表示,这种规模的GPU集群通常需要三年时间来规划和设计,还需要额外一年时间才能投入运行。

「毫无疑问,这个项目中所有人都在没日没夜地工作。」

孟菲斯数据中心之所以能这么快被马斯克建成,部分原因似乎在于他省略了一些关键环节。

比如,在尚未从电网获得足够电力来运行Colossus的情况下,他就开始推进项目。

正是这种颠覆传统的做法,让马斯克在其他领域屡屡成功。

比如在特斯拉,他就曾通过在停车场搭建Model 3的装配线,来绕过加州工厂扩建所需的许可证。

在SpaceX,他不断推动工程师们去掉他认为不必要的火箭零件,或使用那些并非专为太空设计的更经济的组件。

马斯克建造超算的速度一曝出,就引起了OpenAI CEO奥特曼的高度警惕。

据悉,当马斯克在X上发布相关信息后,奥特曼就和微软的基础设施主管发生了争执。

奥特曼担心,xAI很快就会拥有比OpenAI更强大的超算。

为此,OpenAI开始寻求微软之外的替代方案。

在德克萨斯州阿比林市的一片皇帝上,一个数据中心即将建成。它预计将在明年投入使用,容纳OpenAI的10万个GPU集群。

为了提高施工速度,大部分组件都采用了异地预制的方式,一运到现场就能快速安装。

而微软此前也和OpenAI筹建了更宏大的星际之门,将配备数百万个GPU,单个项目造价超过千亿美元。

或许过不了多久,阿比林和孟菲斯的超算都会显得渺小了。

这种竞争态势只会持续升级。因为在数据中心行业,每个参与者都在严密监控对手的一举一动。

因为,数据中心是一个参与者极少的市场。

马斯克的超算工厂

今年年初,马斯克开始着手打造自己想要的超算,来推动xAI的发展。

刚创立xAI时,他租用了甲骨文的GPU,来训练Grok。

为了提升Grok的性能,他需要更多算力!

据悉,今年5月,马斯克和潜在投资者举行了视频会议,意在为xAI筹集数十亿美元资金。

他向投资者展示的愿景,是打造世界最大超算,名为「超级算力工厂」(Gigafactory of Compute)。

他的计划是这样的:将英伟达当时最先进的10万块H100整合进一个统一的计算集群。

图表显示,xAI建超算的速度比大多数公司快5倍。

根据一张PPT,xAI正以「前所未有的速度」推进项目,并承诺「马斯克将亲自确保数据中心如期交付」。

当时,这个项目是与云服务商合作还是独立进行,马斯克尚未做出决定。

几周后,数位甲骨文高管与马斯克进行了视频会议。马斯克提议让甲骨文负责超算的建造。(其创始人Larry Ellison是马斯克的密友)

当时,马斯克要求在2024秋季前完工。但甲骨文的高管们表示,这个deadline不可能。
一个关键问题,就是那栋建筑物的供电能力,根本无法满足计划部署的芯片数量。
对此,马斯克表示出明显的不满。最后他决定:由xAI独立建设孟菲斯数据中心,不再寻求与甲骨文的合作。
外媒报道谈判破裂的事实后,马斯克很快在X上发文回应:「甲骨文确实是一家优秀的公司。但是,当我们的成败取决于必须保持绝对的领先速度时,我们必须自己掌控方向盘,而不能甘居幕后。」

电从哪儿来?

为了实现这个雄心勃勃的进度,马斯克力推孟菲斯当地官员以前所未有的速度批准了数据中心项目。
当时,孟菲斯市非常渴望引进这一项目,愿意全力配合,这无疑是很大的利好。
大孟菲斯商会主席Ted Townsend表示:「我们不分昼夜地工作,随时待命接收短信和电话,以展现与xAI发展速度和期望相匹配的执行力。」
6月初,Townsend正式宣布,马斯克已确定选择孟菲斯,作为xAI超算的落户地。
随后几周,xAI团队对孟菲斯制造厂展开全面改造,为即将安装的大量英伟达GPU服务器机架腾出空间。
他们安装了电气系统、机械设备和管道设施,建立了服务器水冷系统。
原本,电力供应可能会成为计划的最大掣肘,因为孟菲斯基地的供电能力根本无法满足xAI大量高耗能GPU的需求。不意外的话,数据中心项目就要延期或搁置了。
但马斯克是谁?他提出一个临时解决方案:引入移动式天然气发电涡轮机作为补充电源。
同时,他等待着当地部门审批基地新增100兆瓦电力供应的申请。就在上周,相关部门批准了这一请求。
这一举动,立刻遭到环保组织的反对。
他们指控xAI未获得许可就擅自发动燃气涡轮机,导致空气污染。
还有一个因素,促成马斯克快速完工。
因为Colossus只会用于xAI的自身业务,并非对外租赁,因此使用前几乎无需经过任何合规测试。
对比鲜明的是,微软在向OpenAI或其他Azure云计算客户提供服务器之前,必须通过一系列严格的数据安全测试,因为这些客户对系统运行时间和隐私保护有严格要求。
数据中心运营商DataBank的首席执行官Raul Martynek直言:「「我们必须通过各种严格的行业认证。我敢肯定,xAI的数据中心绝对无法达到这些认证标准。」
业内对马斯克的超算也颇多质疑。
多位数据中心高管指出,将原有制造厂房改造成能容纳GPU服务器和液冷系统的数据中心,在技术上存在极大挑战。
内部人士透露,Colossus在过去几个月中也的确出现过多次中断。
但这些,并未打乱马斯克的节奏。他和英伟达据马斯克和英伟达透露,他们在首个服务器机架安装完成后仅19天,就启动了新一代Grok模型的首次训练。
马斯克的密友、多家马斯克公司的长期投资者Antonio Gracias表示,xAI正在「从根本原理出发,重新思考数据中心的建设流程,致力于实现更经济、更高效、更快速的建设方案。」
「这种场景,我在特斯拉、SpaceX都见过——马斯克带领着数十名工程师,以打造最优秀、最高效的系统为使命,不断突破创新。」

把同行们卷疯了!

马斯克给同行们的压力,实在是太大了。
据说今年夏天,马斯克超算飞速推进的消息在业内传开后,亚马逊、微软和谷歌的数据中心高管们大吃一惊。
他们纷纷联系英伟达的工作人员,追问同一个问题:马斯克为何能取得如此惊人的速度?
Meta等科技巨头还主动接触了一家规模较小的竞争对手云服务商,询问是否能比自建更快地提供算力资源。
而随着孟菲斯数据中心更多细节曝光,数据中心和云计算领域的高管们正在仔细研究每一张图片,试图从中获取关键的设计信息。
期间,马斯克本人就大方地在X上分享了数据中心内部的多张图片。
而上个月,一位行业分析师在实地参观Colossus后,在YouTube上发布了一段视频,也让同行们大饱眼福。
有趣的是,原本要与xAI合作的甲骨文,在谈判破裂后不久,就转而与OpenAI签署了算力协议。
合作的新项目将在德州的阿比林市落地,为共同开发这一地区,甲骨文已经和两家创业公司Crusoe和Lancium达成协议。
就在上个月,Crusoe成功筹集了超过30亿美元,用于数据中心的第一阶段建设。中心即将部署10万块GB200系列GPU。
现在,大家都卷了起来。同马斯克的项目一样,Crusoe也在以惊人的速度推进。
项目承包商表示,这是自己职业生涯中建设速度最快的项目之一:3月讨论设计方案,6月正式开工。
现在,阿比林工地的施工团队正紧锣密鼓地清理树木,为变电站腾出空间,每天还在最大限度地进行混凝土浇筑作业。
知情人士透露,OpenAI已要求合作方考虑部署燃气轮机作为备用方案,以防现有电力供应无法按期到位。
在最近一次工地参观活动中,有人问道:为什么要如此急切地推进数据中心建设?
向导给出意味深长的回答:「在超级计算机领域,谁能率先建成,谁就几乎能掌握世界的主导权。」
参考资料:
https://www.theinformation.com/articles/how-elon-musks-supercomputer-freaked-out-ai-rivals?rc=epv9gi


想要了解更多资讯,请扫描下方二维码,关注机器学习研究会

                                          


转自:新智元


机器学习研究组订阅
机器学习研究会由百度七剑客雷鸣先生创办,旨在推动AI的技术发展和产业落地。参与组织北大、清华”AI前沿与产业趋势“公开课,广泛的和高校、企业、创业、VC开展合作,自身也参与优秀AI项目的投资和孵化。
 最新文章