122天交付10万卡超算,神奇的「马斯克速度」,直接把竞争对手们整崩溃了!
消息传出,整个行业都震惊不已。
就在今天,The Information甚至曝出内幕大瓜:有人甚至直接租飞机,直接飞到马斯克的数据中心上空侦查。
他们想知道,马斯克究竟是什么超人,能创下这样的奇迹。
要知道,正常来说,10万H100的超算中心,通常需要3年建成,再需要1年调试,才能投入使用。
马斯克这么一搞,让OpenAI奥特曼连微软都看不顺眼了——你这样显得我们弱爆了!
因为嫌弃微软建数据中心的速度太慢,OpenAI据说直接扭头找了其他初创公司,来造十万卡集群。
而英伟达CEO老黄,则毫不掩饰自己对马斯克的溢美之词——
全世界,只有一个人能做到这一点。Elon对工程、建筑、系统和资源掉配的理解,是独一无二的。
间谍飞机出动,「马斯克速度」不能忍了!
10月一个阳光明媚的日子,一架螺旋桨飞机在田纳西州孟菲斯市中心一座大型工业建筑物上空多次盘旋。
机上的乘客,不断地拍摄着这座设施的照片和视频。
这是一次秘密侦查任务。
马斯克将这座原本生产家用电器的制造厂,改造成了一个数据中心,里面装有全球最大的AI模型训练算力集群之一。
马斯克如此快速地为xAI建成了这台AI超算,直接引发了OpenAI等对手领导层的焦虑和困惑。
那么,飞机上的神秘乘客是谁呢?
The Information得到的消息是,他们是来自竞争对手数据中心的员工。
这个设施戒备森严,所以他们只能以这种方式获取信息。
他们注意到,马斯克运来大量燃气涡轮机为设施供电,同时也希望xAI是如何控制建筑物内服务器散热的。
孟菲斯上空的这架侦察飞机,只是科技史上最昂贵竞赛的一次缩影罢了。
现在,微软、Meta、谷歌、亚马逊都在狂砸数百亿美元建设新的数据中心,好为训练模型提供算力。
所有人都在为这样一个简单的信念冒险下注:算力集群越大,它训出的AI模型就越好。
而这个信念,从ChatGPT在2022年底推出时,就根植于业内大多数人的脑海中。
马斯克作为OpenAI的共同创始人和早期投资者,开始在这场数据中心竞赛中是落后的。
但通过无视传统的暴力建法,他如今已经后来居上,掀起了巨大的波澜。
Colossus超算有两点震惊了竞争对手:一个是规模,一个是速度。
它有10万块GPU,规模是Meta等巨头过去建造超算的数倍。
将如此多的GPU连接成一台超算并不简单,因为服务器会消耗大量电力,用于连接这些GPU的网络设备也存在瓶颈。
xAI能以如此快的速度完成这个项目,更是前所未有的壮举。
马斯克和为Colossus提供GPU的AI芯片巨头英伟达表示,这个数据中心和超算仅用122天就建成了。
在最近的一期播客中,英伟达CEO黄仁勋表示,这种规模的GPU集群通常需要三年时间来规划和设计,还需要额外一年时间才能投入运行。
「毫无疑问,这个项目中所有人都在没日没夜地工作。」
孟菲斯数据中心之所以能这么快被马斯克建成,部分原因似乎在于他省略了一些关键环节。
比如,在尚未从电网获得足够电力来运行Colossus的情况下,他就开始推进项目。
正是这种颠覆传统的做法,让马斯克在其他领域屡屡成功。
比如在特斯拉,他就曾通过在停车场搭建Model 3的装配线,来绕过加州工厂扩建所需的许可证。
在SpaceX,他不断推动工程师们去掉他认为不必要的火箭零件,或使用那些并非专为太空设计的更经济的组件。
马斯克建造超算的速度一曝出,就引起了OpenAI CEO奥特曼的高度警惕。
据悉,当马斯克在X上发布相关信息后,奥特曼就和微软的基础设施主管发生了争执。
奥特曼担心,xAI很快就会拥有比OpenAI更强大的超算。
为此,OpenAI开始寻求微软之外的替代方案。
在德克萨斯州阿比林市的一片皇帝上,一个数据中心即将建成。它预计将在明年投入使用,容纳OpenAI的10万个GPU集群。
为了提高施工速度,大部分组件都采用了异地预制的方式,一运到现场就能快速安装。
而微软此前也和OpenAI筹建了更宏大的星际之门,将配备数百万个GPU,单个项目造价超过千亿美元。
或许过不了多久,阿比林和孟菲斯的超算都会显得渺小了。
这种竞争态势只会持续升级。因为在数据中心行业,每个参与者都在严密监控对手的一举一动。
因为,数据中心是一个参与者极少的市场。
马斯克的超算工厂
今年年初,马斯克开始着手打造自己想要的超算,来推动xAI的发展。
刚创立xAI时,他租用了甲骨文的GPU,来训练Grok。
为了提升Grok的性能,他需要更多算力!
据悉,今年5月,马斯克和潜在投资者举行了视频会议,意在为xAI筹集数十亿美元资金。
他向投资者展示的愿景,是打造世界最大超算,名为「超级算力工厂」(Gigafactory of Compute)。
他的计划是这样的:将英伟达当时最先进的10万块H100整合进一个统一的计算集群。
图表显示,xAI建超算的速度比大多数公司快5倍。
根据一张PPT,xAI正以「前所未有的速度」推进项目,并承诺「马斯克将亲自确保数据中心如期交付」。
当时,这个项目是与云服务商合作还是独立进行,马斯克尚未做出决定。
几周后,数位甲骨文高管与马斯克进行了视频会议。马斯克提议让甲骨文负责超算的建造。(其创始人Larry Ellison是马斯克的密友)
电从哪儿来?
把同行们卷疯了!
想要了解更多资讯,请扫描下方二维码,关注机器学习研究会
转自:新智元