一场史无前例的AI超算军备竞赛正在上演,竞争对手甚至派出间谍飞机进行侦察!
就在上个月,一架小型螺旋桨飞机在田纳西州孟菲斯市中心附近的一座工业建筑上空盘旋,机上乘客正在对这座建筑进行拍照和录像。
这不是普通的航拍,而是一场秘密侦察行动。
这座前家电制造厂如今藏着马斯克为xAI打造的「Colossus」超级计算机集群。飞机上的乘客来自一家数据中心竞争对手,他们试图获取这座高度机密设施的任何信息,包括观察马斯克如何处理服务器产生的热量,以及那些被运进场地的燃气涡轮机。
从0到超算的122天
今年初,马斯克开始为xAI筹备计算资源。他最初从Oracle租用GPU来训练Grok模型的初始版本。但为了提升Grok的质量,他需要更强大的算力支持。
在5月的一次视频会议上,马斯克向潜在投资者展示了他的「计算巨厂」愿景 —— 将10万块Nvidia H100 GPU(当时最先进的GPU)连接成一个单一集群。更令人惊讶的是,他承诺用仅五分之一的常规时间完成建设。
这个被称为「Colossus」的超级计算机最终只用了122天就完成了整个项目。
Nvidia CEO黄仁勋在播客中惊叹道:「正常情况下,这种规模的GPU集群需要3年时间来规划设计,还要额外1年时间才能投入使用。毫无疑问,没有人能睡觉。据我所知,世界上只有一个人能做到这一点。马斯克在工程、建设、大型系统和资源调配方面是独一无二的。」
打破常规的建设方式
马斯克最初考虑与Oracle合作建设超算中心。但当Oracle表示无法按照他要求的时间完成项目时,马斯克决定自己动手。
为了赶工期,他采取了一系列非常规手段。最引人注目的是供电问题的解决方案:场地原有的8兆瓦电力远远不够,他直接在现场部署了14台天然气涡轮机,每台提供2.5兆瓦的电力。
据了解,xAI计划分阶段增加电力供应:8月1日签署TVA协议后将达到50兆瓦,年底前将达到200兆瓦。目前已有32,000个GPU上线运行,其余将在第四季度完成部署。
这种做法立即引发了当地环保组织的强烈抗议。南方环境法律中心的高级律师Amanda Garcia表示:「在没有许可的情况下设立发电厂是令人震惊的,这对社区极不尊重。西南孟菲斯的空气污染已经是一个巨大的挑战。」
竞争对手的焦虑与应对
马斯克的超算项目在业内掀起轩然大波。亚马逊、微软和谷歌的高管纷纷致电Nvidia,试图了解马斯克是如何实现如此快速的建设速度。
对此反应最强烈的是OpenAI CEO Sam Altman。
据报道,在看到马斯克在X上发布的消息后,Altman与微软的基础设施主管发生了争执,表达了对xAI进展速度超过微软的担忧。这种担忧促使OpenAI首次寻求微软以外的替代方案。
在德克萨斯州阿比林市,OpenAI正与Oracle、Crusoe和Lancium合作建设新的数据中心。Crusoe已筹集超过30亿美元用于项目第一阶段,计划安装10万块Nvidia的下一代GB200 GPU。有趣的是,OpenAI也在考虑使用燃气涡轮机作为备用电源。
质疑与未来
数据中心专家们对马斯克的项目持怀疑态度。
DataBank的CEO Raul Martynek指出:「我们必须通过各种行业认证。我敢保证xAI的数据中心通不过这些认证。」据悉,过去几个月该中心已发生过几次停机事故。
但这些问题似乎并未影响xAI的进度。
据马斯克和Nvidia透露,他们在第一个服务器机架进入数据中心仅19天后就开始了新一代Grok模型的训练。据估计,使用这10万个H100 GPU训练三个月,就能达到当前GPT-5的运算规模。
这场超算竞赛远未结束。
据悉,包括微软在内的一些大型科技公司正在讨论投资超过1000亿美元的数据中心项目,这些项目将包含数百万个GPU。
阿比林项目现场导游说到:
谁能更快地建成超算,谁就可能统治世界。
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!