【完整版】马斯克的超级计算机,如何吓坏AI竞争对手

文摘   2024-11-14 11:24   广东  

谁先建好超级计算机,谁就能统治世界

英文完整版附件在底部

为了大家读起来很容易理解,我已翻译优化内容:

马斯克建了个超级计算机,把竞争对手都吓坏了。这个计算机比谁都大、比谁都快,逼得OpenAI和其他公司也得拼命升级自己的数据中心,一场AI军备竞赛就此打响。

故事是这样的:上个月,有人发现一架小飞机在田纳西州孟菲斯市中心附近的一座大厂房上空转悠,还偷偷摸摸地拍照录像。这可不是普通的飞机,它是在执行秘密侦察任务!

原来,马斯克把这座原本生产家用电器的厂房改造成了一个高度机密的数据中心,里面装满了服务器,组成了世界上最大的AI训练集群之一。这个超级计算机的速度快到吓人,让OpenAI等竞争对手的老板们坐立不安、一头雾水。

飞机上的人是谁?是马斯克竞争对手公司派来的“间谍”!他们想知道马斯克的秘密武器到底有多厉害。他们看到了马斯克用卡车运来的燃气涡轮机(用来给数据中心供电),还试图弄清楚马斯克是如何给服务器降温的。

重点:

马斯克不按套路出牌,绕过了一些建造数据中心的常规步骤和安全措施,神速建成了这个庞然大物。

孟菲斯的“间谍飞机”事件表明,科技巨头们正在进行一场史上最烧钱的竞赛。微软、Meta、谷歌和亚马逊都在疯狂砸钱建数据中心,就为了给ChatGPT和其他AI应用提供动力。

他们的赌注很简单:服务器越多,AI就越厉害。这场服务器规模竞赛始于2022年底ChatGPT的发布,这款聊天机器人的爆红让整个科技圈都为之震动。

马斯克虽然是OpenAI的联合创始人和早期投资人,但后来退出了。他算是后知后觉才加入这场竞赛的。不过,他凭借着雄心壮志、不知疲倦的干劲,以及对传统方法的不屑一顾,还是成功地搞了个大新闻。

马斯克的超级计算机有两点让竞争对手们目瞪口呆:一是规模巨大二是建造速度极快。这个名为“巨像”(Colossus)的超级计算机拥有10万个GPU(图形处理单元),这是训练和运行AI软件的最佳芯片。它的规模比Meta和其他科技巨头之前建造的任何超级计算机都要大好几倍。

把这么多GPU连在一起可不是件容易的事,因为服务器耗电量巨大,连接芯片的网络设备也容易出现瓶颈。像马斯克这样快速完成项目简直闻所未闻。

马斯克和提供GPU的英伟达公司表示,他们只用了122天就建成了这个数据中心和超级计算机。英伟达CEO黄仁勋最近在一个播客中说,通常情况下,这么大的GPU集群需要3年时间来规划设计,再花1年时间才能运行起来。

“肯定没人睡过好觉,”黄仁勋谈到这个项目时说。“据我所知,全世界只有一个人能做到,那就是埃隆·马斯克。他对工程、建设和大型系统的理解,以及调动资源的能力,都是独一无二的。”

马斯克之所以能这么快建成数据中心,部分原因是他“偷工减料”——比如,在还没搞定足够的电力供应之前就开工了。但这正是马斯克的一贯作风,他在特斯拉和SpaceX也经常这么干。

例如,为了加快Model 3的生产,马斯克曾经绕过审批,直接在特斯拉工厂的停车场里建了条生产线。在SpaceX,他总是逼着工程师们移除他认为不必要的火箭部件,或者使用更便宜的、原本并非用于太空的组件。

虽然xAI的AI工具还远不如OpenAI,但他建超级计算机的速度还是让OpenAI的CEO萨姆·奥尔特曼紧张了起来。马斯克在X(以前的Twitter)上发布相关消息后,奥尔特曼就和微软的基础设施高管吵了一架,说他担心xAI的发展速度比微软还快。

他担心xAI很快就会拥有比OpenAI更强大的超级计算机。这促使OpenAI开始寻找微软之外的合作对象。

目前,OpenAI正在德克萨斯州阿比林一块荒地上建造一个新的数据中心,预计明年就能容纳一个10万芯片的超级计算机集群。

这个项目的建设速度也很快。最近,一位项目承包商的导游在带领参观时提到,很多建筑物都还没建好外墙。他们先在场外把组件造好,运到现场后就能快速组装。

也许用不了多久,即使是阿比林和孟菲斯的超级计算机也会显得小巫见大巫。包括微软在内的一些科技巨头已经在讨论建造包含数百万个GPU、耗资超过1000亿美元的数据中心了。

这场“军备竞赛”可能会一直持续下去,因为数据中心行业的每个人都在密切关注竞争对手的一举一动。

“数据中心市场不大,每个人都盯着别人在做什么,”DPR Construction的先进数据中心团队负责人John Arcello说道。该公司为Meta等大公司建造数据中心,也参与了阿比林的项目。

今年初,马斯克开始为xAI(他于2023年创立的AI公司)组建所需的计算资源。当时,他已经从甲骨文租用GPU来训练xAI的大语言模型Grok的初始版本。

为了提升Grok的性能,马斯克需要更强大的计算能力。5月,他跟xAI的潜在投资者开了个视频会议,想融几十亿美元。在会上,他描绘了建造世界上最大的超级计算机的愿景,并称之为“计算的超级工厂”(跟特斯拉的超级工厂遥相呼应)。

马斯克和十几个xAI员工围坐在桌旁,展示了他的计划:将10万个英伟达H100 GPU(当时最先进的GPU)连接成一个集群。幻灯片上写着,xAI建造超级计算机的速度将比其他公司快5倍。

xAI的幻灯片上还写着,公司正以“疯狂的速度”运作,“埃隆·马斯克将亲自负责按时交付数据中心”。

马斯克告诉投资者,他还没决定是跟云服务商合作,还是自己单干。

几周后,几个甲骨文高管跟马斯克开了个视频会议,讨论合作的可能性。马斯克提议由甲骨文(其创始人拉里·埃里森是马斯克的好友)来建造xAI的超级计算机,这将使xAI成为甲骨文最大的客户之一。

马斯克想把xAI的数据中心建在孟菲斯的前伊莱克斯电器厂房里,并且希望在2024年秋季前完工。但甲骨文的高管们表示,他们没法在这么短的时间内完成任务。

甲骨文的人说,马斯克选的厂房电力供应不足,无法支持这么多GPU的运行。马斯克对他们的推脱很不满。

最终,马斯克决定xAI自己干,不跟甲骨文合作了。“甲骨文是个好公司,但我们的目标是成为最快的,我们必须自己掌握方向盘,而不是当个乘客,”马斯克在谈判破裂的消息后,在X上发帖说道。

电力难题

为了赶上进度,马斯克催促孟菲斯当地官员尽快批准他的数据中心项目。幸运的是,孟菲斯非常欢迎马斯克的投资,所以很快就批准了。

“我们夜以继日地工作,随时接听电话和短信,就为了跟上马斯克和他的公司的节奏,”大孟菲斯商会主席Ted Townsend告诉《每日孟菲斯报》。

6月初,Townsend公开宣布,马斯克已经选择了孟菲斯作为xAI超级计算机的所在地。

接下来的几周,马斯克和xAI的团队拆除了厂房里的设备,为摆放GPU机架腾出空间。他们安装了电力、机械、管道设备,还给服务器装了水冷系统。

最大的难题是电力供应。一开始,厂房的电力根本不够用。这通常会拖慢甚至终止数据中心项目。

但马斯克想了个临时方案:他运来了几台用天然气驱动的移动涡轮机来补充电力,同时等待当地政府批准他增加100兆瓦电力的申请。田纳西河谷管理局上周批准了他的申请。

马斯克的举动立刻遭到了当地环保组织的反对。他们写信给当地卫生部门,说xAI在没有许可证的情况下运行燃气涡轮机,污染了空气。微软的一位数据中心高管表示,考虑到公司的环保目标,他们是绝对不会这么做的。

“让一个未经许可的发电厂就这么开工,真是太离谱了,完全不尊重当地社区,”南方环境法律中心的资深律师Amanda Garcia说道。该中心反对田纳西河谷管理局的决定。“空气污染是孟菲斯西南部的一个严重问题。”

还有一些其他因素也帮助马斯克加快了项目进度。例如,数据中心行业的高管表示,“巨像”几乎肯定没有经过任何合规性测试,xAI就直接开始使用了。这主要是因为xAI只给自己用,不租给其他客户。

相比之下,微软在把服务器交给OpenAI或其他Azure云客户之前,必须进行一系列数据安全测试,因为客户对正常运行时间和隐私标准有很高的要求。

“我们必须通过各种行业认证,”数据中心运营商DataBank的CEO Raul Martynek说道。“我敢保证,(xAI的)数据中心肯定过不了这些认证。”

很多人对马斯克建造“巨像”的做法表示怀疑。几位数据中心高管表示,把工厂改造用来放GPU服务器和水冷系统是非常困难的。据两位跟xAI员工聊过的人说,过去几个月,这个数据中心还经常宕机。

但这些问题似乎并没有影响xAI的进度。马斯克和英伟达表示,他们在把第一个服务器机架搬进数据中心后仅仅19天,就开始了新版Grok模型的第一次训练。

马斯克的密友、xAI的长期投资人Antonio Gracias最近在接受采访时表示,xAI正在“从第一性原理出发”,重新思考建造数据中心的整个流程,“努力让它更便宜、更好、更快”。

“我在特斯拉、SpaceX和其他公司都见过埃隆·马斯克这样做,他带领着几十名工程师,致力于创造最好、最高效的系统,”Gracias说道。

竞争压力

今年夏天,随着马斯克超级计算机项目的消息传开,亚马逊、微软和谷歌的数据中心高管们开始打电话给英伟达的员工,问的都是同一个问题:马斯克怎么这么快?

一些公司(包括Meta)的高管还联系了一家规模较小的云服务商,看看能不能比自己建更快地获得数据中心容量。

随着越来越多关于孟菲斯数据中心的信息泄露,他们对这个项目的好奇心也越来越强。数据中心和云计算高管们仔细研究了该设施的图片,试图从中 glean 一些设计方面的线索。

马斯克在X上发布了几张数据中心内部的照片。上个月,一个博主在参观了“巨像”数据中心后,在YouTube上发布了一段视频(这段视频难得地展现了数据中心的内部,由超微电脑公司赞助,该公司为马斯克提供了一些服务器)。

与此同时,xAI原本的合作伙伴甲骨文在跟xAI谈崩后不久,就签署了协议,为OpenAI提供计算能力。OpenAI的新数据中心将建在阿比林,甲骨文已经跟Crusoe和Lancium两家初创公司签署了协议,共同开发这块场地。

上个月,Crusoe筹集了超过30亿美元,用于开发数据中心的第一期工程,其中将包含10万个英伟达最新的GB200 GPU。

跟马斯克在孟菲斯一样,Crusoe也在努力加快项目进度。DPR的Arcello(他的公司是Crusoe的承包商)表示,这是他参与过的速度最快的项目之一。他们从3月开始讨论数据中心设计,6月就破土动工了。

几周前,阿比林工地的工人们正忙着砍树,为新的变电站腾出空间,并源源不断地浇筑混凝土。据三位知情人士透露,OpenAI已经要求合作伙伴考虑使用燃气涡轮机,以防万一电力供应出现问题。

最近,一位导游在带领参观工地时被问到,为什么大家这么着急建数据中心。

“谁先建好超级计算机,谁就能统治世界,”导游说道。


英文完整版


关注《森林聊AI商业》公众号


了解 AI 如何塑造商业的未来




森林聊AI商业
每日一起了解,AI如何改变科技世界
 最新文章