xAI的10万卡H100超级集群上线,马斯克亲自在工厂接光纤

文摘   2024-07-23 11:44   中国香港  



没有10万卡集群别想上台桌,超级数据中心竞赛已经打响。



//


马斯克的超级AI工厂


埃隆·马斯克今天宣布:“在xAI团队、 X团队、 Nvidia和支持公司所做的出色工作下,孟菲斯超级集群培训于当地时间凌晨 4:20 开始。


单个 RDMA 结构上有 100k 个液冷 H100,这是世界上最强大的 AI 训练集群!”


他还补充道:“这对于在今年 12 月之前训练出世界上各方面最强大的人工智能来说是一个显著的优势。”



今年5月,xAI宣布完成60亿美元B轮融资,这是继OpenAI获得微软100亿美元后,大模型领域单笔融资额最大的交易。


融资这么多之后做什么?当然是买GPU,建造超级数据中心。


xAI的超级数据中心,似乎是在2个月左右的时间完成的。今年6月初,xAI官方放出了一组超级工厂开工前的照片,并发出了招聘贴:


“六月如何开始以及接下来如何?

如果您喜欢构建和运行世界上最大的计算机,请加入🧑‍🍳 xAI & 𝕏 !”




一周前,xAI发布了一张马斯克在工厂接光纤的照片。现在来看,是在为工厂竣工做预热。



xAI的超级数据中心是谁来建设的?最早有消息称,xAI的超级数据中心所会与Oracle合作,但后来改为了戴尔科技与超微电脑(Supermicro)。


6月19日,戴尔科技CEO Michael Dell宣布,戴尔科技正在建设一个戴尔人工智能工厂,用英伟达芯片为为xAI何马斯克提供动力。



7月2日,超微电脑CEO Charles Liang 发文感谢马斯克将液体冷却技术引入大型 AI 数据中心!这可能有助于为我们的地球保护 200 亿棵树,同时附上了一张两人站在数据中心旁的照片。



不禁想起了陈奕迅的歌词:那年十八 母校舞会 站着如喽啰,那时候 我含泪发誓各位 必须看到我...)


数据中心竞赛


数据中心就是超级计算机,这场竞争已经由马斯克打响!


7月8日,红杉资本发文预测,表示“2025年将是“数据中心之年”,我们正处于从炒作周期向工业驱动建设周期过渡的风口浪尖。


以下是去年宣布的新数据中心项目的摘要——红杉认为这些项目的建设现在将会加速:


  • 亚马逊:2024 年上半年,AWS 宣布了 500 亿美元的新数据中心项目,其中包括216 栋新建筑。总体而言,亚马逊已承诺在未来 15 年内投资1000-1500 亿美元。最近的承诺包括:在印第安纳州投资 110 亿美元建设园区,在密西西比州投资 100 亿美元建设两个园区,在沙特阿拉伯投资 53 亿美元建设新数据中心,在宾夕法尼亚州塞勒姆附近建设新的核动力数据中心,在德克萨斯州朗德罗克附近规划建设新的数据中心,以及在日本投资 150 亿美元。德国、台湾和新加坡也在考虑建设新项目。 


  • 微软:微软目前拥有 5GW 的能源容量,据报道,2024 年新数据中心建设将增加一倍。最近宣布的包括:威斯康星州芒特普莱森特33 亿美元、印第安纳州西北部10 亿美元、乔治亚州弗洛伊德县10 亿美元、法国43 亿美元、德国35 亿美元、英国32 亿美元、瑞典32 亿美元、西班牙21 亿美元、马来西亚22 亿美元、印度尼西亚17 亿美元、肯尼亚10 亿美元以及墨西哥的新数据中心。有报道称,星际之门数据中心的投资额为 1000 亿美元,但尚未得到证实。


  • 谷歌:谷歌是三家云提供商中规模最小的,而且差距很大。GCP 长期以来一直宣称它更适合 AI 公司。现在,这一说法正在接受考验。谷歌正在印第安纳州建设一个价值 20 亿美元的新数据中心,在密苏里州堪萨斯城建设一个价值 10 亿美元的数据中心,在芬兰建设一个价值 11 亿美元的数据中心,在爱荷华州锡达拉皮兹建设一个价值 5.76 亿美元的数据中心。谷歌还面临着在某些站点扩展自己的 TPU 集群的额外挑战。 


  • Meta:Meta 不经营云业务,但一直在扩大其数据中心容量以支持 Llama 和其他内部 AI 计划。Meta 最近宣布,它已积累了35 万个 H100 GPU,而其总 H100 数量为 60 万个。该公司还宣布了两个专门用于Llama 3 训练的 24k GPU 集群。Meta 正在筹建四个新的数据中心,包括爱达荷州库纳、德克萨斯州坦普尔、爱荷华州达文波特和怀俄明州夏延。 


对于这一趋势,红杉资本做出了五大预测:


  1. 人工智能将催化能源转型。新的太阳能建筑、电池创新、核能复苏——这些将是人工智能浪潮的长期影响

  2. 一些超大规模企业会发现,他们不够灵活,无法满足快速变化的数据中心需求——新的工业人工智能参与者将出现来填补这一空白

  3. 从未来 6 个月开始,由于液体冷却、集群规模和电源接入问题,数据中心建设将出现大量延迟报道

  4. 建设新的人工智能数据中心所需的工业能力将起到刺激经济的作用,并在实体经济中创造就业机会:钢铁、能源、卡车运输和建筑

  5. 当新的数据中心容量上线时,AWS、Azure 和 GCP 提供的训练和推理成本将会下降,这对初创公司有利


END.


延伸阅读


大语言模型专题 | 计算机视觉专题

AI模型更新 | AI技术博客 | AI深度报告



猜想笔记
探索AI边界
 最新文章