马斯克和xAI建设全球最大的AI超级计算机

文摘   2024-11-04 23:58   广西  


“马斯克和xAI建设全球最大的AI超级计算机”

世界最大的AI超级计算机,Colossus

    马斯克和他的xAI公司打造了全球最大、性能最强的AI训练超级计算机。这台超级计算机被命名为Colossus,它配备了最新的Nvidia GPU硬件,使用大量水进行液冷,并由巨型Tesla Mega pack电池供电,马斯克相信,所有这些结合起来将创造出全球最强大的人工智能,它将真正解决宇宙的奥秘。

建筑前身是Electrolux

    项目地址位于田纳西州孟菲斯,位于市中心西南部的一个工业园区,毗邻密西西比河。建筑本身并非由 xAI 建造,它之前是瑞典家电制造商Electrolux的总部所在地。马斯克选择这里的原因,也是为了找到正确的建筑,以便尽快让项目投入运行。

已经集成10万个 H100 GPU

    尽管Colossus的外观并不起眼,但其内在才是关键,它里面是世界上最大的人工智能训练集群。目前,超过10万个Nvidia HGX H100 GPU通过超高速网络连接着数EB的数据存储。Nvidia首席执行官黄仁勋曾表示,Colossus无疑是地球上最快的超级计算机。Colossus的构建完全是为了驱动Grok。

部署周期仅有122天

    看到的整个设施仅用了122天就建成了,建设速度惊人。更传统的超级计算机集群,一般只有Colossus的一半到四分之一的GPU数量,但这些传统系统的建设从开始到结束需要数年时间。

AI集群的内部结构

    AI训练工作在一个叫做数据厅(Data Hall)的区域进行。xAI将系统分成三个层次。上面是电源、下面是冷却,中间是GPU集群。
    Colossus内部有四个数据厅,每个数据厅都有25000个 GPU,加上存储空间和将它们全部连接在一起的光纤网络。Colossus使用水进行液体冷却,GPU集群下方是一个巨大的管道网络,将大量的水移入和移出设施。

GPU机架

    这些GPU机架就像图中一样,每个托盘都装有八个Nvidia H100 GPU,这是目前最先进的AI训练芯片,这种情况将很快发生变化,马斯克已经计划在Nvidia B200芯片广泛普及后将 Colossus升级到该芯片,但目前没有时间可以浪费。

每个机架有独立水冷系统

    每个机柜内置有八个这样的机架,每个垂直堆叠中总共有64个GPU芯片和16 个CPU芯片。每个机架都有自己独立的水冷系统,这些小管直接通入GPU外壳,蓝色管用于输送冷水,红色管用于提取热水。

每个机架能独立维护,减少停机时间

    xAI的这些GPU机架的优点在于,每个机架都可以单独拉出进行维护,并且可以在托盘上进行维修,这意味着无需关闭和拆卸整个机柜即可更换一个芯片,然后将其滑回并继续训练。这在AI行业中是独一无二的,只有xAI拥有这样的设置,这将使他们能够将停机时间降至最低。冷却系统也配有可轻松拆卸和维修的单独水泵。

使用英伟达DPU提供每秒400GB的数据连接

    每8个GPU配备2个CPU,用于准备数据和运行操作系统。用于训练Grok的所有数据都保存在一个巨大的硬盘存储系统中,数EB的文本、图像和视频被输入到训练集群中(1EB等于10亿GB)。xAI 网络由Nvidia Bluefield-3 DPU提供支持,可以通过光纤电缆网络每秒处理400 GB数据,这比非常快的家庭互联网连接快400倍左右。

使用MegaPack提供稳定电源

    如此大量的设备需要同样大量的电力,Colossus使用的是传统电力。当xAI将其十万个GPU系统上线时,来自电网电力的毫秒级波动也会导致训练过程不一致。
    xAI引入了特斯拉 Megapack电池组。他们将电网中的电力输送到储能电池,然后电池直接向训练集群放电。这为整个网络提供了超稳定的直接能源,从而实现物理上最高效的训练。未来Colossus扩容时,这种独特的能源方案将变得更加关键。

两个月内将扩容到20万个H100

    尽管当前的规模和速度已经让业界惊讶,但马斯克计划两个月内,将Colossus的规模扩大一倍至超过20万个H100 GPU。这是一个疯狂的增长速度,让老牌 AI 巨头Open AI感到害怕。有报道称,Open AI 首席执行官Sam Altman已经告诉微软高管,他担心马斯克很快就会在计算能力方面超越他们。

马斯克期望将xAI估值提高到400亿美元

    所有这些都需要资金支持,就在几个月前,xAI刚刚获得60亿美元风险投资,使这家成立仅一年的公司估值达到240亿美元。对于一家当时只有一款基本产品在市场上的年轻公司来说,这是一大笔钱。
    但马斯克已经在寻求更多的资金,以将xAI的价值提升到400亿美元。相比之下,行业巨头Open AI目前的估值为1570亿美元。

    强大的算力是xAI在实现通用人工智能道路上迈出的重要一步,通用人工智能可以利用这些算力学习更多,发现无法发现的事物、解决无法解决的问题。根据马斯克的说法,这就是我们解开宇宙奥秘和我们自身存在本质的方式。

Achillesccj
一起揭开科技世界的一角,领略浩瀚的太空,体悟时空的魅力,也思索宇宙和生命的意义。
 最新文章