10万级 H100 集群:能源、网络拓扑、以太网与 InfiniBand、可靠性、故障、检查点

文摘   2024-07-23 15:04   日本  

主要内容:

  1. AI能力发展减缓:自GPT-4以来,AI能力提升有限,尽管一些模型如Google的Gemini Ultra、Nvidia Nemotron 340B和Meta LLAMA 3在硬件上投入了类似或更多的FLOPS,但由于架构上的不足,未能实现能力上的突破。

  2. 大规模GPU集群的构建成本:构建超过100,000个GPU集群成本超过40亿美元,并且受限于数据中心的容量和电力供应。100,000个 GPU集群需要超过150MW的数据中心容量和1.59 TWH的年电力消耗。

  3. 电力挑战:当前没有单一的数据中心能够提供约150MW的部署容量,如超级计算机El Capitan仅需要30MW的电力。

  4. 网络拓扑和可靠性:构建这些集群不仅仅是投入资金,还需要解决高组件故障率,尤其是网络方面的问题。集群可能基于供应商偏好、工作负载和资本支出等考量,采用不同的网络拓扑结构。

  5. 网络拓扑设计考虑:大型GPU集群不会部署全fat tree架构,而是创建计算岛,这些岛之间通过较低带宽连接。

  6. 网络技术选择:一些公司选择NVIDIA的Spectrum-X以太网而不是InfiniBand,Spectrum-X以太网相比InfiniBand在成本和性能上有优势,但以太网目前不支持SHARP in-network reductions及其他一些重大缺陷,导致一些超大规模公司选择Broadcom的Tomahawk 5。但作为一种成本效益更高的选择,Tomahawk 5需要公司有足够的工程能力来优化NCCL通信集合

  7. H100 A100集群计算能力比较:100,000个GPU的H100集群将显著提升计算能力,相比20,000个A100 GPU集群,有31.5倍的峰值理论FLOPs提升。

  8. 并行性方案:为提高效率,目前通常结合数据并行性、张量并行性和流水线并行性来做3D并行性。

  9. 容错、checkpoint及恢复:大型集群的同步性质要求低故障恢复时间,数据中心需要保持热备用节点和冷备用组件。频繁的检查点和特定的容错训练技术如Oobleck,可以在发生故障时继续训练,但可能会降低系统的整体MFU。

  10. 硬件可靠性问题:GPU HBM ECC错误、驱动程序问题、光收发器故障和NIC过热是常见问题。

  11. 成本优化:一些公司通过使用Cedar Fever-7网络模块代替多个PCIe网络卡来减少成本和提高可靠性。

  12. 不同网络设计的物料清单:文章还讨论了不同网络设计的成本等。

后台回复“进群”入群讨论。

01 AI能力发展渐缓


    自 GPT-4 发布后以来,AI能力的发展渐缓。这种看法在很大程度上是准确的,其根本原因在于,至今尚未能够显著提升对单一模型的计算资源投入。至今推出的各个模型,其计算能力大致维持在 GPT-4 水平(即大约 2e25 FLOP 的训练计算量),这些模型所分配到的训练计算资源,也大致保持在同一量级。

    

    以 Google 的 Gemini Ultra、Nvidia 的 Nemotron 340B 以及 Meta 的 LLAMA 3 405B 为例,这些模型在计算能力上与 GPT-4 相当,甚至在某些情况下计算量更大。然而,由于它们采用了不尽人意的架构设计,这些模型并未能实现对新功能的重大突破。


    AI下一阶段是训练具有数万亿参数的多模态大模型,目前包括但不限于 OpenAI/Microsoft、xAI 和 Meta 在内的多个大型 AI 实验室都在构建超 10万级的GPU集群。这种级别的训练集群仅服务器年成本支出就超 40 亿美元,但同时也受到数据中心容量和能源限制,因为 GPU 通常需要共置以实现高速芯片到芯片网络。一个 100,000 个 GPU 集群将需要超过 150MW 的数据中心容量,一年消耗 1.59 TWH,按 0.078 美元/千瓦时的标准费率计算,成本为 1.239 亿美元



    构建这类集群光有钱是远远不够的,这里面涉及到能源挑战、网络拓扑结构设计、可靠性保障、训练并行方案、机架布局等众多技术难题


     100,000 个 GPU 集群可以提供多少计算量?OpenAI 在大约 20,000 个 A100 上进行 90-100 天的 GPT-4 训练 BF16 FLOPS 约为 2.15e25 FLOP(2150 万 ExaFLOP),该集群只有 6.28 BF16 ExaFLOP/秒的峰值吞吐量。在 100K个 H100 集群上,这个数字将飙升至 198/99 FP8/FP16 ExaFLOP/秒。与 20K个 A100 集群相比,峰值理论 AI 训练 FLOP 增加了 31.5 倍

    

    在 H100 上,万亿参数训练运行中实现了高达 35% 的 FP8 模型 FLOP 利用率 (MFU) 和 40% 的 FP16 MFU。100,000 个 H100 集群使用 FP8 训练 GPT-4 只需要四天时间。在 100k H100 集群训练运行 100 天时,您可以实现约 6e26(6 亿 ExaFLOP)的有效 FP8 模型 FLOP。请注意,硬件可靠性差会显着降低 MFU。MFU 是在考虑开销和各种瓶颈(例如功率限制、通信不稳定、重新计算、低效内核等)后,衡量有效吞吐量和峰值潜在 FLOPS 利用率的指标。



02 能源挑战


    100k H100 集群所需的关键IT 功率约为 150MW虽然 GPU 本身的功耗仅为 700W,但在每台 H100 服务器中,CPU、网络接口卡 (NIC)、电源单元 (PSU) 的功耗又占每个 GPU 约 575W。除了H100服务器之外,AI集群还需要存储服务器、网络交换机、CPU节点、光收发器及其他设备项,这些项目加在一起约占IT电力的10%。从大约150MW的功率来看,超级计算机El Capitan只需要30MW的关键IT功率。


    目前没有任何一个单一数据中心建筑具备新部署约 150MW 的能力。当人们提到 100k GPU 集群时,通常指的是单个园区,而不是单一建筑。对此X.AI 甚至将田纳西州孟菲斯市的一家旧工厂改造成数据中心。


    这些集群通过光模收发器进行信号通信,其成本与覆盖范围之间关系大致上:

    • 距离更远的“单模”DR 和 FR 收发器可以可靠地传输约 500 米至约 2 公里的信号,但成本是“多模”SR 和 AOC 收发器的 2.5 倍,后者仅支持约 50 米的传输距离。

    • 范围超过 2 公里的园区级“coherent”800G 收发器也存在,但价格高出 10 倍以上。


    小型H100 集群通常仅通过一两层交换机,仅使用多模光收发器将每个 400G 的 GPU 连接到其他每个 GPU。对于大型 GPU 集群则必须添加更多层的交换机,而且光学器件也变得非常昂贵。此类集群的网络拓扑则会因为供应商、当前和未来的工作负载以及成本等因素而存在很大差异。

    每个数据中心建筑物通常包含一个或多个计算单元,通过更便宜的铜缆或多模收发器连接。然后使用更远距离的收发器来在计算“岛”之间互连。上图展示了 4 个计算岛,岛内带宽较高,但岛外带宽较低。


    目前semianalysis正在跟踪微软、Meta、谷歌、亚马逊、字节、X.AI、甲骨文等公司数据中心的建设,不同的客户根据数据传输基础设施、成本、可维护性、功率、当前、未来工作负载等多种不同因素选择不同的网络拓扑。一些客户选择基于 Broadcom Tomahawk 5 的交换机,另一些客户坚持使用 Infiniband的交换机,还有的选择 NVIDIA Spectrum-X,具体原因下面详述。



03 训练中并行策略


数据并行


    数据并行是最简单的并行形式,其中每个 GPU 保存模型权重的完整副本,并且每个 GPU(等级)接收不同的数据子集。这种类型的并行性具有最低级别的通信,因为只需在每个 GPU 之间对梯度进行求和(全部归约)。但缺点就是只有每个 GPU 有足够的内存来存储整个模型权重、激活、优化器状态时,数据并行才能发挥作用。对于像 GPT-4 这样的 1.8 万亿参数模型,仅模型权重和优化器状态就可能需要多达 10.8 TB 的内存用于训练。


张量并行


    为了克服这些内存限制,使用了张量并行性。在张量并行中,每一层的工作和模型权重分布在多个 GPU 上,中间工作通过自注意力、前馈网络和每层的层标准化多次跨设备进行all reduce交换。这需要高带宽,尤其需要非常低的延迟。实际上每个 GPU 在每一层上都与其他每个 GPU 一起工作,就像有一个巨大的 GPU 一样。张量并行性通过张量并行性等级的数量减少了每个 GPU 使用的总内存。例如,目前 NVLink 通常使用 8 个张量并行级别,因此这会将每个 GPU 的使用内存减少 8 个。



流水线并行


    通过管道并行,每个 GPU 仅具有层的子集,并且仅对该层进行计算,并将输出传递给下一个 GPU。该技术减少了流水线并行级别数量所需的内存量。流水线并行对通信量要求较高,但不如张量并行那么重。


    为了最大化模型MFU,实际应用中通常将所有三种形式的并行性结合起来形成 3D 并行性:将张量并行化应用于 H100 服务器内的 GPU,然后在同一岛内的节点之间使用pipeline并行化。由于数据并行通信量最低,岛间组网速度较慢,因此岛与岛之间采用数据并行。



04 网络拓扑设计


    如果每个 GPU 在fat tree拓扑中以最大带宽连接到每个其他 GPU,则成本将非常高,因为需要 4 层交换。由于网络的每一层都需要光学器件,因此成本将会飙升,所以一般不会为大型 GPU 集群部署全fat tree架构。一般替代方案就是在计算岛内创建全fat tree拓扑架构,而计算岛间用较小带宽连接。实际应用中大多数公司都选择“超额订阅(OverSubscribe)”顶层网络。如Meta 的最新一代 GPU 集群架构最多可达 32,000 个。总共有 8 个计算岛,它们之间具有全宽带宽,然后是顶部的另一层交换,其超额订阅比例为 7:1。计算岛之间的网络速度比岛内的网络速度慢 7 倍。




    GPU 部署具有多个网络,前端、后端和扩展互联 (NVLink)。在某些情况下,您将在每个方案上运行不同的并行方案。NVLink 网络可能是唯一一种速度足以满足张量并行带宽要求的网络。您的后端通常可以轻松处理大多数其他类型的并行性,但如果存在超额订阅,则通常只能处理数据并行性。



05 混合 InfiniBand 和前端以太网fabric


    一家大公司通过前端以太网跨多个 InfiniBand计算岛进行训练。这是因为前端网络的成本要便宜得多,并且可以利用建筑和区域路由之间的现有数据中心园区网络。


    但随着 MoE 等稀疏技术导致模型大小增长得更快,前端网络需要处理的通信量也会增长。这是必须做在前后端网络方案之间做tradeoff,否则前端网络带宽最终会变得额与后端网络带宽大小一致。


    这里值得专门介绍一下,Google 只使用前端网络运行多 TPU pod 训练。被称为 ICI 计算fabric最多只能扩展到 8960 个芯片,并使用昂贵的 800G 光学器件和光路交换机连接每个 64 TPU 水冷机架。这导致谷歌必须通过使 TPU 前端网络比大多数 GPU 前端网络更强大来进行补偿。




    当在训练期间使用前端网络时,必须在计算岛之间完成网络拓扑感知的全局all-reduce

  • 每个 Pod 或 Island 将在 Pod InfiniBand 或 ICI 网络内执行本地reduce-scatter,这将使每个 GPU/TPU 具有梯度分段的总和。

  • 将使用前端以太网网络执行每个主机级别之间的跨 pod all-reduce,然后最后每个 pod 将执行 pod 级别的 all-gather。


    前端网络还负责加载数据,随着我们转向多模态图像和视频训练数据,前端网络需求将呈指数级增长。在这种情况下前端网络带宽将在加载大型视频文件和进行所有reductions之间做权衡。同时straggller问题会增加,这会导致整个 all-reduce 变慢并且无法进行预测建模。


    另一种选择是采用 7:1 超额订阅的 4 层 InfiniBand 网络,具有 4 个 Pod,每个 Pod 具有 24,576 个 H100,具有非阻塞 3 层系统。与使用前端网络相比,这为未来的带宽增加提供了更大的灵活性,因为与在每个建筑中进行完整的前端网络 NIC 升级如从100G升级到200G相比,将更多光纤收发器从建筑 A 中的交换机添加到建筑 B 中的另一个交换机要容易得多。


    这会创建更稳定的网络模式,因为您的前端网络可以仅专注于加载数据和检查点,而后端网络可以仅专注于 GPU 到 GPU 的通信。这也有助于解决掉队者问题。但不幸的是,由于需要所有额外的交换机和收发器,4 层 Infiniband 网络非常昂贵。


06 轨道优化和中间机架



    为了提高可维护性增加铜缆网络(< 3 米)和多模网络(< 50 米)的使用,一些客户选择放弃 NVIDIA 推荐的导轨优化设计,而不是选择进行中间机架设计(Middle ofR Rack Design)。


    
轨道优化是一种让每个 H100 服务器连接到 8 个不同的叶子交换机(不是全部连接到同一个机架交换机中间)的技术,这样每个 GPU 就可以通过 1 个交换机跳跃与更远的 GPU 通信。这使得现实世界中所有人的集体表现得以提高。all-to-all collective通信在专家混合 (MoE) 专家并行中大量使用。

    轨道优化设计的缺点是,必须连接到不同距离的不同叶子交换机,而不是连接到紧邻服务器中所有 8 个 GPU 的机架交换机中间。当交换机可以放置在同一机架中时,可以使用无源直连电缆 (DAC) 和有源电缆 (AEC),但在交换机不一定位于同一机架中的导轨优化设计中,必须使用光学器件。而且当Leaf到Spine交换机的距离大于50米时,必须使用单模光模块。


    通过使用非导轨优化设计,您可以使用廉价的直连铜缆替换将 GPU 连接到叶子交换机的 98,304 个光收发器,从而使 GPU 结构的 25-33% 是铜缆。从下面的机架图中可以看出,每个 GPU 到叶子交换机的连接不再是先到电缆桥架,然后再将 9 个机架横向连接到专用导轨优化的叶子交换机机架,叶子交换机现在位于机架的中间,以便每个 GPU 使用 DAC 铜缆。


    与光学电缆相比,DAC 铜电缆运行温度更低、功耗更低,而且价格便宜得多。由于 DAC 电缆的运行温度较低、功耗更低且更可靠,因此可以减少抖动(网络链路间歇性中断)和故障,而这是所有使用光学器件的高速互连的主要问题。使用 DAC 铜缆时,Quantum-2 IB 主干交换机的功耗为 747 瓦。使用多模光收发器时,功耗最高可达 1,500 瓦。



    对于数据中心技术人员来说,轨道优化设计的初始布线非常耗时,因为每个链路的末端相距长达 50 米,并且不在同一机架上。与中间机架设计相比,在中间机架设计中,叶子交换机与连接到叶子交换机的所有 GPU 位于同一机架中。在机架设计的中间,您甚至可以在集成工厂测试计算节点到叶交换机的链路,因为它们都位于同一机架内。





07 可靠性及故障恢复


    由于当前模型训练过程中的同步机制,可靠性成为了这些超大集群最重要的运行时问题之一。最常见的可靠性问题是 GPU HBM ECC 错误、GPU 驱动程序卡住、光收发器故障、NIC 网卡过热等


    为了保持较短故障恢复的平均时间及持续训练,数据中心必须在现场保留热备用节点和冷备用组件。当发生故障时,最好不要停止整个训练运行,而是换入已启动的工作备用节点并继续训练。这些服务器的大部分停机时间只是简单地重新通电/重新启动节点并修复出现的任何问题。


    实际应用中简单的重启并不能解决所有问题,在许多情况下需要数据中心技术人员进行物理诊断和更换设备。在最好的情况下,数据中心技术人员需要几个小时甚至几天才能修复,然后重新投入训练运行。


    在训练模型时,需要频繁地将模型检查点存储到 CPU 内存或 NAND SSD,以防发生 HBM ECC 等错误。当发生错误时,则必须从较慢的内存层重新加载模型和优化器的权重并重新启动训练。容错训练技术(例如 Oobleck)可用于提供用户级应用程序驱动的方法,处理 GPU 和网络故障


    但是频繁的检查点和容错训练技术会损害系统的整体 MFU,集群需要不断暂停以将其当前权重保存到持久内存或CPU内存中。而且通常每 100 次迭代才保存一次,所以从检查点重新加载时,最多会丢掉 99 步有用的训练及数据。在 100k 集群上,如果每次迭代花费 2 秒,则您会因迭代 99 处的故障而损失最多 229 个 GPU 天的工作量。


    另一种故障恢复方法是让备用节点通过后端结构从其他 GPU 进行 RDMA 复制,由于后端 GPU 速度约为 400Gbps,并且每个 GPU 有 80GB HBM 内存,因此复制权重大约只需要 1.6 秒。使用这种方法,最多只会损失 1 步(因为更多 GPU HBM 将拥有最新的权重副本),因此只需 2.3 GPU 天的计算时间 + 另外 1.85 GPU 天的 RDMA 复制权重来自其他 GPU HBM 内存。通过内存重建实现故障恢复可以为大型训练运行的 MFU 增加多个百分点。



    网络故障方面最常见的问题之一是 Infiniband/RoCE 链路故障。由于收发器数量较多,即使每个 NIC 网卡到叶子交换机链路的平均无故障时间为 5 年,在全新集群上发生第一次作业故障也只需要 26.28 分钟如果不通过内存重建进行故障恢复,由于光学故障,在 100,000 个 GPU 集群中重新启动训练运行所花费的时间将比推进模型前进所花费的时间还要多。




    由于每个 GPU 直接连接到 ConnectX-7 NIC(通过 PCIe 交换机),因此网络架构级别没有容错能力,因此必须在用户训练代码处处理故障,直接增加了代码库的复杂性。这是 NVIDIA 和 AMD 当前 GPU 网络结构面临的主要挑战之一,即使其中一个 NIC 发生故障,该 GPU 也没有其他路径与其他 GPU 进行通信。由于当前LLMs在节点内使用张量并行的方式,即使一个NIC、一个收发器或一个GPU出现故障,整个服务器也会被视为宕机


当前有很多正在进行的工作,以使网络可重新配置。因为现状意味着整个 GB200 NVL72 将因 1 个 GPU 故障或 1 个光学故障而宕机,而价值数百万美元的 72 GPU 机架发生故障比价值数十万美元的 8 GPU 服务器更具灾难性。


    Nvidia 已经注意到了这个重大问题,并添加了专门的可靠性、可用性和可服务性引擎(RAS)。我们相信 RAS 引擎会分析芯片级数据,例如温度、恢复的 ECC 重试次数、时钟速度、电压,以预测芯片何时可能发生故障并向数据中心技术人员发出警报。这将使他们能够进行主动维护,例如使用更高的风扇速度配置文件来保持可靠性,使服务器停止服务以在稍后的维护时段进行进一步的物理检查。此外,在开始训练工作之前,每个芯片的 RAS 引擎将执行全面的自检,例如使用已知结果运行矩阵乘法来检测静默数据损坏 (SDC)。



08 Cedar7


    Microsoft/Openai 等一些客户正在进行的另一项成本优化是在每台服务器上使用 Cedar Fever-7 网络模块,而不是使用 8 个 PCIe 外形的 ConnectX-7 NIC。使用 Cedar Fever 模块的主要好处之一是,它允许仅使用 4 个 OSFP 笼,而不是 8 个 OSFP 笼,从而允许在计算节点端(而不仅仅是交换机端)使用双端口 2x400G 收发器。这将连接到叶子交换机的收发器数量从每个 H100 节点的 8 个收发器减少到 4 个收发器。将 GPU 连接到叶子交换机的计算节点端收发器总数从 98,304 个减少到 49,152 个。



    由于 GPU 到叶子交换机的链路被减半,这也有助于缩短首次作业失败的估计时间。我们估计每个双端口 2x400G 链路的平均故障时间为 4 年(而单端口 400G 链路为 5 年),这将使首次作业故障的估计时间达到 42.05 分钟,这比没有 Cedar-7 模块的 26.28 分钟。




09  NvidiaSpectrum-X


    目前有案例正在部署一个 10 万个 H100 集群,该集群将在今年年底前使用 NVIDIA Spectrum-X 以太网投入运行。


    去年我们介绍了 Spectrum-X 在大型网络中相对于 InfiniBand 的各种优势,除了性能和可靠性优势之外,Spectrum-X还有巨大的成本优势。Spectrum-X以太网是每台SN5600交换机有128个400G端口,而InfiniBand NDR Quantum-2交换机只有64个400G端口。p.s. Broadcom 的 Tomahawk 5 交换机 ASIC 也支持 128 个 400G 端口,这使当前一代 InfiniBand 处于很大的劣势。


    完全互连的 100k 集群可以是 3 层,而不是 4 层。采用 4 层而不是 3 层意味着需要多 1.33 倍的收发器。由于 Quantum-2 交换机的端口数较低,100k 集群上完全互连的 GPU 的最大数量限制为 65,536 个 H100。称为 Quantum-X800 的下一代 InfiniBand 交换机通过拥有 144 个 800G 端口解决了这个问题,不过从数字“144”可以看出,这是专为与 NVL72 和 NVL36 系统一起使用而设计的,预计不会在B200 或 B100 集群。尽管不必使用 Spectrum-X 进行 4 层可以节省成本,但不幸的是,您仍然需要从 Nvidia LinkX 产品线购买高价收发器,因为其他收发器可能无法工作或无法通过 Nvidia 验证。


    Spectrum-X 的主要优势在于,受到 NCCL 和 Jensen 等 NVIDIA 库的一流支持,同时将成为新产品线的首批客户。与而Tomahawk5 则需要大量的内部工程工作来使用 NCCL 优化网络,以实现最大吞吐量。



    Spectrum-X 以太网相较于Infiniband的缺点是目前不支持 SHARP 网络内缩减(reduction)。网络内缩减是通过让网络交换机运行这些计算来对每个 GPU 进行求和来实现的。SHARP 的理论网络带宽增加了 2 倍,因为它将每个 GPU 必须执行的发送和写入次数减少了 2 倍。



    Spectrum-X 的另一个缺点是,nvidia在第一代 400G Spectrum-X中使用 Bluefield3 而不是 ConnectX-7 作为临时解决方案(ConnectX-8 预计能与 800G Spectrum-X 完美配合)


    超大规模数据中心中,Bluefield-3 和 ConnectX-7 卡之间的价格差约为 300 美元 ASP,另一个缺点是该卡比 ConnectX-7 多使用 50 瓦。因此,每个节点需要 400W 的额外功率,从而降低了整个训练服务器的“每皮焦耳智能”。您放置 Spectrum X 的数据中心现在需要额外 5MW 才能部署 100,000 个 GPU,而部署具有完全相同网络架构的 Broadcom Tomahawk 5。



10 Broadcom Tomahawk 5


    为了避免给Nvidia打工,许多客户厂商正在部署基于 Broadcom Tomahawk 5 的交换机。每个基于 Tomahawk 5 的交换机都具有与 Spectrum-X SN5600 交换机相同的端口数量(128 400G 端口),并且可以实现类似的性能。同时可以从世界上任何供应商处购买任何通用收发器和铜缆,并进行混合搭配。


    大多数客户直接与 ODM 合作,如 Celestica 交换机,以及与中纪旭创和新易盛等收发器公司合作。根据交换机成本和通用收发器成本,Tomahawk 5 比 Nvidia InfiniBand 便宜得多,也比 Nvidia Spectrum-X 便宜。


    不过前提是需要有足够的工程能力来修补和优化 Tomahawk 5 的 NCCL 通信集合。NCCL 通信集合仅针对 Nvidia Spectrum-X 和 Nvidia InfiniBand 进行了优化。不过如果有 40 亿美元用于 100k 集群,那么上述优化不存在任何问题。虽然软件开发很难,但我们希望每个超大规模厂商都能进行这些优化并放弃 InfiniBand。



    接下来我们将讨论 4 种不同 100k GPU 集群网络设计的物料清单及交换机和收发器成本,以及针对减少光学进行优化的 GPU 集群的物理布局规划。



11 物料清单


    如前所述每10万个H100集群的总资本支出约为40亿美元,但具体金额会因所选择的网络类型而有所不同。具体来说有以下4种方案:

  • 方案1:4层InfiniBand网络,32,768个GPU计算岛,轨道优化,7:1 oversubscription

  • 方案2:3层SpectrumX网络,32,768个GPU计算岛,轨道优化,7:1 oversubscription

  • 方案3:3层InfiniBand网络,24,576个GPU计算岛,非轨道优化,节点内前端网络

  • 方案4:3层Broadcom Tomahawk 5以太网网络,32,768个GPU计算岛,轨道优化,7:1 oversubscription




    不难发现,方案1的是其他方案的1.3-1.6倍,这就是为什么没有人愿意选择大型InfiniBand网络的原因。相比InfiniBand,Spectrum X提供了更大规模的计算岛、更高的岛间带宽,但它也带来了巨大的代价,即更高的功率需求

    综合对比上述方案,基于Broadcom Tomahawk 5的32k计算岛和顶层7:1的oversubscription方案是最具性价比的方案,这也是多家公司选择构建建设类似网络的原因。由于无需支付Nvidia Tax,该方案能够在同等TCO(总体拥有成本)的条件下,提供最高的网络性能。



12 平面布局


    最后在集群设计中,需要优化机架布局。从下图中可以看到,有些行的叶子交换机并不在同一排,这其实是为了优化使用50米多模光纤。因为如果将多模收发器放在行的末端,中间的主干交换机将超出距离范围。



    使用轨道优化的Spectrum-X / Tomahawk 5的32k集群平面图,在这个微软开发集群中,每个机架支持高达40kW的功率密度,每个机架容纳四个H100节点。


    目前这个拥有10万个节点的集群的4栋建筑中,有3栋已经建成。而从H100服务器到叶交换机的连接则使用多模AOC光纤,通过蓝色电缆识别。


    展望未来,随着博通几乎主导了所有超大规模集群,他们的网络收入将继续飙升。

后台回复“进群”入群讨论



AI工程化
专注于AI领域(大模型、MLOPS/LLMOPS 、AI应用开发、AI infra)前沿产品技术信息和实践经验分享。
 最新文章