引言 — 这篇文章参考了SemiAnalysis的文章《GB200 Hardware Architecture》,整理了对于机架设计比较重要的一些分析。
本文包括两篇,此为第一篇,包括以下五个部分:
机架密度
超级芯片
网络分类
交换连接
冷却分析
原文章已经上传至知识星球。
I. 机架密度
GB200 NVL36 * 2,两个并排连接在一起的机架。
大多数 GB200 机架都采用这种外形。每个机架包含 18 个 Grace CPU 和 36 个 Blackwell GPU。
在两个机架之间,NVL72 中的 72 个 GPU 之间仍然保持无阻塞的全对全连接。
每个Compute tray高度为 2U,包含 2 块 Bianca 板。
每个 NVSwitch tray有两个 28.8Tb/s NVSwitch5 ASIC 芯片。
每个芯片有 14.4Tb/s 向后连接到cable tray,14.4Tb/s 连接到前面板。
每个 NVswitch tray有 18 个 1.6T 的双口OSFP连接器,可水平连接组成一对 NVL36 机架。
一个NVL36的机架大约为67KW,组成的一对机架即为134KW,这样对比NVL72的整机架方案,就多了10KW。
然而,NVL36的单机架功率降低了,因此可能会被普遍地采用。
NVL36提供了36个GPU的高速互联,
而针对中国市场的MGX16也可能会提供32个GPU组成的HBD,
这两种产品形态会并存么?
II. 超级芯片
GB200的Bianca Board有几个地方比较有趣。
右下角灰色的是一个C2C连接器,可以连接同一个Compute Tray中的两个Grace芯片。
左下角CX-7是通过一个Mezz卡的方式扣在GB200上面,这样便于用冷板散热,然后Mezz卡上支持DensiLink的连接方式,连接到前面的OSFP连接器,如下图。
有了连接两块 Bianca 板的C2C链路,就可以在 CPU 之间共享内存、存储和网卡等资源。
因此,每个compute tray只需 1 个frontend网卡,而不是参考设计中建议的 2 个。
这与 x86 中的情况类似,每台服务器有 2 个 CPU,但由于 CPU 可以共享资源,因此只需要 1 个frontend网卡。
这个概念在之前的双GH200系统中,已经有类似的实现。
因此一个compute tray的逻辑图就变成了下面的这个样子。
48V busbar进来首先到PDB,再从PDB转成12V之后,传送给Bianca 板。
Compute tray中的连接器和线缆主要包括:连接 ConnectX-7/8Mezz板和Bianca 板的 Mirror mezz 连接器,以及连接 ConnectX-7/8 和机箱前部 OSFP 连接器的 DensiLink 线缆。
前窗配置如下:
III. 网络分类
网络主要包含以下几个分类:
Frontend网络(以太网)
Backend网络(Infiniband/RoCE 以太网)
Scale up加速器网络(NVLink)
带外管理网络
简单来说,Frontend网络就是普通的以太网,用于连接互联网、SLURM/Kubernetes、网络存储、数据加载和模型check point。
该网络的速度通常为每个 GPU 25-50Gb/s ,因此在 HGX H100 服务器上,每个服务器的速度为 200-400Gb/s,而在 GB200 计算机托盘节点上,每个服务器的速度为 200-800Gb/s,具体取决于配置。
Backend网络用于在数百到数千个机架上扩展 GPU-GPU 通信。该网络可以是 Nvidia 的 Infiniband 或 Nvidia Spectrum-X 以太网或 Broadcom 以太网。与 Broadcom 以太网解决方案相比,Nvidia 的要贵得多。
Scale up加速器网络(Nvidia 的 NVLink、AMD 的 Infinity Fabric/UALink、Google TPU 的 ICI、Amazon Trainium 2 的 NeuronLink)是一种超高速网络,可将系统内的 GPU 连接在一起。
在 Hopper 上,该网络以每秒 450GB 的速度将 8 个 GPU 连接在一起,而在 Blackwell NVL72 上,它将以每秒 900GB 的速度将 72 个 GPU 连接在一起。Blackwell 还有一种名为 NVL576 的变体,可将 576 个 GPU 连接在一起,但基本上没有客户会选择它。一般来说,scale up加速器网络的速度是backend网络速度的 8-10 倍。
下图是两个NVL36的NVLINK的拓扑。
整机架设计的铜互连带来了光模块的节省,NV声称,每个NVL72机架如果使用带transceiver的光模块,那么单机架会增加20KW的功耗。
简单计算一下,一共需要648个1.6T双端口transceiver,每个30W功耗,合计19.4KW,每个成本按照850美元计算,合计成本为550,800美元。
如果按照NV 75%的毛利率计算,意味着客户需要支出2,203,200美元,这大概就是DGX H100 NVL256从未发货的原因之一。
最后是带外管理网络,用于重新安装操作系统、监控节点健康状况(如风扇速度、温度、耗电量等)。服务器、PDU、交换机和 CDU 上的基板管理控制器 (BMC) 通常连接到该网络,以监控这些 IT 设备。
从H100的单个服务器,变化成为GB200的整机架方案,系统层面上获益的厂家分析如下:
IV. 交换连接
每个 Blackwell GPU 都连接到 Ampheno Paladin HD 224G/s 连接器,每个连接器都有 72 个差分对。然后,该连接器连接到背板 Paladin 连接器。接下来,它将使用 SkewClear EXD Gen 2 电缆连接到 NVSwitch 托盘 Paladin HD 连接器,每个连接器有 144 个差分对。
从 NVSwitch Paladin 连接器到 NVSwitch ASIC 芯片,都需要 OverPass flyover cable,因为每个交换机托盘有 4 144 个 DP 连接器 (576 DP),并且在如此小的区域内进行 PCB 走线会产生太多串扰。此外,PCB 上的损耗比电缆上的损耗更严重。
对于 NVL36x2,每个系统将需要额外的 162 条 1.6T 双端口 ACC cable,这些cable用于连接机架 A 和机架 B 之间的 NVSwitch 托盘,这种连接方式会比较昂贵。此外,324 DensiLink flyover cable用于连接OSFP连接器,每个NVL36x2的双机架大约需要承担$10,000的成本。
对比NVL72,NVL36x2需要两倍的NVSwitch 5芯片来连接两个rack,铜缆的成本也会翻倍(不过成本增加会比大多数评估更低)。即使这样,大多数客户处于供电和散热的考虑,依然会选择NVL36x2的方案。
V. 冷却分析
H100 HGX 服务器广泛采用风冷,采用 3DVC(3D 均温板 vapor chamber)和风扇。然而,这会造成每台服务器的 功耗高达 10.2kW,需要足够的机架空间来容纳 4 RU(1 RU = 1.75 英寸)的 3DVC,以有效散热。8xH100 HGX 服务器的高度通常约为 5-8RU。每个机架通常有2-4个H100 HGX节点,因此每个机架的TDP约为20-40kW。
Blackwell 的 B100 和 B200 的 TDP 分别为 700W 和 1000W/1200W,这需要更高的 3DVC 或直接液冷 (DLC) 冷板。对于 2700W GB200 Bianca 板,DLC 是唯一的选择。对于 GB200,每个计算托盘的机箱高度将降至 1-2 RU,而风冷 B200 HGX 服务器的机箱高度为 9-10RU。
除了提高计算密度之外,采用 DLC 的另一个动机是提高能源效率,因为 DLC L2L 解决方案的数据中心总功率降低了 10.2% 以上。在本节中,我们将讨论冷却解决方案的架构对 DLC 硬件供应链、数据中心架构、不同 DLC 外形尺寸以及 CSP/最终客户采购动态的影响。
DLC 需要比空气冷却更多的组件来部署。风冷解决方案硬件由热界面材料 (TIM)、集成散热器 (IHS)(100% 由 Jentech 提供)、3DVC 和风扇组成。液体冷却解决方案使用以下组件替换 3DVC 和风扇:
冷板 - 在铜板内传播热量,并通过液体回路传递热量。
快接头 (QD) - 允许以快速、方便的方式连接和断开,而不会漏液。
冷却剂分配管 (CDM) - 向每台服务器提供冷冷却剂并将热冷却剂返回 CDU。
Liquid to Air冷却剂分配单元 (L2A CDU),也称为 sidecar,包括:
储液器和泵装置 (RPU),其中包括:
泵 - 在整个液体冷却系统中推动和循环冷却剂(2N 设计用于冗余)。
水箱(水库)- 便于支持进液及扩充,以避免压力积聚并有助于去除气泡。
散热器 - 将吸收的热量释放到空气中
风扇 - 将散热器中的空气吹走
Liquid to Liquid冷却剂分配装置 (L2L CDU),其中包括:
RPU
钎焊板式换热器(BPHE)- 在板片之间形成双向通道,一种流体在奇数通道中,另一种流体在偶数通道中,从而达到交换热量的目的。
热量的传递:
对于风冷:芯片产生的热量通过 TIM(热界面材料)传导,均匀分布在散热器的区域中。
然后,热量进入 3DVC,热量进入均热板并沿着热管进入散热器。然后,来自风扇的气流将热量从散热器带走,离开机箱。
对于 DLC 解决方案:从 IHS 到冷板的热传递以及冷板内的冷却剂吸收热量并将其带到冷却分配歧管 (CDM)。
然后,CDM 收集每个tray中的所有冷却剂,并进入 CDU,冷却剂在 CDU 中通过散热器/BPHE 与周围空气/水进行热交换,具体取决于是 L2L 还是 L2A。冷却后的冷却剂返回到 CDM,在那里冷却剂被分配回每个tray。最后,冷却剂再次进入冷板,重复该过程。
尽管 Bianca 板(包括两个 B200 GPU、一个 Grace CPU 和两个 Connect-X NIC)将采用液体冷却,但 GB200 compute tray和 NVSwitch tray的前半部分(定制 NIC/DPU、PDU 和管理)所在位置,均为风冷。因此,计算托盘将采用约 85% 的液体冷却和约 15% 的空气冷却。
此外,Bianca 板还将有一个单独版本的冷板,以支持前面提到的用于后端网络的超大规模定制 NIC。这是因为自定义 NIC 取代了 Connect-X NIC,并将它们移至远离 Bianca 板的前面位置。
L2A 和 L2L 外形尺寸之间的机架架构大多相似。如前所述,L2A 和 L2L 的每个 IT 机架都包括冷板、CDM 和 QD。冷却机架/机架内 CDU 是 L2A 与 L2L 的区别。
换句话说,L2A 利用空气作为介质来排出来自冷却系统 (TCS) 的热量,而 L2L 利用设施水作为介质来排出来自 TCS 的热量。TCS 代表 IT 设备和 CDU 之间的冷却系统。
L2A 有两种外形尺寸。第一个 L2A 外形尺寸是“后门热交换器”(RDHx),它是一种机架内解决方案。第二种 L2A 外形涉及冷却架,也称为sidecar。
在两个 L2A 系统中,热冷却剂都会通过散热器(热交换器),热量散发到周围空气中并被风扇吹走,从而冷却冷却剂。冷却后的冷却液进入储液器和泵单元 (RPU),然后返回冷板。
RDHx 解决方案将风扇和散热器安装在背面,RPU 放置在 IT 机架的底部,而 sidecar 解决方案将这些组件放在单独的冷却机架中。从本质上讲,与机架后部相比,sidecar可以提供更多的散热器空间。
这反映了每个冷却能力之间的差异。RDHx的冷却能力约为30kW-40kW,而Sidecar CDU的冷却能力范围为70kW至140kW。我们没有看到 RDHx 的很多用例,因为它的冷却能力太低,甚至无法处理一个 NVL36 机架 (66kw) 的 TDP。另一方面,sidecar设计有 70kW 和 140kW 的容量,可解决一个 NVL36 机架(66kW)和一个 NVL72 机架(120kW)的问题。
对于 L2L,有两种外形尺寸,即机架内 CDU 和行内 CDU。与L2A不同,L2L冷却剂不通过散热器交换热量;相反,冷却剂进入 CDU 中的钎焊板式热交换器 (BPHE),与设施水进行热交换。空气冷却剂从 BPHE 返回 RPU。
机架内 CDU 和行内 CDU 之间的区别在于,机架内 CDU 放置在每个机架的底部,通常占用约 4RU 的机架空间,而行内 CDU 位于机架行的末端。行内CDU通过埋地管道与行内所有机架连接,具有为所有机架散热的冷却能力。机架内 CDU 的冷却能力通常约为 80kW,而行内 CDU 的冷却能力范围为 800kW 至 2000kW。
在液冷组件中,冷板和QD是泄漏最多的地方,因此Hyperscale更有可能采用RVL(reference vendor list)上供应商的解决方案。由于最终客户重视质量并希望避免系统故障,而这些组件的价格在 GB200 BOM 中所占的比例微不足道。我们相信这些组件的竞争和定价压力将会减少。换句话说,最终客户几乎没有动力冒着泄漏的风险更换现有供应商。冷板的供应商格局将与 3DVC 类似,但有一些扩展:AVC、Cooler Masters、Delta 和 Auras。
高阅读量文章