NVIDIA HGX B200的一些照片及其液冷板方案的思考

科技   2024-11-13 11:51   北京  
NVIDIA HGX B200的一些照片
NVIDIA HGX B200 是NVIDIA推出的最新一代高性能计算平台,基于Blackwell GPU架构。它集成了多个先进的技术和组件,旨在提供卓越的计算性能和能效。

HGX B200风冷模组
使用了HGX B200风冷模组的整机高度达到了10U,其中HGX B200风冷模组的高度约占6U。

Exxact TensorEX 10U HGX B200 Server

6x 5250W Redundant (3 + 3) power supplies
SuperServer SYS-A22GA-NBRT(10U)
6x 5250W Redundant (3 + 3) power supplies

在 OCP 2024 全球峰会上展示了一些 NVIDIA HGX B200 的新照片。 与 NVIDIA HGX A100/H100/H200 相比,它的一大变化是 NVLink Switch芯片移到了组件的中心,而不是位于一侧。这最大限度地缩短了 GPU 和 NVLink Switch芯片之间的最大链接距离。NVLink Switch并且只有2个,而不是上一代的4个,且尺寸比上一代的明显变大。
在边缘侧的连接器附近是PCIe Retimer,而不是NVSwitch了。这些Retimer通常使用较小的散热器,因为它们的TDP大约在10-15W之间。

没有装散热器的HGX B200主板-1
没有装散热器的HGX B200主板-2
HGX B200主板上Retimer芯片散热器

EXAMAX连接器的上表面的丝印显示这是一块 Umbriel GB200 SXM6 8 GPU 底板,部件编号为:675-26287-00A0-TS53。仔细观察,发现Retimer芯片厂家为Astera Labs。

NVIDIA HGX B200部件编号信息 

NVIDIA HGX B200 Astera Labs  Retimer芯片放大图
HGX B200主板整体芯片的外围均有一层黑色的铝合金材质的安装框架,用于固定散热器和黏贴导热材料用。

NVIDIA HGX B200主板散热器安装框架
下面是在2024年 OCP全球峰会上展示的 NVLink Switch 芯片。

NVIDIA HGX B200 NVLink Switch芯片放大图

HGX B200液冷板方案的思考
NVIDIA为B200设定了两个TDP,1200W和1000W,前者定位液冷,后者定位风冷。此外,B100 还提供与之前的 H100 SXM 相同的 700W 范围,允许 OEM 制造商重复使用 700W 的风冷设计。当然,TDP 限制越高,时钟频率和启用的算术单元数量就越高,从而提高性能。事实上,FP4(Tensor 核)的性能对于 B200/1200W为20PFLOPS,对于B200/1000W 为 18PFLOPS,对于B100/700W 为14PFLOPS。
OAI系统采用了4x2冷板(即水管)回路,蓝色即低温液体先流入OAM 1-4上面的冷板,(吸热升温一些)然后再流经OAM 5-8的冷板。这就像风冷散热中一排气流先后经过2个CPU的散热片。
相比之下,8x1冷板回路Layout则将低温液体直接平均分配到8个OAM,这样不会有一半OAM温度偏高的问题,但包括水管在内的成本应该也会高一些。
OAM 1.5规范中冷板组件4并2串示意图
4并2串与 8*1方案
H100 8+4(4并3串方案)
 H3C R5500 G6 H100模组液冷4并3(2 GPU并+1Switch串)串
H100 8+4--GPU4并2串+Switch 2并2串
结合上述H100冷板方案,B200冷板方案思考如下:8个GPU和2个Switch共分为2组,上面4个GPU+1个Switch为一组,剩下的为另一组,两组液冷方案一样。每组冷板2进2出,上部2个GPU并联后与Switch串联,下部2个GPU也是并联后于相同的Switch串联,即Switch冷板上共4个进出水接头。
当然,分水器也可以设计为6进6出,即8个GPU用其中的4进4出,GPU采用4并2串的方案,2个Switch使用另外的2进2出,各自接到分水器上。此方案需要更多的考虑管路走线路径和空间的问题。但不论哪种方案,都需要经过详细的仿真评估和实际的整机结构设计而定。
HGX B200冷板方案思考
以上方案为个人见解,欢迎大家交流。

关注我们获取更多精彩内容


往期推荐

● 2024数据中心标准大会完整日程发布,直面AIDC变化与未来

● 数据中心标准大会主旨论坛:七大维度解读“AI之光,照耀未来”

● 探寻奇点:柴发机组的机遇和挑战

● 风生水起 智算中心液冷新动能

● 加速蜕变 智算中心电气与制冷新趋势

● 飞驰快车道——多维解构智算中心未来发展


CDCC
数据中心标准、技术沟通交流平台
 最新文章