NVIDIA HGX B200 是NVIDIA推出的最新一代高性能计算平台,基于Blackwell GPU架构。它集成了多个先进的技术和组件,旨在提供卓越的计算性能和能效。
使用了HGX B200风冷模组的整机高度达到了10U,其中HGX B200风冷模组的高度约占6U。
Exxact TensorEX 10U HGX B200 Server
6x 5250W Redundant (3 + 3) power suppliesSuperServer SYS-A22GA-NBRT(10U)6x 5250W Redundant (3 + 3) power supplies在 OCP 2024 全球峰会上展示了一些 NVIDIA HGX B200 的新照片。 与 NVIDIA HGX A100/H100/H200 相比,它的一大变化是 NVLink Switch芯片移到了组件的中心,而不是位于一侧。这最大限度地缩短了 GPU 和 NVLink Switch芯片之间的最大链接距离。NVLink Switch并且只有2个,而不是上一代的4个,且尺寸比上一代的明显变大。在边缘侧的连接器附近是PCIe Retimer,而不是NVSwitch了。这些Retimer通常使用较小的散热器,因为它们的TDP大约在10-15W之间。NVIDIA HGX B200 Astera Labs Retimer芯片放大图HGX B200主板整体芯片的外围均有一层黑色的铝合金材质的安装框架,用于固定散热器和黏贴导热材料用。下面是在2024年 OCP全球峰会上展示的 NVLink Switch 芯片。NVIDIA为B200设定了两个TDP,1200W和1000W,前者定位液冷,后者定位风冷。此外,B100 还提供与之前的 H100 SXM 相同的 700W 范围,允许 OEM 制造商重复使用 700W 的风冷设计。当然,TDP 限制越高,时钟频率和启用的算术单元数量就越高,从而提高性能。事实上,FP4(Tensor 核)的性能对于 B200/1200W为20PFLOPS,对于B200/1000W 为 18PFLOPS,对于B100/700W 为14PFLOPS。OAI系统采用了4x2冷板(即水管)回路,蓝色即低温液体先流入OAM 1-4上面的冷板,(吸热升温一些)然后再流经OAM 5-8的冷板。这就像风冷散热中一排气流先后经过2个CPU的散热片。相比之下,8x1冷板回路Layout则将低温液体直接平均分配到8个OAM,这样不会有一半OAM温度偏高的问题,但包括水管在内的成本应该也会高一些。 H3C R5500 G6 H100模组液冷4并3(2 GPU并+1Switch串)串H100 8+4--GPU4并2串+Switch 2并2串结合上述H100冷板方案,B200冷板方案思考如下:8个GPU和2个Switch共分为2组,上面4个GPU+1个Switch为一组,剩下的为另一组,两组液冷方案一样。每组冷板2进2出,上部2个GPU并联后与Switch串联,下部2个GPU也是并联后于相同的Switch串联,即Switch冷板上共4个进出水接头。当然,分水器也可以设计为6进6出,即8个GPU用其中的4进4出,GPU采用4并2串的方案,2个Switch使用另外的2进2出,各自接到分水器上。此方案需要更多的考虑管路走线路径和空间的问题。但不论哪种方案,都需要经过详细的仿真评估和实际的整机结构设计而定。来源:产品工程技术,文章仅代表作者个人见解,不代表CDCC认同其观点,转载仅供读者参考学习,如有侵权请联系我们,24小时内删除。