NVIDIA HGX B200的一些照片及其液冷板方案的思考

科技   2024-12-31 12:02   北京  







NVIDIA HGX B200的一些照片


NVIDIA HGX B200 是NVIDIA推出的最新一代高性能计算平台,基于Blackwell GPU架构。它集成了多个先进的技术和组件,旨在提供卓越的计算性能和能效。

HGX B200风冷模组
使用了HGX B200风冷模组的整机高度达到了10U,其中HGX B200风冷模组的高度约占6U。

Exxact TensorEX 10U HGX B200 Server

6x 5250W Redundant (3 + 3) power supplies
SuperServer SYS-A22GA-NBRT(10U)
6x 5250W Redundant (3 + 3) power supplies
在 OCP 2024 全球峰会上展示了一些 NVIDIA HGX B200 的新照片。 与 NVIDIA HGX A100/H100/H200 相比,它的一大变化是 NVLink Switch芯片移到了组件的中心,而不是位于一侧。这最大限度地缩短了 GPU 和 NVLink Switch芯片之间的最大链接距离。NVLink Switch并且只有2个,而不是上一代的4个,且尺寸比上一代的明显变大。
在边缘侧的连接器附近是PCIe Retimer,而不是NVSwitch了。这些Retimer通常使用较小的散热器,因为它们的TDP大约在10-15W之间。
没有装散热器的HGX B200主板-1
没有装散热器的HGX B200主板-2
HGX B200主板上Retimer芯片散热器
在EXAMAX连接器的上表面的丝印显示这是一块 Umbriel GB200 SXM6 8 GPU 底板,部件编号为:675-26287-00A0-TS53。仔细观察,发现Retimer芯片厂家为Astera Labs。

NVIDIA HGX B200部件编号信息 
NVIDIA HGX B200 Astera Labs  Retimer芯片放大图
HGX B200主板整体芯片的外围均有一层黑色的铝合金材质的安装框架,用于固定散热器和黏贴导热材料用。
NVIDIA HGX B200主板散热器安装框架
下面是在2024年 OCP全球峰会上展示的 NVLink Switch 芯片。
NVIDIA HGX B200 NVLink Switch芯片放大图







HGX B200液冷板方案的思考

NVIDIA为B200设定了两个TDP,1200W和1000W,前者定位液冷,后者定位风冷。此外,B100 还提供与之前的 H100 SXM 相同的 700W 范围,允许 OEM 制造商重复使用 700W 的风冷设计。当然,TDP 限制越高,时钟频率和启用的算术单元数量就越高,从而提高性能。事实上,FP4(Tensor 核)的性能对于 B200/1200W为20PFLOPS,对于B200/1000W 为 18PFLOPS,对于B100/700W 为14PFLOPS。
OAI系统采用了4x2冷板(即水管)回路,蓝色即低温液体先流入OAM 1-4上面的冷板,(吸热升温一些)然后再流经OAM 5-8的冷板。这就像风冷散热中一排气流先后经过2个CPU的散热片。
相比之下,8x1冷板回路Layout则将低温液体直接平均分配到8个OAM,这样不会有一半OAM温度偏高的问题,但包括水管在内的成本应该也会高一些。
OAM 1.5规范中冷板组件4并2串示意图
4并2串与 8*1方案
H100 8+4(4并3串方案)
 H3C R5500 G6 H100模组液冷4并3(2 GPU并+1Switch串)串
H100 8+4--GPU4并2串+Switch 2并2串
结合上述H100冷板方案,B200冷板方案思考如下:8个GPU和2个Switch共分为2组,上面4个GPU+1个Switch为一组,剩下的为另一组,两组液冷方案一样。每组冷板2进2出,上部2个GPU并联后与Switch串联,下部2个GPU也是并联后于相同的Switch串联,即Switch冷板上共4个进出水接头。
当然,分水器也可以设计为6进6出,即8个GPU用其中的4进4出,GPU采用4并2串的方案,2个Switch使用另外的2进2出,各自接到分水器上。此方案需要更多的考虑管路走线路径和空间的问题。但不论哪种方案,都需要经过详细的仿真评估和实际的整机结构设计而定。
HGX B200冷板方案思考
来源:产品工程技术,文章仅代表作者个人见解,不代表CDCC认同其观点,转载仅供读者参考学习,如有侵权请联系我们,24小时内删除。

关注我们获取更多精彩内容


往期推荐

● 最佳演讲人气王 | 抖音井汤博 数据中心技术矩阵和产品套餐化研发策略

● 最佳演讲人气王 | 阿里云任华华 一册在手 液冷不愁——《数据中心液冷系统技术规程》内容解析

● 最佳演讲人气王 | 康普吴健:关键网络决定智算效率

● 最佳演讲人气王 | 世纪互联刘学潮:数据中心国产柴发的机遇和挑战

CDCC
数据中心标准、技术沟通交流平台
 最新文章