NVIDIA HGX B200的一些照片及其液冷板方案的思考

科技 2024-12-31 12:02 北京

NVIDIA HGX B200的一些照片

NVIDIA HGX B200 是NVIDIA推出的最新一代高性能计算平台，基于Blackwell GPU架构。它集成了多个先进的技术和组件，旨在提供卓越的计算性能和能效。

HGX B200风冷模组

使用了HGX B200风冷模组的整机高度达到了10U，其中HGX B200风冷模组的高度约占6U。

Exxact TensorEX 10U HGX B200 Server

6x 5250W Redundant (3 + 3) power supplies

SuperServer SYS-A22GA-NBRT（10U）

6x 5250W Redundant (3 + 3) power supplies

在 OCP 2024 全球峰会上展示了一些 NVIDIA HGX B200 的新照片。与 NVIDIA HGX A100/H100/H200 相比，它的一大变化是 NVLink Switch芯片移到了组件的中心，而不是位于一侧。这最大限度地缩短了 GPU 和 NVLink Switch芯片之间的最大链接距离。NVLink Switch并且只有2个，而不是上一代的4个，且尺寸比上一代的明显变大。

在边缘侧的连接器附近是PCIe Retimer，而不是NVSwitch了。这些Retimer通常使用较小的散热器，因为它们的TDP大约在10-15W之间。

没有装散热器的HGX B200主板-1

没有装散热器的HGX B200主板-2

HGX B200主板上Retimer芯片散热器

在EXAMAX连接器的上表面的丝印显示这是一块 Umbriel GB200 SXM6 8 GPU 底板，部件编号为：675-26287-00A0-TS53。仔细观察，发现Retimer芯片厂家为Astera Labs。

NVIDIA HGX B200 Astera Labs Retimer芯片放大图

HGX B200主板整体芯片的外围均有一层黑色的铝合金材质的安装框架，用于固定散热器和黏贴导热材料用。

NVIDIA HGX B200主板散热器安装框架

下面是在2024年 OCP全球峰会上展示的 NVLink Switch 芯片。

NVIDIA HGX B200 NVLink Switch芯片放大图

HGX B200液冷板方案的思考

NVIDIA为B200设定了两个TDP，1200W和1000W，前者定位液冷，后者定位风冷。此外，B100 还提供与之前的 H100 SXM 相同的 700W 范围，允许 OEM 制造商重复使用 700W 的风冷设计。当然，TDP 限制越高，时钟频率和启用的算术单元数量就越高，从而提高性能。事实上，FP4（Tensor 核）的性能对于 B200/1200W为20PFLOPS，对于B200/1000W 为 18PFLOPS，对于B100/700W 为14PFLOPS。

OAI系统采用了4x2冷板（即水管）回路，蓝色即低温液体先流入OAM 1-4上面的冷板，（吸热升温一些）然后再流经OAM 5-8的冷板。这就像风冷散热中一排气流先后经过2个CPU的散热片。

相比之下，8x1冷板回路Layout则将低温液体直接平均分配到8个OAM，这样不会有一半OAM温度偏高的问题，但包括水管在内的成本应该也会高一些。

OAM 1.5规范中冷板组件4并2串示意图

4并2串与 8*1方案

H100 8+4（4并3串方案）

H3C R5500 G6 H100模组液冷4并3（2 GPU并+1Switch串）串

H100 8+4--GPU4并2串+Switch 2并2串

结合上述H100冷板方案，B200冷板方案思考如下：8个GPU和2个Switch共分为2组，上面4个GPU+1个Switch为一组，剩下的为另一组，两组液冷方案一样。每组冷板2进2出，上部2个GPU并联后与Switch串联，下部2个GPU也是并联后于相同的Switch串联，即Switch冷板上共4个进出水接头。

当然，分水器也可以设计为6进6出，即8个GPU用其中的4进4出，GPU采用4并2串的方案，2个Switch使用另外的2进2出，各自接到分水器上。此方案需要更多的考虑管路走线路径和空间的问题。但不论哪种方案，都需要经过详细的仿真评估和实际的整机结构设计而定。

HGX B200冷板方案思考

来源：产品工程技术，文章仅代表作者个人见解，不代表CDCC认同其观点，转载仅供读者参考学习，如有侵权请联系我们，24小时内删除。

关注我们获取更多精彩内容

往期推荐

● 最佳演讲人气王 | 抖音井汤博数据中心技术矩阵和产品套餐化研发策略

● 最佳演讲人气王 | 阿里云任华华一册在手液冷不愁——《数据中心液冷系统技术规程》内容解析

● 最佳演讲人气王 | 康普吴健：关键网络决定智算效率

● 最佳演讲人气王 | 世纪互联刘学潮：数据中心国产柴发的机遇和挑战

CDCC

数据中心标准、技术沟通交流平台

最新文章

行业内参 —— 美国AI算力管制新令对亚太数据中心的影响

网事数说 | 为什么智算中心必须用结构化布线？

31.75亿元！中国工商银行西安数据中心西咸园区项目签约

邮储银行北京分行吴亚垒：人工智能金融应用实践助力科技金融“益企营”

美国AI基础设施的千亿豪赌：从“星际之门”到全球算力霸权（4篇）

CDCC视觉传达：创意 TOP 10 揭幕，震撼来袭！

液冷基础信息

BBU，AI服务器新方向！

KKR与GDH合作投资50亿美元在中东建设超大规模数据中心

最佳演讲人气王 | 中集祝佳利：IDC行业全球化高速发展下的中国企业新机遇

AI芯片功率提升驱动供电系统架构升级

核能和SMRs将成为解决数据中心能源困境新宠

丙二醇水溶液对冷板腐蚀的影响

摩根大通：数据中心建设将推高美国GDP 0.1%至0.2%

微软在沙特建的数据中心区域，预计2026年投入使用

储能又烧了！1.2GWh大型储能电站突发起火，已不是第一次起火！

泰铂科技：双创新引擎，驱动数据中心变革新征程

假租约、套补贴、卖绿电，千亿智算中心，喂饱了一群“野蛮人”

数据中心液冷之“液问”——今晚20:00 锁定CDCC直播间

元脑“算力工厂”正式投运，120天建成10MW智算中心！

数据中心供配电系统设计——以某园区厂房改造为例

2025年数据中心专家技术组第一批专家公示

全国首个！《上海市智算中心建设导则（2025年版）》印发

字节跳动团队：基于数据中心部署的冷板液位计运行可靠性研究

RTX 5090 FE 版本硬件设计与散热设计介绍

最佳演讲人气王 | 叶晓剑：中国移动绿色算力设施工程创新实践

高密算力背景下数据中心热管理挑战及全链路热管理展望

【预约】1月16日 CDCC直播间：解密散热难题背后的’液问’传奇！

前沿技术观察｜大模型卷不动了吗？中外AI专家这样看

后摩尔时代芯片利器 | 高算力Chiplet的热管理技术研究进展

字节跳动团队：超大规模数据中心应用浸没式冷却解决方案

AI势不可挡！亚马逊再砸110亿美元扩建佐治亚州数据中心

低温芯片冷却如何提高数据中心效率？

马斯克宣布Grok 3即将推出：已完成预训练计算量超Grok 2十倍

某数据中心空调系统深化设计的探讨

NASA发布惊人图像：“中国大工程”

一图读懂 | 国家数据基础设施建设指引

东南亚数字产业发展的区域竞争优势研究

QSK60机组168小时满载不停机！金融数据中心电力系统耐久性测试大揭秘

28家美国实体被列入出口管制管控名单，涉及一家数据中心解决方案公司

最佳演讲人气王 | 郝玉涛：百度AIDC高算力基础设施创新实践

一文了解英伟达历代NvLink和NvSwitch的拓扑和速率【图解】

封顶！张家口一项目总投资约200亿！预计今年建成！

发挥冷却潜力：液冷数据中心调试指南

实测H100满载下的功率

马来西亚电费上涨14.2%，光伏行业进入风口行业

一元复始青绿人间 | CDCC与您一起带着热爱与希望同赴新程！

最佳演讲人气王 | 吉利智算张国林：大模型时代传统数据中心应对多样化算力场景的成功实践

NVIDIA HGX B200的一些照片及其液冷板方案的思考

超云田锋：AIDC全栈推理硬件架构全局化实践

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉