引言 — 2025年英伟达的roadmap丰富而不太确定,在这篇文章中,我们将详细地介绍其丰富而费解的分类:大杯,特大杯和特中杯。以及背后的原因,调整的动机,市场的预测,以此来学习这位基础设施的变革者隐藏在快速变化之后的深思熟虑。
我也整理了一份表格,就其大杯,特大杯和特中杯的主要信息进行了对比,希望可以对这个不容易区分的分类进行一个清晰的区分,文件已上传至IT奶爸-知识星球。😂
本文分为以下七个部分:
规格的分类
分类的原因
大杯的客户
嗯,特中杯
特中杯功耗
特中杯散热
取消的型号
I. 规格的分类
在2025年,Nvidia的roadmap有点丰富而不确定。
而对于NVL机架,也将会有大杯,特大杯,和特中杯,三种型号。
不好意思,图贴错了,再来:
Hyper scaler是第一批尊贵的“大杯”客户GB200,主要集中在2025年第一和第二季度,以及后续有计划升级到“特大杯”。
GB200A Ultra则是“特中杯”客户,主要面向OEM,会在2025年晚些时候面试。而特中杯的机架设计上可能只会保留一个NVL36的配置,而不支持双机架互连。
在整体的NVL机架中,NVL72的占比将比之前的预测进一步降低,可能只有5%,因此主要型号将以NVL36为主。
那么为什么是特中杯,而不是中杯。。。
以下是三种规格的对比,之后是详细解释:
由于之后将会解释的原因,NV在B100之后推出了B102芯片。
B102芯片会用于B200A,也会用于中国版的Balckwell,即B20。
B200A将用于满足中低端的AI需求,取代HGX 八卡系统中的B100和B200芯片,规格为700W及1000W,配备144GB的HBM3E和4TB的内存带宽,这个带宽比H200小。
如果说B200及GB200是大杯,那么B200A就是中杯。
Blackwell Ultra是中期增强版,内存会支持到288GB的12Hi HBM3E,而性能也会有50%的增强。
B200 Ultra和GB200 Ultra,即升级到了特大杯。
B200A也有增强版,但是内存不会升级,性能会增强,并且支持NVL36机架配置。
这就是为什么在中杯以上,B200A Ultra 就叫做特中杯。 😂
值得注意的是
NVL的机架设计中,预测只会有特中杯,大杯,和特大杯,三种。
特中杯MGX GB200A Ultra NVL36虽然性能相比较差,但是在某些方面也很具有吸引力,例如在功率密度较低,无法具备液冷条件的数据中心里,这种低密度,全空冷的机架是一种合适的选择。
II. 分类的原因
那这难以区分的三种规格是如何区分的呢?
背后的原因又是什么?
是计划的沦丧还是制造的扭曲?
让我们一起来走进封装:
由于GB200在CoWoS-L封装技术上的延迟,Nvidia推出了一款基于B102芯片的Blackwell GPU,叫B200A,它是基于CoWoS-S的封装技术,甚至是其他的2.5D的封装供应商。
BlackWell是首款采用台积电CoWoS-L技术进行封装的大批量芯片。
CoWoS-L使用了局部的硅互连(LSI)和桥接芯片,用来连接封装内各种计算die和内存之间的通信。
CoWoS-S相对简单,中间有一个大的硅中介层用于die和die之间的互连。
CoWoS-L是-S的继任者,因为-S在硅中介层的处理上会限制整个封装尺寸的增长和性能,硅比较易碎。
使用有机中介层可以避免硅的这个问题,然后再使用硅桥来连接信号。但是硅桥的性能及复杂性会高于硅中介层。其中一个问题就是在中介层中嵌入多个硅桥,而芯片,有机中介层,硅桥,和基板之间的热膨胀系数不匹配,翘曲等问题带来的精度的影响。
III. 大杯的客户
根据8月末的一些研究报告来看:
GB200的项目在CSP的总采购量将在2025年底前,达到惊人的5.5万到6万个机架(折算成NVL36)。
从时间上来看:
NV预计在2024年底做先发
紧接着明年Q1就是甲骨文,亚马逊,谷歌和Meta,微软稍晚一些,出现在明年Q2。
从ODM上来看:
以上几家的ODM集中在鸿海精密和广达,和之前推测基本一致,鸿海占到一半以上。
鸿海在GB200以及NVswitch板上有先发优势,GB200的ODM是鸿海和纬创,而switch板的ODM只有鸿海。
从Compute Tray型号上看:
这其中除了Meta使用Ariel(每个compute tray中包括2套 1Grace + 1Blackwell),其余几家均为Bianca(每个compute tray中包括2套 1Grace + 2 Blackwell)。
从机架类型上看:
甲骨文和微软是NVL72,而其余均为NVL36。
从数量上来看:
NV自己的不到一千台,可见目标市场高度集中于Hyperscaler。
微软占到总量的小一半,Meta其次,之后是甲骨文和亚马逊
最后是谷歌,可见谷歌自研芯片的支撑。
具体信息如下:
Nvidia (DGX):与鸿海精密(Hon Hai)合作,采用NVL72/36模块,代号“Bianca”,预计采购量少于1千台。
Oracle:同样选择鸿海精密作为合作伙伴,采用NVL72模块,代号“Bianca”,预计采购量达到5千台。
Microsoft:也是鸿海精密的合作伙伴,采用NVL72模块,代号“Bianca”,预计采购量在1.5万到2万台之间。
Amazon:选择了Quanta作为ODM,采用NVL36模块,代号“Bianca”,预计采购量在3千到4千台。
Google:同样与Quanta合作,采用NVL36模块,代号“Bianca”,预计采购量为2千台。
Meta:Quanta的合作伙伴,采用NVL36模块,代号“Ariel”,预计采购量在8千到9千台之间。
Dell:合作伙伴和采购量待定(TBC),采用NVL36模块,代号“Bianca”。
2026财年数据中心收入同比增长62%,比共识预期的1563亿美元高出14%。
尽管市场对投资回报有所担忧,但根据最近CSP的财报电话会议中的反馈,他们将继续在人工智能领域进行投资,因此整体AI超大规模数据中心的资本支出趋势保持不变。
IV. 嗯,特中杯
MGX GB200A Ultra NVL36的架构(预测)
全风冷
单机架40KW
9 compute tray + 9 switch tray
2U compute tray 包含一个Grace 加 四个700W的B200A
1U switch tray 包含一个Switch 芯片,28.8T 吞吐
与 GB200 NVL72/36x2 不同,四个 GPU 与一个 Grace CPU 互连,这意味着它将无法使用 C2C 互连。
相反,将利用集成的 ConnectX-8 PCIe 交换机来允许 GPU 与 CPU 通信。
此外,与所有其他现有 AI 服务器(HGX H100/B100/B200、GB200 NVL72/36x2、MI300)不同,每个后端 NIC 现在将负责两个 GPU。
这意味着即使 ConnectX-8 NIC 设计可以提供 800G 的后端网络,每个 GPU 也只能访问 400G 的后端 InfiniBand/RoCE 带宽。
相对应的,在 GB200 NVL72 / 36x2 上,通过 ConnectX-8 后端 NIC,每个 GPU 可以访问高达 800G 的带宽。
对于参考设计,GB200A NVL36 将每个compute tray使用一个 Bluefield-3 前端 NIC。与 GB200 NVL72 / 36x2 每个compute tray使用两个 Bluefield-3 相比,这是一种更合理的设计。
即使对于 MGX NVL36,许多客户可能不会选择使用任何 Bluefield-3,而是选择使用自己的内部 NIC 或使用通用前端 NIC,例如 ConnectX-6/7。
在 MGX GB200A NVL36 上,CPU 和 GPU 将位于不同的 PCB 上,类似于 HGX 服务器的设计。
与 HGX 服务器不同,每个compute tray的 4 个 GPU 将细分为两个 2-GPU 板。每个 2-GPU 板将具有与 Bianca 板类似的Mirror Mezz 连接器。这些 Mirror Mezz 连接器将用于连接到 ConnectX-8 Mezz Board,该Mezz Board将 ConnectX-8 ASIC 及其集成 PCIe switch连接到 GPU、本地 NVMe 存储和 Grace CPU。
通过将 ConnectX-8 ASIC放在非常靠近 GPU 的位置,这意味着 GPU 和 ConnectX-8 NIC 之间无需retimer。这与 HGX H100/B100/B200 不同,后者需要retimer从 HGX 基板连接到 PCIe switch。
由于 Grace CPU 和 Blackwell GPU 之间没有 C2C 互连,因此 Grace CPU 也位于一个完全独立的 PCB 上,称为 CPU 主板。该主板将包含 BMC 连接器、CMOS 电池、MCIO 连接器等。
由于只有 1 层交换机连接 36 个 GPU,因此仅需 9 个 NVSwitch ASIC 即可提供无阻塞网络。
此外,由于每个 1U switch tray只有一个 28.8Tbit/s ASIC,因此空气冷却非常容易。25.6Tbit/s 1U 交换机(如 Quantum-2 QM9700)已经很容易通过空气冷却。
虽然 Nvidia 可以通过保留带有 2 个 NVSwitch ASIC 的switch tray来实现 NVL36x2 设计,但这会增加成本,并且由于前 OSFP NVLink cage 阻塞气流,可能使空气冷却变得不可能。
V. 特中杯功耗
每 GPU 700W 的功耗,GB200A NVL36 很可能每机架在 40kW 左右。2U compute tray将需要大约 4kW 的功率,但每 2U 空间 4kW 的空气冷却散热,将需要专门设计的散热器和高速风扇。
X86版本的B200A
由于 Grace CPU 和 Blackwell GPU 位于单独的 PCB 上,也可能有 x86 + B200A NVL36 版本。
由于许多 ML 依赖项都是针对 x86 CPU 编译和优化的,这可能是此 SKU 的额外优势。此外,与 Grace 相比,x86 CPU 平台提供更高的峰值性能 CPU。
然而X86的 CPU 的功耗大约高出 100 瓦。即使 Nvidia 提供 x86 B200A NVL36 解决方案,他们也会推动大多数客户转向 GB200A NVL36 解决方案,因为它可以销售 自己的Grace CPU。
GB200A NVL36 的主要卖点是它是一款每机架 40kW 的风冷系统。对客户的主要吸引力在于,许多客户仍然无法支持每机架 ~125 kW GB200 NVL72(或 36x2,两个机架超过 130kW)所需的液体冷却和电源基础设施。
VI. 特中杯散热
没有任何液体冷却意味着与 GB200 NVL72 / 36x2 相比,散热解决方案将简化整体散热解决方案,基本上归结为散热器(3D Vapor Chamber,3DVC)和一些风扇。然而,鉴于 GB200A NVL36 的compute tray使用的是 2U 机箱,3DVC 设计将需要进行大量调整。
TDP 为 700W 的 H100 目前使用 4U 高的 3DVC,而 1000W 的 H200 使用 6U 高的 3DVC。相比之下,2U 机箱中 TDP 为 700W 的 MGX B200A NVL36 则受到很大限制。需要一个水平扩展的散热器,以增加散热器的表面积。
除了需要更大的散热器外,风扇还需要提供比 GB200 NVL72 / 36x2 2U compute tray或 HGX 8 GPU 设计的风扇更大的气流。
据估计,在 40kW 机架中,总系统功率的 15% 到 17% 将分配给内部机箱风扇。因此,GB200A NVL36 的 TUE 数值将比 GB200 NVL72 / NVL36 高得多。
即使对于 HGX H100 等风冷服务器,估计风扇也只消耗系统总功率的 6% 到 8%。由于 MGX GB200A NVL36 需要大量风扇功率才能工作,因此这种设计效率极低。此外,这种设计也有可能行不通,Nvidia 就必须重新设计,尝试制作 3U compute tray或缩小 NVLink 域的大小。
VII. 取消的型号
传言NVL64已经被取消。
在建议的 NVL64 SKU 中,有 16 个compute tray和 4 个 NVSwitch tray。每个compute tray为 2U,包含一个 Grace CPU 和四个 700W Blackwell GPU,就像 MGX GB200A NVL36 一样。
交换机 NVSwitch tray是进行重大修改的地方,需要将其增加到四个交换机 ASIC。这在散热上面挑战巨大。
另外一个主要问题是,每个机架有 64 个 800G 后端端口,但每个 XDR Quantum-X800 Q3400 交换机有 72 个 800G 下行端口,两者之间的端口不匹配,会造成端口浪费。
此外,在同一个 NVLink 域内使用 64 个 GPU 。从表面上看,这可能听起来很棒,因为它是 2 的偶数倍——非常适合不同的并行化配置,例如(张量并行 TP=8、专家并行 EP=8)或(TP=4、完全分片数据并行 FSDP=16)。
然而,由于硬件不可靠,Nvidia 建议每个 NVL 机架至少保留一个计算托盘,以便 GPU 离线进行维护,从而用作热备用。
参考文献:
Nvidia's Blackwell Reworked - Shipment Delays & GB200A Reworked Platforms:
https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment
部分研究报告,仅供学习,如有疑虑烦请告知,且不构成投资建议。
高阅读量文章