从目前掌握的信息来看,B200 和 B100 这两个 GPU 型号在生产端确实遇到了问题,这并非空穴来风。原计划在 2024 年第三季度出货的 B100 和 B200 预计将延后至 2024 年第四季度甚至 2025 年第一季度。最核心的问题源自于 Blackwell 架构本身的设计缺陷,重新设计并进行流片至少需要三至四个月。此外,硅中介层据传也是一个问题,由于 B100 和 B200 均由两块接近reticle limit面积的计算芯片compute die组成,而这些芯片之间的硅桥易发生翘曲。这是我们之前多次提到的可能制约系统摩尔迭代的一大瓶颈,即在当前技术水平下,硅中介层的面积是受限的,而目前台积电能够实现的最大面积约是3.5倍reticle limit。这意味着这一问题不仅现在会影响 Blackwell,也可能对其他尺寸相同或更大尺寸的高性能芯片产生影响。
根据 Semianalysis 的信息,为应对短期内 B100 和 B200 产能不足的问题,NVIDIA 将暂时延缓生产需要 CoWoS-L 封装技术的 B100 和 B200,转而生产采用 CoWoS-S 封装技术的 B200A。B200A 的结构与 Hopper 类似,仅由一块代号为 B102 的compute die组成,配备 144GB 的 HBM3e 内存,但内存带宽仅有 4TB/s。有趣的是,这块 B102 芯片还将用于中国特供版 Blackwell GPU B20。从单卡参数来看,B200A 的性能与 H200 非常接近,仅在内存容量上比 H200 多 3GB HBM3e,但内存带宽低于 H200 的 4.8TB/s。虽然目前尚无具体算力数据,但鉴于 Blackwell 采用与 Hopper 相同的 TSMC N4 工艺,并且单卡功耗在 700-1000W 之间,我们认为相对于Hopper 的提升不会太大。
然而,正如我们一直以来所指出的,GPGPU 竞争的主要矛盾将逐渐从单卡性能转向软硬件能力、互联能力和软件生态等多个维度。B200A 相较于 H200 仍有显著提升。首先,B200A 兼容第五代 NVLink 和第四代 NVLink Switch,GPU 间带宽达到 1.8TB/s,是 Hopper 架构的两倍。其次,新引入的 FP4 数据格式能够提升计算效率。简而言之,即便在 2024 年第四季度 NVIDIA 只能实现 B200A 的出货,NVIDIA 仍能提供一个相较上一代产品有显著提升的产品。从目前 CoWoS-S 的良率来看,我们认为这是一个大概率事件。
从财务角度看,CoWoS-L 产能占比仍较低,Hopper 本就是今年 NVIDIA 的主力出货产品,近期 NVIDIA 表示 Hopper 产品需求仍旧强劲,AMD 电话会议也提到上游供应紧张,同时有消息称台积电准备调涨 CoWoS 封装服务报价。因此,我们倾向于认为 Blackwell 产品的推迟并未影响客户对上一代产品的采购意愿,Hopper 需求仍旧保持强劲,B100 的延后对 NVIDIA 第二季度和第三季度的影响甚微。
但从长期来看,B100 的延后给了 AMD 迎头赶上的机会。AMD 计划于 2024 年第四季度小批量出货 MI325X,这款 GPU 是 MI300X 的升级版本,将 HBM 升级到 HBM3e,存储容量为 288GB,带宽提升到 6TB/s,采用 TSMC 5nm 工艺。从纸面数据来看,其算力水平与 H200 相当,但存储容量几乎翻倍,带宽提升 20%,并引入 FP8 和 FP4 低浮点位数数据格式。考虑到 AMD 相对低廉的定价,我们认为 MI325X 在单卡和小型集群领域将成为 B200A 的有力竞争者。而在 2025 年上半年,AMD 计划推出 MI350,该 GPU 将采用 TSMC 3nm 工艺,配备 288GB HBM3e。不同于过去几代产品上 AMD 通常落后于 NVIDIA 一代左右,我们认为 MI350 将能够与延迟推出的 B100 和 B200 正面交锋,这将是行业格局发生转变的关键一年。
英伟达一直保持着每两年进行 GPGPU 架构迭代的节奏,每一次架构迭代都依赖于台积电技术的进步。B100 的延后可能意味着系统摩尔也正像传统摩尔定律一样接近一个瓶颈,这一技术上的瓶颈将成为行业的减速带,逐渐缩小竞争对手与英伟达的差距。AMD 的明显提速值得重视,在 Computex 上 AMD 释出了未来两年的 GPGPU 路线图,计划每年更新其计算架构。从目前的表现来看,AMD 的产品具有一定的竞争力。2024 年第二季度,Instinct GPU 创造了 10 亿美元的收入,过去几个季度中录得了显著增长,且管理层表示第二季度有三分之一的客户是新客户,并对第三季度给出了乐观预期。在制程技术发展趋缓的背景下,英伟达在单卡算力水平上的优势将逐渐被对手拉平,AMD 有望抢夺一定的市场份额,这对于英伟达来说是一个不可忽视的风险点。
在大集群领域,我们认为英伟达仍旧占据绝对的技术优势。首先,就卡间互联而言,第五代 NVLink 带宽达到 1800GB/s,是 MI300 和 MI325 对应技术Infinity Fabric的两倍,NVLink Switch 支持最大互联卡数达到 576 张。虽然我们没有 Instinct 在这一方面的具体数据,但根据公开信息和管理层对卡间互联能力的回答,我们认为 AMD 在这一领域相较英伟达仍有较大的差距。2025 年大集群领域仍将被英伟达主导,这意味着即使 B100 和 B200 延后,对于有大集群需求的大型科技公司和云厂商而言,他们仍将采购该系列产品以组建更大的集群。但从财务角度来看,B100 和 B200 的延后无疑将影响市场对英伟达 2025 年营收的预期。
总体上,我们有以下三个核心观点: