引言 — 最近有两条关于英伟达的消息,一条是关于Blackwell 时间点推后的传闻,另一条是关于B100可能被取消优先GB200生产的传闻。借着这两条消息,今天聊一聊在NVL机架设计的暴力美学背后,英伟达心思缜密的布局。
也结合很久之前写的一篇关于网络的布局的文章,互为照应。
本文主要分为三个部分,分别是:
谦虚禅让的前辈
降维打击的同僚
仍需努力的三弟
原消息截图已上传至知识星球。
I. 谦虚禅让的前辈
先看第一条新闻:
NVIDIA B100将被取消?(斜体为原文引用)
NVIDIA可能会取消B100 GPU的大规模生产,并在2024年下半年增加Hopper GPU的生产,因为它专注于GB200的CoWoS-L大规模生产。
为了满足对B100的需求,它将基于CoWoS-S提升B200A作为替代方案。
NVIDIA的机架解决方案可能会增加另一个低端产品,GB200A Ultra NVL64,专为推理和较小的企业客户设计,增强其产品组合。
对CoWoS的需求持乐观态度,并预计产能将在2025年下半年进一步改善至55-57k/m。
以下为个人解读:B100主要用于传统的HGX机型,而GB200主要用于新推出的NVL机架设计。在有限的CoWoS-L的产能下,B100给GB200让路,有一种被后浪轻拍在沙滩上晒太阳的感觉。
传统机型自然是不会被拍死的,但需要往旁边稍微的让一让。
NV的系统设计思路延续性和发展性非常好,老黄的发展策略又有一种十年不晚的心态,现在你再看GB200,有没有感觉是完成了当年与IBM的power之间的未了前缘?
GPU的发展生态也是一种农村包围城市的,逐步逼近的形态,现在首都也基本占领了,用GPU + CX7 + BF3 + IB/Eth + Spectrum X的全线占领回来再收拾一下“陪都”,系统之内,岂容他人酣睡?
传统的八卡机器的机头,MGX的机头,也许还难以改变X86的传统生态,但是创造一个新的产品形态,用更强的系统耦合性,NVLINK对于HBD的话语权,推一个Grace CPU不过分吧?
自此,在NVL的rack之内,还有谁?
谁说NV是吃独食,不搞生态的?
吃独食是的,但是生态也要搞的。在AI服务器中,把X86这个刺头也搞掉,留给后来者再去走农村包围城市的小路已然不多了。
别人的路没了,自己的路也就成为了生态。
B100有可能被取消,而生产的重点放在GB200上,那么剩下的这段时间可以让H系列继续发挥长尾作用,进一步增加ROI。
供应链检查表明,NVIDIA原定于2024年第四季度的大规模生产B100可能会被取消,NVIDIA将专注于GB200的生产。
1)NVIDIA战略性地推动更多CPU和GPU解决方案;2)它专注于GB200在2025年上半年CoWoS-L的产能提升。服务器供应链已经开始交付NVIDIA GB200 Bianca,并于7月底开始初步生产。我们认为,GB200的供应在2025年不会受到影响,我们的2025年全年GB200机架预测仍为60-70k。
随着NVIDIA B100的取消,我们相信对Hopper GPU(H100/H200)的需求将在2024年及2025年上半年持续增长。NVIDIA还在提升B200A(也称为B102)的生产,采用CoWoS-S作为B100的替代解决方案。
II. 降维打击的同僚
NVIDIA可能会推出另一个低端机架级解决方案——GB200A Ultra(或GB210A)NVL64,每个机架配备64个GPU,每个2U计算托盘配备四个GPU,用于推理。同时,该机架有可能采用风冷解决方案。
我们认为,NVL64产品针对中端AI应用或推理,作为仅HGX Hopper解决方案的替代方案。这可能导致机架出货量的潜在增加以及2025年更高的Grace CPU采用率。由于GB210A旨在增强NVIDIA的产品组合,我们预计它不会影响GB200 NVL36/72和液冷需求。
除了计划之内的NVL36和NVL72,机架级的解决方案会增加新的成员NVL64。如果是动辄上百千瓦加液冷的方式已经定义了目标客户群体是北美四大,那么NVL64就是从城市降维扩展农村的一枚意大利炮。
功率太高,可以降
液冷太麻烦,可以商量,
但是老乡,别跑,
你看看这NVLINK,多快,你看看这HBD,多大。
这可是其他人没有的,AMD没有,Intel也没有,甩开一众三弟,就可以更好地定义系统,甩开X86。
三弟是谁?
想当年。。。
当年英伟达用NV bridge来连接多张PCIE卡,其他GPU公司:俺也一样。
当年英伟达用SXM形态做full mesh互联的时候,其他GPU公司:俺也一样。
当年英伟达用NVSwitch放在HGX板上进行交换互联的时候,其他GPU公司:俺也一样。
当英伟达宣布NVL72和NVL36构建一个机架级的方案时,就没什么三弟了,甩开几个身位,在这个新的产品形态里,进一步定义自己的护城河。
在我地盘这你就得听我的,我说是用arm,就用arm,我说用C2C,就用C2C。
III. 仍需努力的三弟
另一条新闻是Nvidia 本周告知了微软等主要客户和另一家大型云服务提供商,其新一代 Blackwell 系列芯片中最高端的人工智能芯片将推迟发布。
如果即将推出的人工智能芯片(B100、B200 和 GB200)推迟三个月,客户将无法按计划在2025年第一季度在数据中心运营大型芯片集群。包括微软、OpenAI 和 Meta 在内的最大客户计划使用新芯片开发下一代大型语言模型,这些模型是 ChatGPT、Meta AI 助手和其他自动化功能背后的软件。
这次的延误原因尚不明确,不过结合上一条新闻中CoWoS产能方面英伟达的需求,绿色巨人急需先进封装产能和供应商的扩大。
据悉,Intel的IFS 计划每月向 NVIDIA 供应 5000 片封装晶圆,这比台积电等竞争对手的供应量要大得多,而且仍有扩展空间。IFS 可能会负责 NVIDIA “抢手”的 Hopper 一代 AI 产品,包括 H100 等加速器。在供应的先进封装方面,据称 NVIDIA 对英特尔的Foveros 3D 堆叠技术表现出极大兴趣,据称该技术是台积电主流 CoWoS-S 封装工艺的直接竞争对手。
写在最后,
英伟达不是不做生态,而是已经成为生态,并且以最好的进攻进一步巩固生态。
天下武功,唯快不破,作为市场的领头人,在产能安排,产品形态上,尚且有这么快的调整速度,和执行力,作为努力追赶的其他人,更加需要努力。
当然,更应该警觉的是,这样一个合围形态的生态已逐渐成型,市场的更替可能在经历短暂的战国乱世之后,从一种垄断的统一,变为另一种更为垄断的统一。
参考文献或网址:
Blackwell may require more time:知识星球
NVIDIA B100 to be cancelled?知识星球
Intel Might Get NVIDIA As A Foundry Customer Soon, Likely To Produce 5000 H100 Wafers Per Month:
https://wccftech.com/intel-nvidia-foundry-customer-to-produce-5000-h100-wafers-per-month/
高阅读量文章