暴力美学背后的细腻布局

文摘 2024-08-03 16:34 美国

引言 — 最近有两条关于英伟达的消息，一条是关于Blackwell 时间点推后的传闻，另一条是关于B100可能被取消优先GB200生产的传闻。借着这两条消息，今天聊一聊在NVL机架设计的暴力美学背后，英伟达心思缜密的布局。

也结合很久之前写的一篇关于网络的布局的文章，互为照应。

从收购Mellanox那刻起，英伟达就点燃了新的战火

本文主要分为三个部分，分别是：

谦虚禅让的前辈
降维打击的同僚
仍需努力的三弟

原消息截图已上传至知识星球。

I. 谦虚禅让的前辈

先看第一条新闻：

NVIDIA B100将被取消？（斜体为原文引用）

NVIDIA可能会取消B100 GPU的大规模生产，并在2024年下半年增加Hopper GPU的生产，因为它专注于GB200的CoWoS-L大规模生产。

为了满足对B100的需求，它将基于CoWoS-S提升B200A作为替代方案。

NVIDIA的机架解决方案可能会增加另一个低端产品，GB200A Ultra NVL64，专为推理和较小的企业客户设计，增强其产品组合。

对CoWoS的需求持乐观态度，并预计产能将在2025年下半年进一步改善至55-57k/m。

以下为个人解读：B100主要用于传统的HGX机型，而GB200主要用于新推出的NVL机架设计。在有限的CoWoS-L的产能下，B100给GB200让路，有一种被后浪轻拍在沙滩上晒太阳的感觉。

传统机型自然是不会被拍死的，但需要往旁边稍微的让一让。

NV的系统设计思路延续性和发展性非常好，老黄的发展策略又有一种十年不晚的心态，现在你再看GB200，有没有感觉是完成了当年与IBM的power之间的未了前缘？

GPU的发展生态也是一种农村包围城市的，逐步逼近的形态，现在首都也基本占领了，用GPU + CX7 + BF3 + IB/Eth + Spectrum X的全线占领回来再收拾一下“陪都”，系统之内，岂容他人酣睡？

传统的八卡机器的机头，MGX的机头，也许还难以改变X86的传统生态，但是创造一个新的产品形态，用更强的系统耦合性，NVLINK对于HBD的话语权，推一个Grace CPU不过分吧？

自此，在NVL的rack之内，还有谁？

谁说NV是吃独食，不搞生态的？

吃独食是的，但是生态也要搞的。在AI服务器中，把X86这个刺头也搞掉，留给后来者再去走农村包围城市的小路已然不多了。

别人的路没了，自己的路也就成为了生态。

B100有可能被取消，而生产的重点放在GB200上，那么剩下的这段时间可以让H系列继续发挥长尾作用，进一步增加ROI。

供应链检查表明，NVIDIA原定于2024年第四季度的大规模生产B100可能会被取消，NVIDIA将专注于GB200的生产。

1）NVIDIA战略性地推动更多CPU和GPU解决方案；2）它专注于GB200在2025年上半年CoWoS-L的产能提升。服务器供应链已经开始交付NVIDIA GB200 Bianca，并于7月底开始初步生产。我们认为，GB200的供应在2025年不会受到影响，我们的2025年全年GB200机架预测仍为60-70k。

随着NVIDIA B100的取消，我们相信对Hopper GPU（H100/H200）的需求将在2024年及2025年上半年持续增长。NVIDIA还在提升B200A（也称为B102）的生产，采用CoWoS-S作为B100的替代解决方案。

II. 降维打击的同僚

NVIDIA可能会推出另一个低端机架级解决方案——GB200A Ultra（或GB210A）NVL64，每个机架配备64个GPU，每个2U计算托盘配备四个GPU，用于推理。同时，该机架有可能采用风冷解决方案。

我们认为，NVL64产品针对中端AI应用或推理，作为仅HGX Hopper解决方案的替代方案。这可能导致机架出货量的潜在增加以及2025年更高的Grace CPU采用率。由于GB210A旨在增强NVIDIA的产品组合，我们预计它不会影响GB200 NVL36/72和液冷需求。

除了计划之内的NVL36和NVL72，机架级的解决方案会增加新的成员NVL64。如果是动辄上百千瓦加液冷的方式已经定义了目标客户群体是北美四大，那么NVL64就是从城市降维扩展农村的一枚意大利炮。

功率太高，可以降

液冷太麻烦，可以商量，

但是老乡，别跑，

你看看这NVLINK，多快，你看看这HBD，多大。

这可是其他人没有的，AMD没有，Intel也没有，甩开一众三弟，就可以更好地定义系统，甩开X86。

三弟是谁？

想当年。。。

当年英伟达用NV bridge来连接多张PCIE卡，其他GPU公司：俺也一样。

当年英伟达用SXM形态做full mesh互联的时候，其他GPU公司：俺也一样。

当年英伟达用NVSwitch放在HGX板上进行交换互联的时候，其他GPU公司：俺也一样。

当英伟达宣布NVL72和NVL36构建一个机架级的方案时，就没什么三弟了，甩开几个身位，在这个新的产品形态里，进一步定义自己的护城河。

在我地盘这你就得听我的，我说是用arm，就用arm，我说用C2C，就用C2C。

III. 仍需努力的三弟

另一条新闻是Nvidia 本周告知了微软等主要客户和另一家大型云服务提供商，其新一代 Blackwell 系列芯片中最高端的人工智能芯片将推迟发布。

如果即将推出的人工智能芯片（B100、B200 和 GB200）推迟三个月，客户将无法按计划在2025年第一季度在数据中心运营大型芯片集群。包括微软、OpenAI 和 Meta 在内的最大客户计划使用新芯片开发下一代大型语言模型，这些模型是 ChatGPT、Meta AI 助手和其他自动化功能背后的软件。

这次的延误原因尚不明确，不过结合上一条新闻中CoWoS产能方面英伟达的需求，绿色巨人急需先进封装产能和供应商的扩大。

据悉，Intel的IFS 计划每月向 NVIDIA 供应 5000 片封装晶圆，这比台积电等竞争对手的供应量要大得多，而且仍有扩展空间。IFS 可能会负责 NVIDIA “抢手”的 Hopper 一代 AI 产品，包括 H100 等加速器。在供应的先进封装方面，据称 NVIDIA 对英特尔的Foveros 3D 堆叠技术表现出极大兴趣，据称该技术是台积电主流 CoWoS-S 封装工艺的直接竞争对手。

写在最后，

英伟达不是不做生态，而是已经成为生态，并且以最好的进攻进一步巩固生态。

天下武功，唯快不破，作为市场的领头人，在产能安排，产品形态上，尚且有这么快的调整速度，和执行力，作为努力追赶的其他人，更加需要努力。

当然，更应该警觉的是，这样一个合围形态的生态已逐渐成型，市场的更替可能在经历短暂的战国乱世之后，从一种垄断的统一，变为另一种更为垄断的统一。

参考文献或网址：

Blackwell may require more time：知识星球

NVIDIA B100 to be cancelled？知识星球

Intel Might Get NVIDIA As A Foundry Customer Soon, Likely To Produce 5000 H100 Wafers Per Month：

https://wccftech.com/intel-nvidia-foundry-customer-to-produce-5000-h100-wafers-per-month/

为感谢支持，已点赞/分享/赞赏10篇/次以上的朋友，请加微信，进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球

高阅读量文章

IT奶爸

实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。

最新文章

聊一聊DDR（12）-DRAM的CS Training Mode(CSTM)

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

聊一聊DDR（11）-DDR频率

液冷，网络，与整机柜 -- Intel IPDC 2024见闻

他山之石，集思广益 | IT奶爸文章奖励计划

英伟达，过热了么？

一文读懂 SFP家族

喜迎双11之月亮湖 -- 热辣薯条(Hot Chips 2024)

谷歌、康宁大超预期

Cerebras处理器架构细节

光计算互连（OCI）

AI 网络背景下 RDMA 的 Why， What & How 以及 Next

“E人”外卖小哥的“I人化”：Gaudi的RoCE优化实现

ETH-X项目及交换/计算节点结构散热设计介绍

近文小结与感谢 - 寄小读者

NVL机架的“中杯，大杯和特大杯”

热辣薯条(Hot Chips 2024)- 英特尔的至强D

RDMA与外卖小哥

英伟达在OCP，对于MGX机架的介绍

Load/Store over ETH乎？

先从一个基础的性能指标说起——CPU频率

CPU架构 -- Power

热辣薯条(Hot Chips 2024) - OpenAI的Scaling

热辣薯条(Hot Chips 2024) - 特斯拉的TTPoE

热辣薯条(Hot Chips 2024) - 博通的CPO

热辣薯条(Hot Chips 2024) - 英特尔的Gaudi

热辣薯条(Hot Chips 2024) - 英伟达的Blackwell

40+AI芯片/Chiplet/RISC-V企业已确认演讲！生成式AI时代最火AI芯片峰会9月举办

向左走，向右走 — 聊聊50亿美元的ZT收购

CPU架构 - CPU的各级缓存

NVL的硬件架构分析-（1）

Aurora Exascale Architecture（PPT）2024

暴力美学背后的细腻布局

Llama 3技术报告解读(1)- AI基础设施和并行策略

LLM推理需要什么样的硬件平台？（2）

LLM推理需要什么样的硬件平台？（1）

音乐，小说，与计算题 - 4： NVL72要出X86版本？！

再来谈谈大模型的分离式推理架构

Transformer架构详解文章与视频

H20跨入百万片俱乐部？

大模型的聚光灯照向以太网: ETH-X的scale up网络

大模型的聚光灯照向网络——当超节点遇上超节点

再谈谈三万亿的破绽

烈日下的绿色森林 —— 英特尔的能效核

暴力美学的show time —— 皮衣教主的Computex 2024 keynote

AI/ML中使用的集体操作（collectives），以太网卸载以及硬件实现

音乐，视频，与计算题 - 3

生成式AI的GPU网络 - 2

音乐，视频，与计算题 - 2

生成式AI的GPU网络

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉