GB200机架由于设计规格更高,包括高速互连接口和热设计功耗(TDP)等技术更复杂,生产成本更高,需要额外的时间进行优化和调整。 GB机架系列是当前CSPs的首选解决方案,其他潜在客户还包括Tier-2数据中心、从事HPC/AI应用的学术研究机构等。TrendForce预计GB200 NVL72将成为25年最广泛采用的型号,占总部署量的80%。 由于AI服务器系统组件仍在进行供应链调整,预计年底的出货量将低于行业预期,预计GB200全机架系统的高峰发货期将推迟到25年Q2和Q3之间。 随着GB200 NVL72的140kW 热设计能耗 (TDP)超出了传统空气冷却解决方案的限制,当前行业重要参与者正大力投资液冷技术的研发,同时冷却液分配单元(CDU)供应商正在通过扩大机架尺寸和开发更高效的冷板设计来提高冷却效率。
GB200延期和GB300的进展
由于机架、冷却和电源/密度的显著变化,CSPs在服务器层面上无法对GB200进行太多更改,如Meta放弃从博通和Nvidia多渠道采购NICs,转而完全依赖Nvidia。
25年Nvidia预计销售650-700万块GPU,根据生产比例和产量预期,其中Hopper约200万块,Blackwell系列 500万块,同时生产于24年底开始提速。
由于GB200的延迟,许多原计划在第三季度开始的订单转移到GB300上。GB300有望在25年3月GTC上发布,ConnectX-8 芯片推出时间预计和GB300一致。
AI服务器方面,鸿海和广达已进入GB300的研发设计阶段,鸿海仍为最大供应商,可通过扩大产能来解决GB300服务器订单需求。
拥有GB300后,CSPs能够定制主板、冷却等更多内容,但同时显著提高平台复杂性,带来了设计、验证及测试方面更多的工作。而且成本优化也是一个很大的挑战。
随着组件从Nvidia的利润堆叠中到ODMs,客户的总支付价格差异很大。Nvidia的毛利率也将发生变化,ODM的收入也会受到影响。
欢迎加入自动驾驶实战群
上下游供应链的一些挑战
上游:HBM内存供应紧张,三星由于无法通过Nvidia HBM3E认证,预计最早到25年Q1提供HBM3E,SK Hynix作为供应商可能无法满足需求。台积电CoWoS-L封装良率和电源管理芯片(PMIC)设计变更对供应商的影响等问题。
下游:GPU与主板产量速度不一致,电缆组件、液冷组件等生产进度问题。
参考资料:
https://www.trendforce.com/presscenter/news/20241217-12412.html
https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#semianalysis-blocks-login-to-view-content
https://semianalysis.com/2024/08/04/nvidias-blackwell-reworked-shipment/
JP Morgan相关报告