问:关于GB200 NVL72的生产良率和出货节奏,市场上有传言称仍然存在一定问题并可能推迟交付。目前的情况如何? 是否会影响出货?
答: GB200 NVL72的样机以及小批量生产目前运行良好,完全能够满足出货需求。关于后续的产品优化,一旦产品交付给客户后,将进行机房端的验证及业务加载测试。这一步骤是为了确保产品在真实业务场景中的性能表现。
预计在实际运行过程中,可能会遇到一些如散热方面的问题。为此,计划在数据中心进行适当的优化,例如通过调整液冷系统的管路配置来测试和改进散热效率。
就NVL72本身而言,目前没有发现任何重大异常。虽然在研发阶段,如AI板卡和GB200的super chip可能遇到了一些测试问题,但这些问题都在可控范围内,不会影响产品的总体交付。后续将继续监控这些问题并进行必要的调整,以确保产品在交付后能够在各种操作环境中稳定运行。
问:现在GB200 NVL72的生产良率大概是什么水平?之前透露Grace Hopper版本的NVL72会比 DGX (Intel)版本的良率低, 如何看待这一观点?
答:在开发新的GPU产品,如Hopper/Intel与GB200的兼容性问题是不可避免的。在前期测试阶段,各个平台之间的兼容性经常出现一些问题,但只要这些问题在规模化量产之前得到解决,就不会对整体业务产生影响。对于那些不影响关键业务的问题,通常会带着这些风险进行产品交付。兼容性问题按严重程度被分为P0、P1、P2、P3四个等级。目前情况显示,并没有发现严重的P0或P1级别的故障,大多数问题属于较轻微的P2或P3级别。
例如,GB200的测试阶段显示,像H100或A100产品在早期小批量生产过程中,整体故障率通常高达50%甚至80%。这主要是因为测试程序、参数和工装需要调整,而且数据和程序在初期可能还不完善,因此统计出的故障率可能有偏差。早期的样机或小批量阶段主要用于对这些兼容性等问题进行定性分析,方便后续的改进和监控。在数据中心的实际部署中,这些初期发现的问题可能不构成核心或紧急问题,但仍需关注,因为它们可能引发更广泛的业务影响。
样机的整体良率目前约为50%,完成工厂测试后,产品将交付客户。客户在部署前会进行压力测试,并对产品的整体故障率进行检查。如果测试中发现问题,通常会采取更换硬件或进行必要的维修。更换新的硬件后,产品将重新进行全面测试,只有测试通过后才会进行最终的包装和发货。虽然目前接受的故障率为50%,但预计随着测试程序的优化和完善,整体故障率应能降至10-20%左右。
有时候,测试过程中遇到的问题可能并非硬件本身的缺陷,而是软件层面的问题,如驱动程序的不兼容。这种情况下,需要GPU部门针对具体问题进行优化。一旦确定问题的根本原因,就可以开发相应的解决方案。在紧急情况下,如果客户需要立即交付,可以先交付硬件,随后在客户现场进行必要的维修或调整,确保系统的稳定运行和性能满足需求。这种灵活的处理方式有助于保持客户满意度,同时也确保了产品在市场中的竞争力。
问:GB200的出货节奏是否发生变化? 客户订单有无调整?
答:整体出货量正在发生变动,部分客户已将GB200的订单转移到了新推出的GB300。这一转移背后有多个原因:
首先,GB200的价格较高,客户已经意识到其较高的成本,特别是在2025年上半年和第三季度,通过减少GB200的需求,他们可能希望降低成本。其次,GB200在市场上的早期舆论可能影响了客户对该产品的信心,尽管关于板卡测试的担忧实际上是不必要的。此外,随着GB300的推出,客户对这一新产品的期待显然更高,这也促使他们转移部分订单至GB300。
关于GB300的采购计划,部分采购可能会从2025年下半年开始,而其余的底层物料可能会延至2026年交付。今年10月,已与英伟达及美国的CSP客户就未来需求进行了沟通。每个客户的定制需求不同,目前尚未形成一个完整的产品方案,这需要客户、英伟达和ODM厂商之间进行进一步的协调和沟通。
GB300的一个显著优势是,它的许多物料实际上基于GB200的成熟物料和供应商,这意味着选型过程可以更加迅速。尽管如此,GB300的研发和测试仍可能面临类似GB200的挑战,尤其是随着整体算力的增强,HBM的高带宽内存和总体能耗也相应增加。现在,整个机柜的散热设计也必须考虑到能耗问题,维持机柜总功率不变可能需要实施一些节能和减排措施,以确保电力供应的稳定性。这些调整是为了应对增加的性能需求,同时确保系统的高效运行。
这里就是笔者前期强调的,GB200是初代产品,从无到有工程问题会很多,但随着工程经验越来越足,后面的产品迭代会容易很多。
自从GB300在2024年10月推出后,GB200的市场需求开始发生变化。最初,GB200在2024年6月的预测需求大约为6万柜。但根据12月初获取的最新信息,GB200的需求已降至大约3.9至4万柜,多余的产能可能转移到GB300上。
GB200和GB300使用相同的B200芯片,区别在于它们与HBM结合形成super chip的方式不同。预计GB300的需求,特别是在2025年下半年,将达到约2万柜的水平,预计第三季度会有少量发货,第四季度则会进行大规模上市。GB300的准备期从今年10月至明年6月,有8-9个月的时间,因此其生产进度预计将比GB200更为顺利。
随着新的内存带宽增加和网卡从CX7升级到CX8以提高吞吐量,以及液冷系统可能继续使用GB200的全液冷形式(冷板全液冷),GB300引入了一些新的技术变化。此外,为了降低维护成本,GB300采用了插槽式设计,这比GB200的端到端设计更为经济,因为GB200在发生故障时需要更换整个GPU卡(super chip),其成本高昂。
ODM厂商在生产和销售GB200后需要承担高昂的维保成本,这增加了他们的财务压力。他们需要备足足够的super chip以支持未来的维修需求,这部分成本最终会转嫁给客户。例如,NVL72的报价中,运维成本预计占总成本的5-10%,这远高于标准服务器的服务成本。
从ODM厂商的角度看,转变为插槽式设计有利于提高生产积极性,因为他们可以完全自行生产带socket插槽的主板,无需从英伟达或富士康购买super chip。只需购买公版主板并进行SMT贴片,然后将GB200芯片插装到GPU服务器中,整体生产过程将大为简化。这不仅有助于ODM厂商深入参与,还能提高他们的整体利润率。虽然对英伟达而言,这种策略可能降低了单件产品的价值,但有助于推动整个行业的发展,促进GPU服务器在不同行业、客户和ODM厂商间的广泛推广。
问:能否拆一下GB200和GB300的各个客户需求情况分别是怎样的?
答:对于GB200来说,在北美的四大云厂商中,需求变化如下:AWS的订单从11k降至6.5k,谷歌从9k降至4k,微软从20k降至12k,Meta从6k降至3k。因此,变动后四大云厂商的总需求约为25,500柜,减少了20500柜。
另外,由于SMCI近期的情况不佳,主要是由于前期的财务问题加上美国的供应链挑战,可能存在一定的风险。其一部分订单可能被戴尔和惠普获得。然而,从长远来看,SMCI在技术能力、市场拓展和资源方面都具有较大的优势,足以与戴尔和惠普竞争。未来,SMCI可能主要以代理业务为主,同时也会寻求突破,例如服务于主权AI客户和中小型企业,这是SMCI的强项。短期内,SMCI面临一定的风险,因为其底层供应商多为家族企业,如电源和机壳的供应商主要是其亲属经营,这导致了财务问题。
GB300主要面向CSP客户,当然,也包括SMCI、戴尔和惠普等厂商。CSP客户的需求大约为17,000柜,其中富士康约6,000柜,广达约4,600柜,英业达约4,000柜,纬颖约2,500柜。前面提到GB200四大云厂商减少了20500柜 GB200,而这里增加了17000柜 GB300,有3500柜的减量。同时,从公开渠道可以知道,在良率保持稳定的情况下,GB300的利润水平与GB200基本持平,毛利率都在70%以上。GB200 NVL72量产版单价约300万美元。据专家预估,GB300 NVL72的单价为400万到450万美元。笔者在这里粗算一下,3500柜 * 300万 * 70% = 73.5 亿美元的毛利减量。那增量呢?假设GB300 NVL72售价450万美元,(450万-300万)* 17000柜 * 70% = 178.5 亿美元。结论是增量大于减量。这里笔者全部按照NVL72计算,并且单价预设是GB300 NVL72的上限,大家也可以自行根据理解计算。
此外,SMCI的需求约为1,000柜,戴尔和惠普各自约有500柜,其他总计约1,000柜。因此,预计2025年GB300的总需求大约为20,000柜。对GB300的预测相对乐观,因为2025年大部分算力特别是GB系列,已被GB200占用。在初期部署时,由于GB200是首先进入的,因此数据中心内的电力和制冷设施主要供GB200使用。未来数据中心在使用GB300时,是否还有足够的空间和电力供应,这是一个需要考虑的问题。这将取决于各家客户对其数据中心的规划。如果规划得当,尽管GB300可能已生产,但数据中心的整体部署周期可能较长。通常情况下,部署这种大型机柜大约需要1个月,如果因电力或空间问题导致延迟,可能需要额外3-4个月。因此,如果计划在明年8-9月份开始部署,但存在延迟,部分订单可能会推迟至2026年。目前,在乐观的情况下,预计所有订单将在2025年内交付。同时,包括富士康、广达、联想和英业达在内的各家厂商对产能扩张的积极性较高,都已提前进行准备和规划,这是一个积极的迹象。
问:GB200和GB300在部署条件上有没有什么差异?
答:整体条件相对稳定,因为单个机柜的功率没有显著变化,主要的差异在于算力可能会有所增加。对于已经部署GB200的数据中心,如果预留了空位给GB300,则可以顺利部署;但如果没有预留空位,GB300的部署就可能需要延迟。这是因为海外数据中心的建设周期通常较长,有时可能需要长达两年,因此必须提前规划,包括电力、网络和基础设施等方面的建设。通常,这些前期的规划工作需要至少提前一年进行安排。此外,美国不同地区对电力的要求也各不相同,这也是在规划过程中需要考虑的重要因素。
问:刚才提到的2万柜是否包含B300? B300的需求量预计如何?
专家: 没有包括B300,B300还在跟客户进行对接,还没有确定是以何种形式部署,所以现在还不太确定B300的量。现在客户急需的还是算力比较大的机柜形式的产品。
问:据说由于NVL72 的生产问题,GB200会分配更多给到HGX (8卡) 的形式,有没有观察到这种情况发生?
专家:在当前的ODM评估基础上,已明确即便是配备8卡的服务器,也无法完全依赖风冷系统,而必须采用液冷解决方案。这种情况下,对于客户而言,选择搭载72个GPU带和18个GPU tray的GB200因其更高的性价比和更有效的成本分摊,明显优于HGX的8卡配置。因此,GB200通常被视为比HGX更经济的选择,而后者并不是客户的首选。
H200作为GB系列之外的高端产品,尽管已经推出一段时间,但由于HBM产能的限制,其上市速度相对缓慢,直到今年下半年才开始大规模上市。考虑到这一点,再推出一个与H200竞争的8卡产品似乎是一个战略上的误判,因为英伟达通常不会让自家产品相互竞争。尽管B200的下一代产品可能会替代H200,但从性价比来看,仍然不如H200。
对于部署环境的要求,H200支持风冷和液冷两种方式,使其适用于更广泛的场景。与此同时,B200由于需要液冷机房,其适用范围被限制在大多数训练场景中。随着未来市场趋势可能更多地向推理场景倾斜,这种情况下,大部分环境仍然依赖风冷系统,如学校和医院等,这使得B200只适用于约10-20%的高需求场景。相对而言,H200由于其更广泛的适用性,可能更适合大约80%的应用场景。
考虑到这些因素,英伟达可能需要进一步考虑其未来的产品替代策略,以更好地适应市场的变化和需求。这不仅关乎技术创新,也关乎如何通过战略调整保持市场领先地位。
问:如何预期明年H200出货量? 能分拆一下吗?
答: 预计明年H200的整体出货量将保持较高水平,因为其应用场景与GB200/300有显著差异。在市场逐步淘汰H100的情况下,H200将逐步取代它。目前,已有多个地方陆续停止使用H100,这可能是因为英伟达鼓励客户向H200迁移,后者相较于H100为高端版本,具有更好的盈利能力。对于2025年,预计H200的整体出货量将达到约250万颗芯片。这一预测反映了H200在市场中的强劲需求和其在未来技术迭代中的重要地位。
在明年的出货周期中,H200的出货量预计在第二季度和第三季度达到高峰,之后在第四季度开始下滑。这种趋势主要是由于GB200和GB300的大批量发货开始影响市场,特别是在第三季度之后。前期,许多用户使用H200进行训练。随着GB200和GB300的发货,这些新机柜还需要进行部署和测试验证。如果第一季度开始部署,实际使用将基本上延续到第二季度。对于这种复杂的GPU机柜来说,部署周期相对较长,因此可能会影响H200的短期需求,尤其是在其他新产品开始被广泛采用后。在大家拿不到GB200和GB300的时候,只能用H200替代来进行模型训练,如果前者开始部署,还是要用他们来进行模型训练。这从侧面说明了大模型训练还在持续,现在说训练时代结束为时尚早。只能说推理时代已来,而不能说训练时代结束。
问:GB200中NVL72和NVL36的比例如何?
答:从今年6月份的统计数据来看,NVL72与NVL36的比例大约是1:1。但根据目前的下单情况预测,如果展望2025年全年,NVL72预计仍将是主流产品,而NVL36机柜的市场占比可能将在20-30%之间。在性价比方面,NVL36不及NVL72表现出色。
成本分摊方面,NVL36的单位算力成本显著高于NVL72。这主要是因为两者使用相同数量的NVSwitch,均为9个,而算力减少没有带来成本的相应下降,其他成本部分的减少大约只有2/5到3/5。此外,在机房部署方面,考虑到空间成本非常高,选择单位面积内集成度更高、单位算力成本更低的NVL72显然更经济。
在只需要少量设备的情况下,可以考虑性价比稍低但总成本更低的NVL36。然而,对于大规模采购,选择性价比更高的NVL72更为合适。这种策略不仅优化了成本效益,还能在保持高算力的同时,最大化机房空间的利用效率。这种购买决策能够确保投资的最大回报,并支持业务的持续扩展和增长。
问:对于市场预期上半年出货1万台NV72每么看?
答:预计明年上半年的总出货量将为1.6万柜,其中NVL72预计将占据1万柜,而NVL36则将占据6000柜。在第一季度,出货将主要以NVL72为主,NVL36的出货量将相对较少,其中NVL72的预计出货量大约为4500柜。
问:哪些客户可以优先拿到?
答:预计在第一季度,微软将获得大约2000柜,谷歌和Meta各自大约1000柜,AWS大约500柜。
问:关于刚才提到的GB300的设计更改,是否可以理解成从板载改成了OAM,相当于加了一个socket?
答:将来,底板的设计将进行重大更新,其中GPU芯片将被安装在socket中。这一改变将极大简化后端的组装、加工和测试流程。通过这种设计,如果测试中发现问题,更换芯片将变得更为容易,且成本相对较低。尽管单个芯片的价值可能高达1-2万美元,但是更换包括底板在内的整个super chip的成本将更为昂贵。
此外,这种socket设计将采用公版形式,并向所有制造商开放,使得他们可以自行进行打版。在这一领域中,富士康和英业达由于在表面贴装技术(SMT)方面拥有更多的经验,技术水平较同行为高,从而在行业中处于较优势地位。这些更改预计将推动整个行业的技术进步,同时降低维修和升级的复杂性与成本。
问:NVL72最新的ODM报价是多少?
答:在前期阶段,样机和小批量的交付价格大约设定在300万美金左右。然而,不排除在2025年下半年可能会进行一轮降价,特别是在6月份之前的再次招投标过程中。预计降价幅度不会太大,主要取决于英伟达是否能够降低价格。如果英伟达实现降价,那么下游的降价压力将会减轻,这也会使得其他参与者更愿意调整价格。
在早期的小批量生产和样机制作过程中,由于生产效率较低,所投入的成本相对较高。而当生产进入大规模化阶段时,良率和效率通常会提高,大量采购底层部件也会使得采购单价降低,从而整体的端到端成本会有所下降。因此,客户通常期望获得更低的报价。通常情况下,每年中或下半年会有一次价格调整,这相当于进行第二次招投标。
问:下半年的降价会影响毛利率吗?
答:降价对毛利率的影响相对有限。虽然底层供应商的降价能为ODM厂商节省一些成本,这些节省的成本可能最终会在客户端反映出来,导致ODM厂商的利润率可能仅有小幅提升,且不十分显著。真正的成本优化需要客户端主动压低ODM的报价,迫使ODM厂商去向供应商寻求更低价格,或者推动自家工厂提高生产效率,通过降低单位工时比和优化人力资源来减少成本。这种策略的实施能更有效地影响整体的成本结构和利润空间。
问:NVL72 OEM的报价是多少?
答:OEM(原始设备制造商)和ODM(原始设计制造商)涉及的客户群体不同,通常ODM的市场规模较大,因此成本结构也不同,导致OEM的利润率通常较低。ODM厂商能够进行产品的深度定制和研发,拥有选择供应商、比较价格和进行招投标的自由度,从而降低成本。相比之下,OEM的操作空间较小,通常受限于客户的具体需求,客户指定什么材料或组件,OEM就必须使用什么,因此OEM的利润更多来自于加工费,而不是产品的附加值。这种差异使得OEM在利润创造能力上通常不如ODM。
问:GB200 NVL36和GB300的报价是多少?
答:GB200的型号NVL72的报价在大约294万至300万美元之间,而NVL36的报价范围则是160万至170万美元。对于即将推出的GB300,预估价格在400万至450万美元之间,单个节点的价格大约为20万美元。不过,这些价格目前仅为预估值,因为样机尚未推出。未来的具体报价将基于样机的表现和成本,进一步为客户提供详细信息。这种定价策略有助于保持市场竞争力同时确保产品的研发与生产成本得到合理覆盖。
问:H200明年二季度是否会降价?
答:GB200作为明年的低端主流产品,确实有可能进行降价,但预计降价幅度将相对较小,这主要取决于英伟达的市场策略。到2025年,如果HBM的产能得到整体提升,并且有越来越多的厂商开始生产HBM,从而在HBM供应市场形成竞争,那么预计HBM的价格会下降,进而为H200的降价提供可能性。
然而,如果未来H200没有遇到特别多的竞争对手,例如AMD的MI300或者MI325未能对H200形成实质性的市场压力,那么H200的降价可能性不大。降价的动力主要可能来源于两方面:一是英伟达自身的产品策略;二是通过市场竞争,特别是对AMD的竞争压力,来驱动价格调整。这种策略反映了市场动态和竞争状态对产品定价的直接影响。
问:GB300新增插槽是哪家供应的?ASP的情况如何?
答:目前,主流供应商中,Aspeed和Lotes具有比较大的机会。为了降低风险,大多数物料采购通常会选择这两家供应商:一家作为主要供应商,另一家作为备用供应商。这种做法可以避免依赖单一供应商带来的风险,尤其是在大规模生产阶段,如果主供应商出现问题,下游的ODM厂商将能够迅速切换到备用供应商,确保生产线的连续性和稳定性。这种策略是为了确保供应链的灵活性和响应能力,从而应对可能的供应中断。
作为整个AI的时代阵眼,英伟达的一举一动都牵动着投资者的心,目前来看英伟达没有任何问题,那么就意味着工业富联等服务器组装工厂都没有任何问题,从而意味着相关产业链的公司都没有问题,包括天孚通信、新易盛、沃尔核材等等,当然份额这些会发生变化,以及业绩增速也会发生变化,这是需要密切跟踪的。
专注分享财经信息的专业社区,喜欢请点击下方名片关注。
免责声明:本文材料整理于公司公告、新闻、机构公开研报及社交媒体网络等,对文中所涉专业及个股均不构成投资建议。市场有风险,投资需谨慎。图文如有侵权或违反信批规则请后台留言联系删除。
文章精彩,防止走失,可关注、转发、投币打赏。