B200设计缺陷源于互联，Ultra或成25年主力，Rubin推迟风险

财富 2024-08-10 23:46 广东

B100和B200是否存在设计缺陷？源于哪里？

问题在chiplet上，之前英伟达都没有使用chiplet的技术，它的两个die之间的互联出现了信号及设计上的问题。另外一个是CoWoS-L涉及到了一些材质的问题，它要解决一些未来产品的可靠性的问题，比如如何去在高温下防止它的变形，以及它中间的硅层如何设计。所以就导致它的CoWoS-L良率较低。

是标准单元的设计问题？

标准单元指的就是chiplet之间的互联解决方案，它本身的这种互联是多路SerDes来实现的，它每路SerDes本身的频率是256G，但是它有很多组这样子的设计是总线去把它连接起来，实现两个之间的这种高转换，就是它在这个SerDes的单元上出现了问题。

之前经历了流片和很多次测试，为什么没有发现这些问题？

首先这种chiplet技术对于某些公司来讲可能并不很新鲜，但是对于英伟达来讲是第一次，因为以前它的设计都是单die。其次是这种的设计的验证，是需要大规模的同时还要需要foundry的配合，才能够去找到这个问题。所以如果只是小规模的使用的话，你只是会前期发现它可能有一些性能上的问题，或者说有一些稳定性上的不足，但是只有在大规模投产的时候，才能看到这个chiplet可能会造成的问题。所以这个是属于英伟达在上市之前，它的测试验证的过程当中它发现的问题，是在量产之前发现了这个问题。

互联的设计问题可能在多久之内解决？

Chiplet的互联是比较简单的，并不是一个非常复杂的技术，它更多的是它SerDes之间的设计问题，所以这个更多是它本身SerDes IP可能存在的一些不稳定性，或者说它IP本身里边的一些代码或信号处理有一些不足，所以这个它想解决问题并不大，它只要在设计当中去把余量放宽放大，同时对它的IP做小规模修改，再重新流片就可以做了。所以预计在3个月以后，这款产品有可能还能再重新出来，因为它基本上一次设计改动以及它的一次流片的周期差不多就是3-5个月。

B200的SerDes IP是英伟达自己的？

对，是Mellanox的。

目前B系列交付了多少？

现在基本上还没有最终用户拿到，只是部分交付到了ODM手里。因为现在它的产品还是在ODM手里去做，系统级的验证和测试还没有最终交付。

自身问题导致的出货推迟会不会发生赔偿？

应该不会，因为本身从合同交付的时间来讲，英伟达就留出了一定的余量，所以这个延期还属于它正常的交付窗口期之内。现在的设计很可能在一段时间之内，它的双die的这种设计会少，它可能会一段时间之内都主要是单die的设计。

B200推迟3-5个月的话，对于 GB200的出货量和时点的影响大概多久？

GB200跟B200只是属于芯片层面上的一个使用区别，所以预计在B200能够正常出货后大概1~2个月，他的GB200就也能正常出货了，但可能GB200所支持的这种MGX产品的延迟会比较多，因为这个会涉及到它整体的系统验证和测试，不是简单的一个模组问题。

CoWoS-L这边的问题是不是也影响到MI300X的生产交付？

没有，因为AMD暂时没有用这个技术，AMD用的还是比较传统CoWoS-S。

B200A的规格？

B200a就是一个纯粹的单die，避免了chiplet的问题，所以可以很快就出来。

B200A改回用到CoWoS-S会不会对性能有影响？

性能上影响不是很大，但是它对于它的本身的成本影响会比较大一点。

B200A是用4颗12-hi的HBM3e？

对，单颗是36G。

B200A如果Q2下半旬批量交货，HBM3E的供应是否跟得上？

B200A的HBM3E在紧急采用三星的产品，这个月刚认证完。未来B200A很有可能最大的供应是三星。

B200除了封装和互联问题以外，海力士的HBM有没有出现问题？

目前最大的问题是封装和互联的问题。HBM是一直就有问题的，良品率不是非常高，所以在很多系统当中出现了不稳定或者闪退问题，大家都一样，没有谁能够逃出这个问题。

英特尔的IFS拿到了多少CoWoS-S的订单？良率怎么样？

它本身的封装技术（Foveros）就非常类似于CoWoS-S。给英特尔不多，英特尔的这一部分是得到过验证的，所以良率能够达到90%多，但还没有达到一个封装最好的水平。

台积电CoWoS-L的良率要提高到90%左右才可以量产？需要多久能达到？

估计在2025年的Q1-2它大概能解决这个问题，所以英伟达在今年下半年的整个的封装技术还是以CoWoS-S为主。

所以相比SerDes设计封装才是最大的瓶颈，如果慢的话B200要等到Q2出，意味着GB200甚至要等到Q3出？

对，但是现在它的一个改变方法就是第一它出单die来解决它SerDes的问题。第二是它有一部分B200会转到CoWoS-S来保证B200的出货。所以如果单看它用CoWoS-L的产品它会往后延，但如果单看B200本身的量产交货时间应该是25年Q1。

SerDes的设计问题和CoWoS-L的良率等问题和他把新品周期缩短到一年是否有关？

有一定的关系，因为这些技术都是需要花比较长的时间来进行验证的，现在它缩短到一年，而且采用了很多他以前没有使用的新技术，对于英伟达的整个验证时间来讲压力比较大。而且新技术并不只是英伟达初次使用，而是基本上还没有厂商使用，它是最早的。

HGX B100和B200的需求比例？

HGX B100现在的需求并不是非常高，很多CSP还是希望直接使用HGX B200，因为 B100和B200的性能差距还是蛮大的，B100唯一的好处就是可以继续使用风冷，B200只能使用液冷。现在很多大互联网厂商基本都在积极改造数据中心去满足液冷需求。

头部CSP的NVL和HGX B200的比重？

专家预测NVL到25年都不会是主流，B200 Ultra这款产品有可能未来的量会比较大，而且在25年应该是主流，大概占到整个B系列的60%，另外B200A占20%左右，NVL占10%多一点，应该不到15%，B200的量可能就很少了，英伟达下一步很可能是直接会切到B200 Ultra。很多的客户里都认可NVL的设计，未来应该是个趋势，但是他们对于NVL现在的很多问题还存在比较大的疑问。

B200 Ultra是不是要等到Q3下半旬才能出货？

对，英伟达可能会把B200A的时间往前提，然后把B200 Ultra稍稍往后放一点

怎么看H和B系列的double order的情况？

这个情况存在，尤其像B系列最近出现这个问题之后，有些厂家把原来的B系列的订单转到了H（两边都下），厂家现在目前在观望B系列的出货和良率情况，所以现在是有一些厂家出于订单的急迫性，现在是下了H系列的，但他们B系列的订单并没有取消。但如果B系列后期它的问题很快能得到解决的话，它这些厂家会把它的H系列的订单切换到B系列。最近英伟达在允许客户追加H系列订单的时候，它是允许厂家可以取消这个订单的。

英伟达的所有订单都是可以随时取消，没有后果的取消的对吧？

看情况，多数情况下是可以的。所以现在对于很多厂家来讲就下订单，一是说保他们的需求可以随时满足，二是他们不承担任何的风险就可以做切换。

B系列的推迟和需求向H系列的转移是否导致最近一周H系列涨价？

没有，因为B系列和H系列的用户都是国外比较大型的厂家，他们跟这些厂家的整体的价格都是以年度去谈的价格，所以还是维持原有的价格。

GB200A的解决方案是一个Grace加一个 B200A？

有一个是1:2的，有一个是1:4的，还有一个2:4的。

CoWoS-S和L是否有比较大的二供可以及时出货，可能是哪一家？

S现在有若干家，像日月光，安靠都有类似S的解决方案，甚至包括通富。L现在只有台积电有。

如果提前发货GB200A的话，会不会反噬GB200 Bianca和Ariel的需求？

不太会，因为这两个一是在die上的差异，二是内存的带宽和算力差别还是蛮大的，所以一些追求极致的客户会优先选GB200。而且GB200A未来没有NVL的解决方案，如果未来客户想用这种NVL的解决方案，它还得要用GB200的。GB200a主要还是以HGX的方式出货。

所谓的 B102是B200A还是B20？

B102是B200A的code。

B系列的推迟，包括CoWoS-L的问题会不会导致B200 Ultra和下一代Rubin推迟的概率上升？

对Robin可能会造成一定的推迟，因为这两代间隔时间太短，英伟达现在把很大的精力花在去解决B200的问题上。按原计划的话留给Rubin的窗口期太短了。而且它也现在要看竞争对手的一个表现情况，从它的B200来讲，它相比AMD已经弥补了在HBM带宽上的差距，所以B200完全可以在一定程度上还是保持领先优势，所以Rubin对英伟达来说可能暂时不是非常急切的一个东西。

B200的推迟是否会让MI300X在客户端的导入加快？

MI300的市占率不会有太多的提升，因为一些客户目前给的反馈来讲，认为这款芯片还是存在一定的软件上的一些问题。所以AMD如果让客户大规模使用，势必还要做更多开发，弥补它软件上的不足。所以现在AMD的产品还是有限的，厂家在有选择性的使用，所以并不会抢B200的份额。

B200A的性能怎么和H200、B200和B200 Ultra相比？

预计比H200略有提升，范围大概在1.5-2倍之间，可能只是一些非常特殊的场景到2倍，多数情况下应该在1.5-1.7倍。B200基本上是B200A的1.3倍多一点的水平。B200 Ultra会是B200A的2倍。

台积电CoWoS-L的CoW的部分的bonder供应商预计什么时候可以通过验证？最终的方案是Shibaura+Protec吗？

它的验证现在主要是它的现在量不够大，所以它在里边的验证没有经过大规模场景下的评测。Protec的这个东西没有什么新鲜的，因为这个东西本身已经有若干年了，但只不过是在L的情况下是把两种不同的材质结合在一块，可能会造成了一些验证工作的难度提升，所以估计它的材质的认证大概5-6个月。因为它需要一定的时间去做更大量的评测和验证，他之前的问题就是这方面的验证做的不多。

Bonder的lead time还是6个月吗？

是的。

英特尔最近暂停股息加15%的裁员，裁员有特别提到对R&D的影响，是否会影响到Gaudi的研发和产品的推出？

对Gaudi 3不会有太大的影响，下一代可能会有一些。

怎么看Azure AI未来几年的增速？

Azure AI现在的提升不高主要是因为它现在的收费应用场景还不是很多，它现在最主流的云当中的收费场景是它的OS和Office。但是Azure AI这部分还没有全面进入它的Office，它只是在里边的一部分业务才能使用，所以现在要看他的这款产品什么时候能够在他的Office里面，比如Copilot和Search里边未来会扮演的角色会越来越重要。那么在这种情况下，它的未来的占比会有所提升，而且还有一个原因就是现在的Copilot目前还只是对企业级用户开展有限的这种评测，还并没有成为一个标准的通用型产品对大家开放。所以现在的情况更多的是微软在不断打磨它Azure的能力。所以微软现在在这方面投入很大，希望把这部分的能力慢慢加强，能够替代OpenAI在微软产品当中的这个角色。而且再一个就是这样做可能会进一步降低的成本，在未来Copilot的推广上力度会增大。我们认为他这个是一条正确的路子。

Copilot怎么展望？包括渗透率和GPT-4o的引入带来的提升？

Copilot目前只有一些大型企业做了付费，所以渗透率还并不是很高，它还没有面向很多这种小型的，比如说一般这种2B的用户以及更多2C的用户。所以Copilot现在还属于一个高端产品，而且它在里边的使用场景还是有限的。Copilot有不同的等级，比如说不同的收费标准，所以就导致它的渗透率和客户的接受程度还并不是非常高。但它主要的原因是成本上的压力，它不可能把Copilot开放的那么大，他现在还是有一些问题没有解决，所以GPT-4o出来之后，可能对于Copilot的下一步策略产生比较大的促进，因为GPT-4o出现后会对于它的现有的资源的利用率会很大的一部分的释放，它可能会未来接入更多用户，那么它可能会给它的资费标准和服务标准做进一步放宽，这样它的用户渗透率会更高。所以GPT-4o对他来讲也是一个比较重要的节点。

Copilot和AI Agent未来是否是替代关系？

谈不到替代的关系，Copilot更多是给客户提供一个完整的已经打包的嵌入式解决方案。AI Agent它除了能够提供一定这部分的功能以外，它同时还面向很多开发者，所以他提供了针对于开发者更友好的界面，同时提供了开发者更多的这种功能。所以AI Agent和Copilot面向的是不同使用水平以及需求不一样的用户，应用的场景是不一样的，面对的用户群也是不一样的。

Maia 100的部署情况和表现？

目前在微软还只是小规模的试验，在微软内部大概有4000台服务器。一个最大的问题是说它主要是面向于推理业务，它现在虽然推理业务可能它的实现场景会比较简单一点，但是它还涉及到一些完善的工作。Maia的较大上量可能在2025年。它在2025年可能会出来一版新的，制程会有所提高，有可能会考虑使用英特尔的18A或者说更高的工艺去做。

Maia 100是不是只能做低精度的推理？

不，它的整体的精度并不是很低，它也支持FP16，所以他并不是说做那种纯低精度的推理，即使他也有更低的精度的。

推理的表现好过H100？

目前还没有做到，但是从它架构和测试的情况来讲，如果它在下一代它继续提升制程，然后再把某一些指标去做一些扩展的话是它可以超过H100的。尤其在性价比上更能超过。

Maia 100的规格和参数？

Maia 100整体其实跟B200很像，它支持FP4，FP4的算力应该是比B200还要略高。然后他还支持INT8，大概是1.6 TFLOPS。它的memory是64G的HBM3，所以从带宽上来讲还并不是很高，所以它更多的像一个推理的产品。如果说要从纯低精度的算力来讲，它跟B100和B200有一定的对标性，但是对于像BF16这样的它应该是处于是H100到H200的水平。所以如果微软未来开放更低精度的业务的话，Maia 100是个很好的解决方案

Maia 100明年能出多少张？相当于多少台服务器？

计划应该是在20万片左右。现在Maia 100一般都是8卡场景偏多，当然也可能有4卡的。如果按照节点来讲的话，按照1机8卡的话，大概是12,000-15,000个节点。如果按1机4卡来讲，大概是将近在5万多个节点左右。

http://mp.weixin.qq.com/s?__biz=MzkwMjA4NTUyMg==&mid=2247544329&idx=2&sn=6e2c52772e6b34497c27d9f88bc7cfdc

调研纪要

机构调研、电话会议