B100和B200是否存在设计缺陷?源于哪里?
问题在chiplet上,之前英伟达都没有使用chiplet的技术,它的两个die之间的互联出现了信号及设计上的问题。另外一个是CoWoS-L涉及到了一些材质的问题,它要解决一些未来产品的可靠性的问题,比如如何去在高温下防止它的变形,以及它中间的硅层如何设计。所以就导致它的CoWoS-L良率较低。
是标准单元的设计问题?
标准单元指的就是chiplet之间的互联解决方案,它本身的这种互联是多路SerDes来实现的,它每路SerDes本身的频率是256G,但是它有很多组这样子的设计是总线去把它连接起来,实现两个之间的这种高转换,就是它在这个SerDes的单元上出现了问题。
之前经历了流片和很多次测试,为什么没有发现这些问题?
首先这种chiplet技术对于某些公司来讲可能并不很新鲜,但是对于英伟达来讲是第一次,因为以前它的设计都是单die。其次是这种的设计的验证,是需要大规模的同时还要需要foundry的配合,才能够去找到这个问题。所以如果只是小规模的使用的话,你只是会前期发现它可能有一些性能上的问题,或者说有一些稳定性上的不足,但是只有在大规模投产的时候,才能看到这个chiplet可能会造成的问题。所以这个是属于英伟达在上市之前,它的测试验证的过程当中它发现的问题,是在量产之前发现了这个问题。
互联的设计问题可能在多久之内解决?
Chiplet的互联是比较简单的,并不是一个非常复杂的技术,它更多的是它SerDes之间的设计问题,所以这个更多是它本身SerDes IP可能存在的一些不稳定性,或者说它IP本身里边的一些代码或信号处理有一些不足,所以这个它想解决问题并不大,它只要在设计当中去把余量放宽放大,同时对它的IP做小规模修改,再重新流片就可以做了。所以预计在3个月以后,这款产品有可能还能再重新出来,因为它基本上一次设计改动以及它的一次流片的周期差不多就是3-5个月。
B200的SerDes IP是英伟达自己的?
对,是Mellanox的。
目前B系列交付了多少?
现在基本上还没有最终用户拿到,只是部分交付到了ODM手里。因为现在它的产品还是在ODM手里去做,系统级的验证和测试还没有最终交付。
自身问题导致的出货推迟会不会发生赔偿?
应该不会,因为本身从合同交付的时间来讲,英伟达就留出了一定的余量,所以这个延期还属于它正常的交付窗口期之内。现在的设计很可能在一段时间之内,它的双die的这种设计会少,它可能会一段时间之内都主要是单die的设计。
B200推迟3-5个月的话,对于 GB200的出货量和时点的影响大概多久?
GB200跟B200只是属于芯片层面上的一个使用区别,所以预计在B200能够正常出货后大概1~2个月,他的GB200就也能正常出货了,但可能GB200所支持的这种MGX产品的延迟会比较多,因为这个会涉及到它整体的系统验证和测试,不是简单的一个模组问题。
CoWoS-L这边的问题是不是也影响到MI300X的生产交付?
没有,因为AMD暂时没有用这个技术,AMD用的还是比较传统CoWoS-S。
B200A的规格?
B200a就是一个纯粹的单die,避免了chiplet的问题,所以可以很快就出来。
B200A改回用到CoWoS-S会不会对性能有影响?
性能上影响不是很大,但是它对于它的本身的成本影响会比较大一点。
B200A是用4颗12-hi的HBM3e?
对,单颗是36G。
B200A如果Q2下半旬批量交货,HBM3E的供应是否跟得上?
B200A的HBM3E在紧急采用三星的产品,这个月刚认证完。未来B200A很有可能最大的供应是三星。
B200除了封装和互联问题以外,海力士的HBM有没有出现问题?
目前最大的问题是封装和互联的问题。HBM是一直就有问题的,良品率不是非常高,所以在很多系统当中出现了不稳定或者闪退问题,大家都一样,没有谁能够逃出这个问题。
英特尔的IFS拿到了多少CoWoS-S的订单?良率怎么样?
它本身的封装技术(Foveros)就非常类似于CoWoS-S。给英特尔不多,英特尔的这一部分是得到过验证的,所以良率能够达到90%多,但还没有达到一个封装最好的水平。
台积电CoWoS-L的良率要提高到90%左右才可以量产?需要多久能达到?
估计在2025年的Q1-2它大概能解决这个问题,所以英伟达在今年下半年的整个的封装技术还是以CoWoS-S为主。
所以相比SerDes设计封装才是最大的瓶颈,如果慢的话B200要等到Q2出,意味着GB200甚至要等到Q3出?
对,但是现在它的一个改变方法就是第一它出单die来解决它SerDes的问题。第二是它有一部分B200会转到CoWoS-S来保证B200的出货。所以如果单看它用CoWoS-L的产品它会往后延,但如果单看B200本身的量产交货时间应该是25年Q1。
SerDes的设计问题和CoWoS-L的良率等问题和他把新品周期缩短到一年是否有关?
有一定的关系,因为这些技术都是需要花比较长的时间来进行验证的,现在它缩短到一年,而且采用了很多他以前没有使用的新技术,对于英伟达的整个验证时间来讲压力比较大。而且新技术并不只是英伟达初次使用,而是基本上还没有厂商使用,它是最早的。
HGX B100和B200的需求比例?
HGX B100现在的需求并不是非常高,很多CSP还是希望直接使用HGX B200,因为 B100和B200的性能差距还是蛮大的,B100唯一的好处就是可以继续使用风冷,B200只能使用液冷。现在很多大互联网厂商基本都在积极改造数据中心去满足液冷需求。
头部CSP的NVL和HGX B200的比重?
专家预测NVL到25年都不会是主流,B200 Ultra这款产品有可能未来的量会比较大,而且在25年应该是主流,大概占到整个B系列的60%,另外B200A占20%左右,NVL占10%多一点,应该不到15%,B200的量可能就很少了,英伟达下一步很可能是直接会切到B200 Ultra。很多的客户里都认可NVL的设计,未来应该是个趋势,但是他们对于NVL现在的很多问题还存在比较大的疑问。
B200 Ultra是不是要等到Q3下半旬才能出货?
对,英伟达可能会把B200A的时间往前提,然后把B200 Ultra稍稍往后放一点
怎么看H和B系列的double order的情况?
这个情况存在,尤其像B系列最近出现这个问题之后,有些厂家把原来的B系列的订单转到了H(两边都下),厂家现在目前在观望B系列的出货和良率情况,所以现在是有一些厂家出于订单的急迫性,现在是下了H系列的,但他们B系列的订单并没有取消。但如果B系列后期它的问题很快能得到解决的话,它这些厂家会把它的H系列的订单切换到B系列。最近英伟达在允许客户追加H系列订单的时候,它是允许厂家可以取消这个订单的。
英伟达的所有订单都是可以随时取消,没有后果的取消的对吧?
看情况,多数情况下是可以的。所以现在对于很多厂家来讲就下订单,一是说保他们的需求可以随时满足,二是他们不承担任何的风险就可以做切换。
B系列的推迟和需求向H系列的转移是否导致最近一周H系列涨价?
没有,因为B系列和H系列的用户都是国外比较大型的厂家,他们跟这些厂家的整体的价格都是以年度去谈的价格,所以还是维持原有的价格。
GB200A的解决方案是一个Grace加一个 B200A?
有一个是1:2的,有一个是1:4的,还有一个2:4的。
CoWoS-S和L是否有比较大的二供可以及时出货,可能是哪一家?
S现在有若干家,像日月光,安靠都有类似S的解决方案,甚至包括通富。L现在只有台积电有。
如果提前发货GB200A的话,会不会反噬GB200 Bianca和Ariel的需求?
不太会,因为这两个一是在die上的差异,二是内存的带宽和算力差别还是蛮大的,所以一些追求极致的客户会优先选GB200。而且GB200A未来没有NVL的解决方案,如果未来客户想用这种NVL的解决方案,它还得要用GB200的。GB200a主要还是以HGX的方式出货。
所谓的 B102是B200A还是B20?
B102是B200A的code。
B系列的推迟,包括CoWoS-L的问题会不会导致B200 Ultra和下一代Rubin推迟的概率上升?
对Robin可能会造成一定的推迟,因为这两代间隔时间太短,英伟达现在把很大的精力花在去解决B200的问题上。按原计划的话留给Rubin的窗口期太短了。而且它也现在要看竞争对手的一个表现情况,从它的B200来讲,它相比AMD已经弥补了在HBM带宽上的差距,所以B200完全可以在一定程度上还是保持领先优势,所以Rubin对英伟达来说可能暂时不是非常急切的一个东西。
B200的推迟是否会让MI300X在客户端的导入加快?
MI300的市占率不会有太多的提升,因为一些客户目前给的反馈来讲,认为这款芯片还是存在一定的软件上的一些问题。所以AMD如果让客户大规模使用,势必还要做更多开发,弥补它软件上的不足。所以现在AMD的产品还是有限的,厂家在有选择性的使用,所以并不会抢B200的份额。
B200A的性能怎么和H200、B200和B200 Ultra相比?
预计比H200略有提升,范围大概在1.5-2倍之间,可能只是一些非常特殊的场景到2倍,多数情况下应该在1.5-1.7倍。B200基本上是B200A的1.3倍多一点的水平。B200 Ultra会是B200A的2倍。
台积电CoWoS-L的CoW的部分的bonder供应商预计什么时候可以通过验证?最终的方案是Shibaura+Protec吗?
它的验证现在主要是它的现在量不够大,所以它在里边的验证没有经过大规模场景下的评测。Protec的这个东西没有什么新鲜的,因为这个东西本身已经有若干年了,但只不过是在L的情况下是把两种不同的材质结合在一块,可能会造成了一些验证工作的难度提升,所以估计它的材质的认证大概5-6个月。因为它需要一定的时间去做更大量的评测和验证,他之前的问题就是这方面的验证做的不多。
Bonder的lead time还是6个月吗?
是的。
英特尔最近暂停股息加15%的裁员,裁员有特别提到对R&D的影响,是否会影响到Gaudi的研发和产品的推出?
对Gaudi 3不会有太大的影响,下一代可能会有一些。
怎么看Azure AI未来几年的增速?
Azure AI现在的提升不高主要是因为它现在的收费应用场景还不是很多,它现在最主流的云当中的收费场景是它的OS和Office。但是Azure AI这部分还没有全面进入它的Office,它只是在里边的一部分业务才能使用,所以现在要看他的这款产品什么时候能够在他的Office里面,比如Copilot和Search里边未来会扮演的角色会越来越重要。那么在这种情况下,它的未来的占比会有所提升,而且还有一个原因就是现在的Copilot目前还只是对企业级用户开展有限的这种评测,还并没有成为一个标准的通用型产品对大家开放。所以现在的情况更多的是微软在不断打磨它Azure的能力。所以微软现在在这方面投入很大,希望把这部分的能力慢慢加强,能够替代OpenAI在微软产品当中的这个角色。而且再一个就是这样做可能会进一步降低的成本,在未来Copilot的推广上力度会增大。我们认为他这个是一条正确的路子。
Copilot怎么展望?包括渗透率和GPT-4o的引入带来的提升?
Copilot目前只有一些大型企业做了付费,所以渗透率还并不是很高,它还没有面向很多这种小型的,比如说一般这种2B的用户以及更多2C的用户。所以Copilot现在还属于一个高端产品,而且它在里边的使用场景还是有限的。Copilot有不同的等级,比如说不同的收费标准,所以就导致它的渗透率和客户的接受程度还并不是非常高。但它主要的原因是成本上的压力,它不可能把Copilot开放的那么大,他现在还是有一些问题没有解决,所以GPT-4o出来之后,可能对于Copilot的下一步策略产生比较大的促进,因为GPT-4o出现后会对于它的现有的资源的利用率会很大的一部分的释放,它可能会未来接入更多用户,那么它可能会给它的资费标准和服务标准做进一步放宽,这样它的用户渗透率会更高。所以GPT-4o对他来讲也是一个比较重要的节点。
Copilot和AI Agent未来是否是替代关系?
谈不到替代的关系,Copilot更多是给客户提供一个完整的已经打包的嵌入式解决方案。AI Agent它除了能够提供一定这部分的功能以外,它同时还面向很多开发者,所以他提供了针对于开发者更友好的界面,同时提供了开发者更多的这种功能。所以AI Agent和Copilot面向的是不同使用水平以及需求不一样的用户,应用的场景是不一样的,面对的用户群也是不一样的。
Maia 100的部署情况和表现?
目前在微软还只是小规模的试验,在微软内部大概有4000台服务器。一个最大的问题是说它主要是面向于推理业务,它现在虽然推理业务可能它的实现场景会比较简单一点,但是它还涉及到一些完善的工作。Maia的较大上量可能在2025年。它在2025年可能会出来一版新的,制程会有所提高,有可能会考虑使用英特尔的18A或者说更高的工艺去做。
Maia 100是不是只能做低精度的推理?
不,它的整体的精度并不是很低,它也支持FP16,所以他并不是说做那种纯低精度的推理,即使他也有更低的精度的。
推理的表现好过H100?
目前还没有做到,但是从它架构和测试的情况来讲,如果它在下一代它继续提升制程,然后再把某一些指标去做一些扩展的话是它可以超过H100的。尤其在性价比上更能超过。
Maia 100的规格和参数?
Maia 100整体其实跟B200很像,它支持FP4,FP4的算力应该是比B200还要略高。然后他还支持INT8,大概是1.6 TFLOPS。它的memory是64G的HBM3,所以从带宽上来讲还并不是很高,所以它更多的像一个推理的产品。如果说要从纯低精度的算力来讲,它跟B100和B200有一定的对标性,但是对于像BF16这样的它应该是处于是H100到H200的水平。所以如果微软未来开放更低精度的业务的话,Maia 100是个很好的解决方案
Maia 100明年能出多少张?相当于多少台服务器?
计划应该是在20万片左右。现在Maia 100一般都是8卡场景偏多,当然也可能有4卡的。如果按照节点来讲的话,按照1机8卡的话,大概是12,000-15,000个节点。如果按1机4卡来讲,大概是将近在5万多个节点左右。