事件:产业链传GB200已经重新流片, wafer in已经开始,预计 1-2 个月 wafer out。
NV每周二和台积电例会,目前进度非常快和及时,也是NV自己的关键时刻,再次流片的具体时间也出了。目前台积电看设计问题不大,虽然仍有预期差。台积电找了他们所有分公司最好的工程师全力攻克这个问题了,差不多9月中就有最终的答案(一个半月左右,之前花了1亿多美金的wafer全部作废)。基本上之后tape out顺利的话,之前的问题就迎刃而解了,NVL72(36x2)就是按照之前的的进度出货,甚至不会延后,然后要求任何产品都给NVL72让路,包括之后的B200 B200a hgx,只要有NVL72的需求,提前满足。
渠道这边非常多,有乐观,有悲观,确认肯定是真的,而且以后每周二NV跟台积电例会可以继续跟踪。
NVL72(其实都是NVL36x2)出货节奏Q4本来预定是6000柜,主要是AWS 2000台,微软 2000台,meta 500柜,谷歌 1400柜,其他销售代理全是样品机,如果这次能顺利流片,最终理论上都能赶上(后续继续跟踪)。
而新产品b200a nvl36 aircool(第一批确定卖苹果了)会提前设计好并且出货,死命令给了2025年4月25日这个时间(新产品,这不是之前说的b200a ultra nvl36)算力密度差不多是nvl36的一半,nvl72的四分之一,估计价格也差不多(应该会加一堆配件等效贵点 nv老套路了 取代8卡的HGX)。
Q:请问CoWoS-S和CoWoS-L的区别?
A:台积电先进封装分为前后段,前段的部分是SoIC,包括Hybrid Bonding、SoIC-X和SoIC-P;后段的部分包括InFO和CoWoS。InFO是chip first,分为InFO-R和InFO-L,主要使用者大部分都是苹果,比较高端的可能会用到LSI(InFO-L)的技术,CoWoS-L也会用到。苹果从M1 Ultra开始会用一个Fusion的技术,有点像是bridge die在中间,把它叫作LSI(Local Silicon Interconnect),Local Silicon Interconnect的意思就是bridge die,然后再加上RDL Interconnect的技术。CoWoS包括CoWoS-S、CoWoS-R和CoWoS-L。CoWoS-S的全称是CoWoS Silicon Interposer,也就是芯片会做在silicon interposer的wafer上面;CoWoS-R是RDL Interposer;CoWoS-L的技术跟InFO-L的技术很像,都用到了LSI也就是bridge die的技术。
CoWoS-S从process flow讲起,进来的wafer是挖好TSV的wafer,这个一进来的东西就叫做Silicon Interposer wafer,这也是为什么如果台积电做不出这么多的Silicon Interposer Wafer,没有办法挖这么多TSV,你会听到我们可不可以跟UMC买,可不可以跟Inotera(美光)买,可不可以跟一些记忆体的前段厂商购买,只要表面RDL的pitch能够达到客户的要求,基本上都会跟这些厂商购买Silicon Interposer Wafer。但是RDL Interposer无法外购,它属于CoWoS-R的部分制程无法外购。CoWoS-L也是在CoWoS-R的基础上衍生的,所以是LSI+RDL Interposer,因此CoWoS-L也无法外购。回到CoWoS-S的制程,当挖好TSV的Silicon Interposer Wafer准备好后,就会开始做黄光表面,做完之后会做一层coating,在上面bonding一个Carrier,然后会用wafer etcher将其磨薄,把里面的TSV露出来之后,RDL放上去,C4 bump放上去。这时候开始上第二层的carrier,然后将第一层的carrier拔掉,在拔掉的位置bonding GPU,之后再把第二层的carrier拔掉,形成大家常看到的Interposer,这部分是CoW的阶段。之后再进入CoWoS的oS阶段,也就是Interposer Die on Substrate的部分,最后HBM才会上去。
CoWoS-R是RDL Interposer,来源于fan-out的技术,也就是Face Down Chip Last的技术,黄光做完之后才上die,CoWoS-S也是chip last的技术。CoWoS-R一开始一般都是一个glass carrier,glass carrier业界比较常用的型号是康宁的EAGLE XG,在glass carrier的上面会涂一层sacrificial layer也就是release layer,通常胶会由像Brewer Science这种会提供Temporary bond技术的胶体的公司提供,会在胶体上面做RDL layer,做完之后就可以GPU放上去,flip chip把GPU放上去之后过mass reflow,过完mass reflow接合在一起之后就可以进行wafer molding。也可以做chiplet的概念,在同一个pad的黄光里面放几颗不同的die。再之后会用laser ablation de-bonding将release layer这一层有点粘性的部分碳化掉,让它失去粘性后就可以把这层玻璃拔掉,将表面清洗干净。清洁完之后将其翻过来,继续做剩下的RDL,之后进行wafer ball mount。这部分完成的就是CoWoS-R的CoW的阶段,其中用黄光做起来的这一块就是RDL Interposer。RDL Interposer的性能表现不及Silicon Interposer,RDL的线路是一层一层迂回地走,而Silicon Interposer是垂直地走。但是RDL Interposer由于不需要挖洞而不受限于工艺上的物理极限,因为洞没有办法缩到太小,还是需要用传统曝光的方式去照,基底Silicon based wafer有物理极限,光罩一颗开到最大是32x26。如果想把Interposer做大,就需要用到玻璃基底,因为不需要挖洞,所以不受限于光罩面积的限制。但是当光罩面积开到太大比如7-8倍时,会导致线路走得太长,RC delay也会很长,性能表现就会变差。
另外,chip last和chip first到底有什么差别,为什么high density只能走chip last,这是因为CTE(热膨胀系数) mismatch,die如果是以chip first的方式上去之后,molding完之后通常会有很大的warpage,之后再去上RDL的时候,就会存在精度上的限制,所以造成RDL的线路不好做。Chip last的技术就是RDL在还没有加热(molding)的时候上上去,这时就不存在warpage的问题,RDL就可以做到很细。所以英伟达的产品不能用chip first的主要原因是由于热膨胀问题造成翘曲,导致黄光不好曝,另外RDL first的稳定性比较好。但是chip first的成本比较便宜。
CoWoS-L就是接刚才CoWoS-R的部分去做,刚才讲到RDL Interposer,如果不想要一颗device上面的RDL做得太大,又想要做到SIP,但是要把两个GPU做到一起,又想要缩短两个device的GPU top之间的距离,不让路径跑得那么长,就有了CoWoS-L,也就是LSI,俗称bridge die。Bridge die的做法是有一颗bridge die是做face up的制程,晶面朝上,接下来把两颗ASIC或HBM放上去,就可以通过bridge die进行桥接,缩短了两颗芯片之间的传输距离。台积电的CoWoS-L对应的英特尔的技术叫做Foveros Omni,Foveros是可以做die first也可以做die last,台积电是做die last的技术,而FOCoS-Bridge也就是日月光的技术是做die first。
Q:英伟达在Blackwell上首次使用CoWoS-L时遇到了哪些良率问题?这些问题主要出现在什么环节?
A:问题在于两颗logic die和bridge die的接合,传统的mass reflow,因为pitch缩小到一定程度导致flux无法清洗干净进而造成low yield,然后用LAB的性能表现不好,所以现在在试TC Fluxless,正在用ASMPT和K&S的TCB机台在做。这种Fluxless的技术良率不是特别高,有一些技术上的问题需要突破。因为TC Fluxless还属于比较新的技术,在存储厂商那边也只是在尝试,还没有开始量产,所以Fluxless这个技术严格来讲世界上目前还没有任何生产,都还在R&D阶段。
Q:台积电CoWoS-S和CoWoS-L的良率分别是多少?
A:CoWoS-S技术已经非常成熟,其良率通常能够超过95%。CoWoS-L是一种比较新的技术,英伟达应该算是第一个使用的重量级客户,以前大部分都只用到CoWoS-R,以前还没有走到chiplet的概念,现在Blackwell需要将两颗B100进行串联,所以要用到bridge die。
Q:所以这样就解释了英伟达现在推出了一个新的产品B200-A,只有一颗die,就可以切换回CoWoS-S去做,就不用担心良率的问题。
A:是的。
Q:英伟达B200的推迟可能主要是因为台积电CoWoS良率的问题,这是在预期之内的事情吗?
A:预期之内。因为一直有听到出现问题的声音,然后现在要去尝试Fluxless,但是台积电对于Fluxless还缺乏经验,所以很可能就会出现问题。
Q:后续台积电会如何提升良率?
A:可能还是会继续尝试Fluxless。LAB是英伟达一直在推的,但是LAB也需要用到flux,但由于pitch太小铜柱太细所以会有flux清洗不干净的问题。
Q:Fluxless这边在试的供应商是谁?
A:ASM和K&S。这两家里面会选择一家。因为技术很新,要发展一段时间,所以现在还没有确定供应商。
Q:预计大概需要多久的时间可以将CoWoS-L的良率提升至CoWoS-S的水平?
A:预计应该需要1-2年的时间。
Q:如果是将良率提升到80-85%的水平呢?
A:针对一个产品进行优化,提高良率的话,大概可能半年的时间。
Q:如果预期1-2个月就可以解决是否会太过乐观?
A:有点太乐观。可能至少也要一个季度的时间。
Q:英伟达的下一代Rubin是否依然会存在翘曲的问题,工艺上会更复杂吗?
A:会更难做而且翘曲的问题一定会存在,这也是台积电想要尝试TC Fluxless的原因。Rubin的die的面积太大,如果做mass reflow的话,可能会翘曲很严重,如果翘曲过大,可能会在reflow的过程中造成铜柱的断裂。总结来说,flux很难清干净,warpage也很难控制,所以干脆就用TC Fluxless。
Q:AMD现在的CoWoS是在哪个平台?
A:MI300目前是CoWoS-S。之后如果AMD需要将不同的die连在一起的话,应该也是需要向CoWoS-L的方向走。
Q:如何评估英伟达B200推迟这件事情对台积电的影响?会在业绩上有一定程度的负面影响吗?
A:不会,因为这个就是做得快与慢的问题,前段的技术大家还是会交给台积电来做。
Q:如何评价英伟达公司的执行能力?
A:英伟达的执行能力是不错的,但是台积电才是技术的供应者,英伟达应该就是送样给台积电,交给他们来做,英伟达会去跟进了解出现的问题,但是很多东西主要的掌握者还是台积电,而且英伟达也非常相信台积电,所以可能英伟达只会提出建议,但不太会去主导这件事。
Q:英伟达B200的交付再次被延期的可能性有多大?
A:应该不会再次延期,台积电应该有能力解决这件事,目前他们是有一些解决方案在尝试。
Q:SoIC有没有类似的良率比较低的问题?
A:一开始做一些新的东西的良率都会比较低,比如苹果现在要做的2026年要量产的也是不好做,刚开始的良率都会蛮低,需要经过一定的learning curve。
Q:这次英伟达B200推迟的事件有看到需求侧的变化吗?需求侧有没有需要担心的地方?
A:需求还是很强,需求侧没有要担心的问题,现在主要还是技术瓶颈的问题。因为AI行业成长太快,所以对技术迭代速度的要求很高,就会造成很大的压力,供应链可能会跟不上。这也是台积电最近在致力于将先进封装技术从晶圆级转换到面板级的原因,需要不断地去突破光罩面积的限制。
Q:这次技术瓶颈的出现有没有带来一些新的投资机会出现?或者会对哪些供应商比较利好?
A:可能台积电明年继续扩产的话,对设备供应商就也会有一定的需求在,但是还是那些老的供应商,就只是订单量可能变大。
Q:GB200最开始的时间线是否有些激进?
A:其实是有点。就像现在Rubin英伟达也只是定到2026年,但没有讲具体2026年什么时候可以出来
Q:Rubin之前有听说是明年Q1流片,Q4量产,所以这个时间有可能会延后吗?
A:可能不会那么快,应该还是要到2026年,明年的话供应链可能会跟不上。工艺上的困难度还是比较大的,Rubin中涉及4颗die的串联需要解决更多问题,还要放HBM,Interposer要做得更大,这时候中间可能会出现很多问题,不确定能否顺利解决。因为英伟达算是第一个用CoWoS-L的大客户,真正的量产经验很少,所以一开始会遇到这种技术瓶颈也不意外。
Q:传闻英伟达因为光罩有问题要重新设计B200流片,这件事情是真的吗?
A:没有听到,但觉得是修改了。因为RDL Interposer的线路可能在做的时候会造成一些电信上的问题,所以必须要去改光罩,再加上bridge die如果要改位置之类的话,光罩上面的RDL也都必须要重新去设计然后流片。有这样的改动也是属于比较正常的。
Q:这样的改动是否会拖慢进度?
A:所以刚才才会预估可能需要一个季度到两个季度的时间。
Q:近期还有哪些跟英伟达、台积电或者AMD有关的变化可以分享?
A:现在比较大的应该就是台积电的这个工艺什么时候可以上线,到底会有多少客户要用这个东西,因为可能刚出来稳定度不高,如果良率比较低,device也比较贵,还要买HBM,对客户来说成本就会很高。
Q:Plasma和Formic Acid清洗Flux 各自有哪些优缺点?
A:Formic Acid成本较高,然后会有一个chamber是做Formic Acid去去除wafer上面的氧化层,然后再传动到bonding的区域去bond,所以UPH会比较慢;Plasma可以做在inner chamber里面,可以一边打一边plasma,而Formic Acid因为是气体没有办法针对一颗颗去打,所以plasma的UPH会比较快。Plasma和Formic Acid的去除效果各有利弊,Formic Acid可能会比较全面,但成本较高,UPH较慢,Plasma可能会因为去除不干净而造成良率低的问题。
Q:mask光罩的修改周期大概需要多久?
A:如果是大修改,即涉及整个设计的大幅调整,则至少需要一个月以上。如果只是小修改,则可能只需几个星期,一个月内完成小修改是有可能的,但大修改肯定超过一个月。