台积电详解晶圆级集成：72张图，深度剖析——来自2024 IEDM的分享

文摘 2024-12-16 14:10 中国香港

在2024 IEDM的Tutorial环节，台积电研发部门的Chih Hang TUNG带来了一个题为《System Scaling with Wafer Level Integration Technologies》的演讲。

资料显示，Chi Hang TUNG是台积电研发中心系统集成探索副总监。他在台湾和新加坡半导体行业工作了 30 多年，涉及的领域包括 FEOL HKMG、硅化物、BEOL Cu low-k 以及远后端 3DIC 和先进封装。Chih Hang 撰写/合作撰写了 250 多篇技术论文、40 多项全球专利、一本名为“ULSI Semiconductor Technology Atlas (Wiley 2003)”的书以及先进封装方面的书籍章节。

他于 2008 年担任 IEEE IPFA 主席，2007-2010 年担任 EDS 杰出讲师，自 2002 年以来担任高级会员，并于 2008 年获得 IEEE EDS Paul Rappaport 奖。Chih Hang 拥有伊利诺伊理工学院 (芝加哥) 理学硕士学位。他自 2008 年起加入台积电，从事 3DIC 和系统集成工作。

在这个演讲中，他围绕摩尔定律的晶体管微缩、系统微缩、晶圆级系统微缩等技术进行了深入的讨论。

下面，我们先看一下他对摩尔定律晶体管微缩的介绍。

如图所示，从 2000 年开始，行业就使用了 ITRS 所称的“等效缩放”。这意味着“将设计、制造和材料方面的新创新倒入节点，并称之为新工艺。”但是，如图所示，摩尔定律晶体管的微缩已经慢下来。

而随着工艺的演进，芯片的设计和制造成本也在飙升。

在简单介绍了这个行业背景之后，Chi Hang TUNG开始对系统微缩进行了基本介绍。

摩尔定律表明，晶体管数量每 24 个月翻一番。对于 HPC SoC（包括微处理器、GPU、FPGA 和其他特定于应用程序的加速器）而言，情况也是如此。随着计算能力在过去 50 多年里呈指数级增长，SoC 芯片尺寸已超越光刻掩模版尺寸（26mmx32mm），而系统级封装 (SoP) 成为一种有效方式，可使摩尔定律 (2.0) 超越其 SoC 限制，如上图红点所示。

正是得益于这种系统性的微缩，我们大大降低了系统的成本和功耗

关于什么是系统微缩，如图所示，这可以从几个维度看：

从 2D 到 3D，互连距离缩短约 1000 倍；

从 2D 到 3D，互连密度增加 > 1000 倍；

芯片间整体通信能力提高 > 100 万倍；

从下图可以看到，3D集成的出现，突破了过往的单片集成的限制，让芯片公司集成更多晶体管成为了可能。

为什么系统性微缩是如此重要？按照台积电的观点，在过去 50 多年里，摩尔定律推动着半导体行业的性能/密度改进。因此这首先是性能驱动的应用需求：计算越来越快，但是……功率、热量、外形尺寸、成本……尚未完全优化；

其次，这是后 PC 和后移动时代由非常不同的需求驱动；人工智能和机器学习的兴起，内存墙；超高带宽逻辑到内存，More Moore, More than Moore摩尔……两者都在推动路线图；功率效率（电池寿命、处理器、显示器、热敏感……）；成本敏感市场（物联网、移动……）以及外形尺寸（厚度）

与此同时，AI的存储能力和模型大小的差距，也让厂商去寻找新的解决方案。

通信带宽的瓶颈也是趋势行业另觅方案的原因之一。

如下图所示，Roofline 模型直观地展现了可实现性能与操作强度（也称为算术强度）之间的关系：

1、内存限制：性能受内存带宽限制

2、计算限制：性能受计算资源限制

AI计算系统架构的演变，集成更多的HBM，也是驱动系统微缩的又一驱动力。

与此同时，互联带宽的趋势，例如NVLink 的带宽正在增加，以实现更高的系统性能，让这一切成为可能。

LLM的带宽瓶颈，也逐渐显现：

1、下一代 NVLink 和 Infinity Fabric 提供更高的逻辑到逻辑带宽

2、集成更多（和下一代）HBM 可提供更高的逻辑到内存带宽

3、以上不足以完全消除内存壁垒

而下一代AI计算系统则希望HBM 为 CPU 和 GPU 提供极高的带宽。但此时，逻辑到逻辑互连带宽再次成为性能瓶颈。

总而言之，高带宽成为了关键：

312.5X + 更高的逻辑到逻辑和逻辑到内存带宽，适用于 Llama2 及更高版本；带宽增强解决方案：高密度 3DIC 堆叠技术、硅光子学。

如下图示，高端芯片的发展，也正在推动这种趋势的发展。

当然，伴之而来的还有“热”的问题。如下图所示，冷却方面的花费已经占了数据中心支出的40%。

因此，寻找高效的散热方案也成为了发展的刚性需求。

接下来，台积电的高管给我们介绍了晶圆级别的封装。

如下图所示，台积电认为，3D封装技术涵盖以下几种解决方案。

其中之一就是板级3D封装技术：PCB on PCB 堆栈。

据介绍，这种方案利用现有封装/组件，还利用现有组装工具/生产线以及已知良好封装/裸片 (KGP/KGD/KGPCB)，获得了最低设计/制造/组装/测试成本。

具体而言，则通过 Via-Frame 堆叠的 PCB-on-PCB。具体而言则由当代超薄封装（如 FO-WLP、WLCSP 等）实现。

另一种是封装级别的3D技术：POP封装

裸片 3D 堆叠技术：芯片对芯片 (CoC) 引线键合

CoC&CoW 3D堆叠封装技术，也是一个重点。

芯片级别的3D封装技术：单芯片3D

FEOL TFT堆栈

MEOL MOS堆栈

BEOL堆栈

但如下所示，这些单芯片3D面对一些困境：

1、增加每个附加层的晶圆加工时间

2、非 KGD，良率管理最为关键

3、热预算层次，并非所有层都相同

每个后续层均定制晶体管；需要全新的晶体管 SPICE 模型/设计工具/IP 模块。

3D 集成难题：越早进行 3D 堆叠，可以实现更高的密度，但互连起来就越困难且成本越高；对于 3D 堆叠，越早并不一定越好。

在台积电看来，持续的微缩是很重要的，这也就要求拥有新的封装技术。

因为任何可持续技术都必须具有可扩展性，就像摩尔定律一样，在间距密度、性能、功率效率、外形尺寸和成本方面需要继续提升。

于是，晶圆级系统集成，成为发展的方向。

在台积电看来，这种技术能够以最小的努力扩展到更细的间距；而且，它利用现有的晶圆厂，可以使用折旧的粗间距工具、现有的良率改进经验、现有的生产和质量控制和现有的晶圆探测/测试/；它还可以利用现有的 EDA、供应商、材料、测试/封装、可靠性/资格；还能与面板级工艺 (PLP) 互补以及完整的 HVM 供应链。

为此台积电认为，3D系统集成，是一个必然的发展方向。

具体到台积电方面，则是，3DFabric。局台积电介绍，这是公司全面的 3D 硅片堆叠和先进封装技术系列。3DFabric 补充了公司先进的半导体技术，以释放客户的创新能力。

台积电表示，封装技术曾被认为只是后端工艺，几乎不方便。时代变了。过去十年，计算工作负载的发展速度可能比过去四十年还要快。云计算、大数据分析、人工智能 (AI)、神经网络训练、AI 推理、高级智能手机上的移动计算，甚至自动驾驶汽车都在推动计算的发展。

现代工作负载将封装技术推到了创新的最前沿，它们对产品的性能、功能和成本至关重要。这些现代工作负载推动产品设计采用更全面的系统级优化方法。3DFabric 为我们的客户提供了自由和优势，使他们能够更全面地设计他们的产品，将其设计为一个微型芯片系统，与设计更大的单片芯片相比，这具有关键优势。

台积电的 3DFabric 包括前端和后端技术：所谓前端技术，即 TSMC-SoIC （集成芯片系统）采用了公司尖端硅晶圆厂所需的精度和方法，以实现 3D 硅片堆叠。台积电还拥有多个专用的后端晶圆厂，用于组装和测试硅片（包括 3D 堆叠芯片），并将其加工成封装设备。台积电 3DFabric 的后端技术包括 CoWoS 和 InFO 系列封装技术。

首先看CoWoS -S（带硅中介层的晶圆上芯片）平台，这是台积电为超高性能计算应用（如人工智能 (AI) 和超级计算）提供一流的封装技术。该晶圆级系统集成平台在大型硅中介层区域上提供高密度互连和深沟槽电容器，以容纳各种功能性顶部芯片/芯片，包括逻辑芯片，其上堆叠有高带宽内存 (HBM) 立方体。目前，高达 3.3X 光罩尺寸（或 ~2700mm 2）的中介层已准备好投入生产。

对于大于 3.3X 光罩中介层尺寸，台积电建议使用 CoWoS -L 和 CoWoS -R 平台。不同的互联选项提供更大的灵活性集成，以满足性能目标。

CoWoS -R（带有扇出型 RDL 中介层的硅中介层晶圆基板芯片）是 CoWoS 先进封装系列的成员之一，该系列利用再分布层 (RDL) 中介层作为片上系统 (SoC) 和/或高带宽内存 (HBM) 之间的互连，以实现异构集成。RDL 中介层由聚合物和铜线组成，相对灵活。这增强了 C4 接头的完整性，并允许封装扩展其尺寸以满足非常复杂的功能需求。

台积电表示，CoWoS -R 的主要特点包括：

1、用于布线的 RDL 中介层最多包含 6 个铜层，间距最小为 4μm（线宽/间距为 2μm）。

2、RDL 互连提供良好的信号和电源完整性，并采用较低的 RC 值布线，以实现高数据传输率。共面接地-信号-接地-信号-接地 (GSGSG) 和具有六个 RDL 互连的层间接地屏蔽可提供卓越的电气性能。

3、由于 SoC 和相应基板之间的热膨胀系数 (CTE) 不匹配，RDL 层和 C4/底部填充 (UF) 层提供了出色的缓冲。C4 凸块区域的应变能量密度大大降低。

CoWoS -L 是 CoWoS （晶圆上芯片）平台上的chip last封装之一。它结合了 CoWoS -S 和 InFO（集成扇出）技术的优点，使用中介层和局部硅片互连 (LSI) 芯片实现芯片间互连，并使用 RDL 层实现电源和信号传输，从而提供最灵活的集成。

CoWoS -L 的主要特点包括：

1、LSI 芯片用于通过多层亚微米铜线实现高布线密度芯片间互连。LSI 芯片可以在每个产品中采用各种连接架构，例如片上系统 (SoC) 到 SoC、SoC 到芯片组、SoC 到高带宽内存，并且可以在多种产品中重复使用。相应的金属类型、层数和间距与 CoWoS -S 的产品一致。

2、基于成型的中介层在正面、背面和传输信号和电源的 InFO 通孔 (TIV) 上具有较宽的 RDL 层间距，可在高速传输过程中降低高频信号的损耗。

3、能够在 SoC 芯片下方集成独立嵌入式深沟槽电容器等附加元素，以改善电源管理。

来到InFO方面，台积电也提供InFO-M和InFO-LSI两种解决方案：

首先看InFO-M方面：

1、InFO-M（chip first）和 InFO-oS 利用 InFO 技术，具有更高密度 2/2µm RDL 线宽/间距，可集成多个用于 5G 网络应用的高级逻辑芯片。

2、它可在 SoC 上实现混合焊盘间距，最小 I/O 间距为 40µm，最小 C4 Cu 凸块间距为 130µm，并且在 >65 x 65mm 基板上实现 > 2X 光罩尺寸 InFO。

再看InFO-LSI：

1、InFO-LSI（chip first）利用 InFO 技术，并采用更高密度的局部硅互连 (LSI) 来集成多个高级逻辑芯片。

2、它支持 SoC 上的混合焊盘间距，最小 I/O 间距为 40µm，最小 C4 Cu 凸块间距为 130µm，并且在 >65 x 65mm 基板上实现 > 2X 光罩尺寸 InFO。

台积电还通过TSMC-SoIC 服务平台提供创新的前端 3D 芯片间 (3D IC) 堆叠技术，用于重新集成从系统级芯片 (SoC) 中分割出来的芯片。由此产生的集成芯片在系统性能方面优于原始 SoC。它还提供了集成其他系统功能的灵活性。

TSMC-SoIC 服务平台满足云、网络和边缘应用中不断增长的计算、带宽和延迟要求。它支持晶圆上芯片 (CoW) 和晶圆上晶圆 (WoW) 方案。双重方案在混合和匹配不同的芯片功能、尺寸和技术节点方面提供了卓越的设计灵活性。

与 SoC 一样，TSMC-SoIC 平台与现有的先进封装服务（如 CoWoS 和 InFO）完全兼容，提供强大的“3Dx3D”系统级解决方案。

首先，台积电介绍了SOIC-X-C方案，据介绍，该方案：

1、SoIC 键合既可以应用于焊料微凸块，也可以应用于 SoIC 键合。它

适用于芯片对晶圆和晶圆对晶圆键合。

2、SoIC-X 键合可实现 Tier 2 芯片和 Tier 1 有源 Si 晶圆之间低于 10um 间距的键合密度。

3、SoIC 3D 堆叠适用于有源对有源堆叠。

再看SoIC-P：

1、SoIC-P 使用焊料微凸块对有源芯片进行键合和互连。

2、SoIC-P 利用现有的成熟 HVM CoWoS-S 组装工艺。

继续看SoIC-X-W：

1、SoIC-X-W 键合利用现有的 WoW 键合实现有源顶部晶圆和有源底部晶圆的键合和互连。

2、SoIC-X-W 利用现有成熟的 HVM WoW 组装工艺。

台积电表示，SoIC是3D硅堆栈Scalling up的一个选择。

根据规划，SoIC将瞄着这些目标前进。

对比MCM、CoWoS/InFO和SoIC，得出以下结果。

在CoW、WoW的 bonding overlya方面，则有以下结果：

如图所示，3D Fabric可以从各个维度继续微缩。

例如3DMiM、CoWoS-L/R、SoW

最后，台积电从光和异构集成方面对这个晶圆级系统集成进行了新的套套。

如图所示，台积电分享了高性能的光电集成方案，其中：

1、Type (A) 强制 EIC 和 PIC 采用相同的技术节点，因此随着带宽要求的提高，在经济上几乎不可行。

2、由于凸块或导线寄生效应，Type (B) 和 (C) 无法满足长期性能扩展。

3、Type (D) 是 SoIC Bond 选择的技术，它最大限度地减少了 EIC PIC 接口的寄生效应，因此在功率和性能方面表现出色。

4、请注意，图中的光纤仅用于说明目的。没有迹象表明使用的光纤耦合器 (GC/EC) 的类型。

首先，我们看DEOI：双电气和光学互连。台积电表示：

1、波导传播损耗可达 0.21 dB/cm，90 度转弯损耗为 0.009dB。

2、相邻波导之间的过渡损耗为 0.015 dB。

3、假设单波长、每通道 100 Gbps，估计的海滨带宽密度约为 44.9 Tbps/mm。

4、对于 HPC 应用，最大单通道数据速率上限为 32 Gbps，且无纠错，CI 可提供 14.4 Tbps/mm 的海滨带宽密度。

最后，台积电高管对其分享做了总结。

芯视点

讲芯片的故事，我们是认真的！