后摩尔时代芯片利器 | 高算力Chiplet的热管理技术研究进展

科技   2025-01-10 11:48   河北  

摘要:随着集成电路尺寸微缩逼近物理极限以及受限于光罩面积,芯粒(Chiplet) 技术将成为集成电路发展的关键路径之一,支撑人工智能和高性能计算不断发展。大尺寸、高算力Chiplet面临着热功耗高、热分布不均、热输运困难等挑战,Chiplet热管理已成为后摩尔时代集成电路发展的重大挑战之一。综述了可用于Chiplet热管理的关键技术发展趋势和现状,包含微通道冷却、相变冷却、射流冷却、浸没式冷却、热界面材料(TIM)、热分布不均的解决办法、多物理场耦合的研究等,为推进大尺寸、高算力Chiplet热管理的实际应用提供参考。

关键词:Chiplet热管理;微通道冷却;射流冷却;浸没式冷却;热界面材料;热分布不均

00

引言

随着人工智能、自动驾驶、云计算等技术的不断发展,尤其是拥有巨大参数量的超大规模生成式人工智能模型的应用,全球算力需求迎来爆炸式增长,人类社会进入算力时代。

高算力芯片是算力的载体,指数级增加的算力需求使芯片在性能和处理效率方面存在巨大挑战,提高芯片的集成密度是解决问题的关键之一。

2023年,NVIDIA推出的 GPU芯片(H200)采用台积电4 nm制程工艺量产,总晶体管数量约为800亿个。但是随着工艺节点逼近物理极限,芯片研发和生产成本不断上升,良率不断下降,遵循摩尔定律的集成密度提升速度放缓。

Chiplet技术是通过将芯片分割成较小的功能块,然后将这些功能块以2.5D/3D的方式集成在一起,以构建性能更强、更复杂的芯片系统。

相比于系统级芯片(SoC),Chiplet可以突破光罩面积的规模极限,突破集成电路发展的“面积墙”,通过异质集成的方式可以实现更多功能的集成,突破集成电路发展的“功能墙”。

此外,Chiplet面积较小,可以有效降低流片成本,有利于提升良率,通过敏捷开发的方式可以极大地缩短周期,进一步降低成本。

Intel和AMD分别推出了 PonteVecchio处理器、MI300X处理器等Chiplet产品,其中,Ponte Vecchio处理器集成了47个功能单元(包括16个计算单元),MI300X 处理器内置了56个计算单元。因此,Chiplet技术将成为后摩尔时代集成电路发展的关键路径和突破口。

01

Chiplet技术带来的热挑战

在微处理器40多年的发展中,晶体管数量呈指数级增加,但是典型的热设计功耗(TDP)在最近20年基本保持在100~200 W,导致芯片性能提升缓慢,集成电路发展受到“功耗墙”的严重制约。

图1 微处理器发展趋势数据
微处理器发展趋势数据如图1所示,相比于SoC,基于异质集成先进封装的Chiplet可以实现更大面积、更多功能、更高密度的芯片集成,但也导致总热功耗增加、热分布不均、封装中的热输运困难,同时存在严重的多物理场耦合效应,给热管理带来了更加严峻的挑战。

1.1 总热功耗增加

为提升芯片性能,满足对算力的需求,预计未来单个GPU的TDP将突破千瓦级,由多个GPU芯片阵列组成的系统的TDP将突破万瓦级。

Intel在2022年新发布的 Ponte Vecchio GPU芯片中通过嵌入式多芯片互连桥接(EMIB)与 Foveros 技术将分属于 5个工艺节点的47颗Chiplet整合在一起,TDP最高可达600 W,而 Intel在 2022 年发布的基于 SoC 的 XeonW-3365 芯片的 TDP仅有 270 W,Chiplet在实现高算力的同时大幅增加了热功耗。

AMD在2023年发布的Instinct MI300X GPU芯片的TDP最高可达750 W,其结构如图2所示。
图2 Instinct MI300X GPU芯片结构
Tesla在2021年发布的Dojo,通过台积电的 InFO_SoW封装技术将 25颗 D1芯片整合在一起,其结构如图3所示。单个D1芯片的TDP为400 W,芯片集成模组的 TDP可达10000 W。
图3 D1芯片集成的模组结构
因此,热设计者将面临极大的挑战,提供更加高效的冷却技术对于支撑算力扩展具有重要意义。

1.2 热输运困难与热分布不均

目前高算力 Chiplet的封装方式主要为 2.5D/3D集成。

台积电的 CoWoS是典型的 2.5D封装,通过硅转接板或 RDL实现多颗芯片的互连和集成。主流的2.5D 封装还包括 Intel的EMIB。

3D封装是将 2颗或多颗 Chiplet在垂直方向上进行堆叠,通过硅通孔(TSV)、微凸点或者混合键合技术实现电气连接。典型的 3D封装有 Intel 的 Foveros 和台积电的 SoIC 技术。

相比于 2D封装,3D 封装的热管理问题更为严峻。3D 封装中底部芯片产生的热量必须通过微凸点层、层间金属布线层以及上层芯片进行传导,其中微凸点层的等效热导率较低,导致热输运困难。

Chiplet异质集成中不同的功能设计会显著增加封装中功率分布的不均匀性,例如,其中的电压调节器功率较高,会在芯片中形成新的高功率热点。此外,计算芯片中的热点热流密度高、产生速度快、局部性强。

在3D封装中,由于芯片厚度的限制,热点扩散困难且热点到热沉的热阻显著增大,局部热点将导致较大的峰值温度与严重的热串扰。为了应对 3D封装带来的散热挑战,美国国防部高级研究计划局(DARPA)在2023年发布了 Minitherms 3D开发计划,核心内容为解决3D封装内部芯片的热点扩散与热量输运问题。

1.3 多物理场耦合

2.5D/3D Chiplet 封装中具有电场、温度场和力场等多物理场的非线性耦合,在外部电场作用下,电子器件、互连线产生的焦耳热会引起温度升高,影响芯片的工作性能。

2.5D/3D Chiplet 封装结构具有多材料体系与跨尺寸的特点,系统运行时不同 Chiplet间的温差以及不同材料的热膨胀系数(CTE)不匹配会导致严重的热应力,产生翘曲、裂纹、分层等问题,使得系统功能衰退,甚至产生失效和破坏,因此需要深入分析多物理场耦合机制并开展多物理场协同设计。

同时,对于3D堆叠芯片而言,采用近结点微通道进行层间/层内冷却是一种比较有效的热管理方案,在这样的场合中,还必须考虑流体微通道的引入与电学互连线布局之间的交叉关系及其对芯片的热、电和力场的影响。

综上所述,高算力 Chiplet的高功耗、高集成度给热管理带来了严峻的挑战,提出一系列迫切需要研究的关键技术问题。目前国内外高校、研究机构或企业针对芯片热管理开展了包括微通道单相冷却、微通道两相冷却、射流冷却、浸没式冷却、新型 TIM、不均匀热分布调控、多物理场仿真与设计等方面的研究,并取得了一些进展与突破,有望用于高算力Chiplet的热管理。

02

高效对流换热技术

对流换热是将 Chiplet日益增加的热功耗排散到环境中的重要环节。传统的空气对流换热已经不能满足高功率、大尺寸Chiplet的热管理需求,必须采用对流系数更高的液体工质。常见的高效液体换热技术主要有微通道单相冷却、微通道两相冷却、射流冷却及浸没式冷却。

图4 3种冷却架构
根据热源到换热结构的热传导路径不同,冷却架构可以分为3种,如图4所示。第一种为远端冷却架构,芯片与热沉冷板之间通过2层TIM进行热传导。随着热流密度与芯片面积的增加,远端冷却能力越发不足。直接将芯片通过1层TIM与热沉冷板贴合,这种冷却架构为近芯片冷却架构。

相比于远端冷却架构,由于减少了1层TIM与热扩散层,近芯片冷却架构进一步提高了可冷却的热流密度。通过消除芯片和热沉冷板之间的TIM,直接在芯片衬底上刻蚀微通道,将流体引入其中进行对流换热的架构为芯片内嵌冷却架构。

芯片内嵌冷却的研究主要源于2011年末美国 DARPA提出的片内/片间增强冷却(ICECool)项目。基于液体换热的近芯片冷却架构和芯片内嵌冷却架构可以满足大尺寸、高功率Chiplet的散热需求,国内外多家高校和科研机构均在开展相关的研究工作,并取得了一定的突破和科研成果。但是如果考虑集成工艺的兼容性,相比于芯片内嵌冷却架构,近芯片冷却架构更有优势。

2.1 微通道单相冷却

2.1.1 微通道近芯片冷却

2006年,IBM的COLGAN等提出了一种交错式条状翅片并将其与歧管结合的近芯片冷却方案。当流量为 2.3 L/min 时,针对 361 mm2 的大尺寸单芯片,该方案可解决总功耗为 1.1 kW、平均热流密度为305 W/cm2 的冷却问题。

还有许多研究人员对斜翅片、圆柱翅片等不同微通道结构进行了大量的研究,相比于平直微通道,异形微通道在增加压降的同时,可以诱导流体二次流动,破坏原来稳定的流动边界层,从而强化换热。微通道翅片结构设计应根据具体的冷却需求,在压降损失和强化传热之间选择合适的方案。

2021年,中国科学院微电子研究所的CHEN等针对大尺寸、高热功耗芯片提出了一种基于近芯片冷却的设计方法与集成方案,通过歧管-硅-窄缝协同设计实现流体的均匀分布,采用钼铜材料制作歧管并通过焊料与硅冷板集成,其结构如图 5所示。当流量为1 L/min 时,针对面积为 625 mm2的芯片,该方案可实现总功耗为 1.2 kW、平均热流密度为 190 W/cm2 的有效冷却,芯片温升为 52.9℃。
图5 近芯片冷却冷板结构
2021年,台积电的 WU等在 VLSI 会议上针对高性能芯片提出了 2种近芯片冷却方案,结构如图6所示。
图6 2种近芯片冷却方案
第一种方案是在芯片与硅微通道之间采用氧硅键合进行集成,针对面积为 540 mm2的芯片,该方案可以在 83℃温升下,实现总功耗为 2.3 kW、平均热流密度为 426 W/cm2 的有效冷却。第二种方案是将界面材料换成液态金属,可以在 75℃的温升下,满足总功耗为1.8 kW、平均热流密度为 333 W/cm2 的芯片散热需求。
图7 硅晶圆冷却结构
2023年,IBM 的 COLGAN 等开发了一种直径为 300 mm的晶圆级系统歧管式微通道冷却方案,硅晶圆冷却结构如图7所示。该方案使用 SnPb 焊料将交错式翅片微通道冷却结构与热测试晶圆键合在一起,对于总功耗为 14 kW的晶圆,核心热点区域的最大温升小于 18℃。这项工作可以为未来超大尺寸、大功耗晶圆级集成的冷却提供参考。

2.1.2 微通道芯片内嵌冷却

芯片内嵌冷却在高性能芯片热管理方面具有巨大的应用潜力,与远端冷却和近芯片冷却相比,其可使总热阻显著降低。最早的芯片内嵌冷却由斯坦福大学的TUCKERMAN和PEASE在 1981 年提出,为了增强对流换热系数,在硅衬底上加工了宽度为 50 μm的微通道结构,在 790 W/cm2的热流密度下,芯片的温升被控制在 71℃以内。

2017年,佐治亚理工学院的 SARVEY 等研究了针对 400 mm2 FPGA 的芯片内嵌冷却方案,其结构如图8所示,当芯片的功耗为 32 W时,最大温升仅为 4℃。
图8 针对 FPGA的芯片内嵌冷却结构
2021年,台积电的 WU 等在 VLSI 会议上发表了一项芯片内嵌冷却的技术,针对高性能芯片,直接在芯片背面刻蚀微通道,可以在温升为 65℃的情况下,实现对 481 W/cm2 热流密度的冷却,相比于采用氧硅键合和液态金属的近芯片冷却方案,芯片内嵌冷却方案的热阻更低。

2022 年,北京大学的 YANG等提出了一种双 H型芯片歧管内嵌冷却结构,采用硅-硅键合工艺集成,其结构如图9所示。针对面积为400 mm2、功耗为 417 W 的芯片,在温升为 22.2℃的情况下,实现了对 104.3 W/cm2 热流密度的冷却。
图9 双H型芯片歧管内嵌冷却结构
许多研究机构都开展了针对芯片内嵌冷却的研究,提出了不同的微通道冷却方案,这些方案可以显著改善芯片热管理的严峻现状,但是在Chiplet热管理中引入芯片内嵌冷却需要提高冷却结构的长期可靠性,才能满足实际应用的需求。

2.2 射流冷却

2019年,斯坦福大学的 JUNG等制作了一种嵌
入式歧管冷却结构,该结构通过微射流的方式让冷却
工质垂直冲击热源下方。在 0.1 L/min 的流率下,该结
构针对面积为 25 mm2、热功耗为 62.5 W 的芯片,可实
现对 250 W/cm2 热流密度的有效冷却,将温升控制在
90℃以内。

2019 年,比利时微电子研究中心的 WEI等使用聚合物材料,通过 3D打印制造了针对高性能计算芯片的多喷嘴射流冷却模块,实现了对芯片局部热点的有效冷却,阵列射流冷却结构如图10所示。
图10 阵列射流冷却结构
在0.6 L/min的流速下,该结构实现了对功耗为 50 W、热流密度为 78 W/cm2、面积为 64 mm2 的芯片的冷却,芯片的最大温升被控制在 15℃左右,系统热阻可降至0.25 K/W,在外部泵功耗为 0.4 W的条件下,可以获得62500 W/(m2·K)的换热系数。

2.3 微通道两相冷却

微通道单相冷却技术可以实现对 500 W/cm2 以下量级热流密度芯片的有效冷却,然而当芯片热流密度达到 500 W/cm2甚至 1 kW/cm2量级时,单相冷却方案便不能满足冷却需求。采用两相冷却技术可以充分利用冷却工质的相变潜热,实现微通道冷却能力的进一步提升。

2017年,IBM 的 CHAINER等提出了微针肋强化换热的放射状微通道,该嵌入式相变冷却结构如图11所示。使用 R1234ze 冷却剂进行冷却,工质由中心位置进入并向四周流动。针对背景热流密度为350 W/cm2、热点热流密度为 2000 W/cm2的芯片,该结构可实现最高温升约为65℃。
图11 嵌入式相变冷却结构
2017年,斯坦福大学的 PALKO等提出了一种基于高导热金刚石和表面烧结铜球的相变换热微槽结构,如图12所示。该结构利用金刚石的优异导热性,可以有效地传导热量,利用烧结铜球表面的多孔特性,可以增加毛细力与相变传热的表面积。仿真结果表明,该方案可实现对 5 kW/cm2局部热点热流密度和1 kW/cm2背景热流密度的冷却,冷却结构内的最大温升为 5.6 K。

图12 基于高导热金刚石和表面烧结铜球的相变换热微槽结构
2018 年,普渡大学的 DRUMMOND等提出了分层歧管式微通道冷却结构,通过设计特殊的结构实现冷却剂循环,在热源温升为 47℃的情况下实现了对 910 W/cm2 热流密度的冷却,且进出口压差小于162 kPa。

2018 年,DRUMMOND等采用高密度 3D歧管微通道结构获得了高稳定的氟化液工质的流动沸腾换热,该结构可满足在 0.25 cm2面积上实现对1 kW/cm2以上热流密度的高效冷却,热点的热流密度可超过 2500 W/cm2。

2017年,佛罗里达大学的 FAZELI等提出利用疏水透气膜将沸腾液膜限制在疏水膜与换热面之间的狭缝区域,形成膜基薄液膜沸腾相变传热机制,通过外部压力与气液分离的协同作用,可以实现蒸汽的快速排出,增强相变过程的稳定性,从而提高临界热流密度。

2020年,ALIPANAH等通过薄液膜沸腾实现了对1 kW/cm2的临界热流密度的冷却。薄液膜沸腾换热结构如图13所示。
图13 薄液膜沸腾换热结构
在微通道中引入相变冷却可以大幅度提高冷却能力,但是由于通道内部的相变情况很难控制,在高热流密度冷却过程中会出现超过临界热流密度导致的换热失稳等问题,例如相分离不完全,系统接近干涸极限等,最终会导致芯片烧毁。

此外,对于工质的选择,需要考虑使用的压力与沸点范围,将系统内部各处压力控制在合理范围内,使得换热位置处的冷却工质始终处于气液两相状态。

2.4 浸没式两相冷却

浸没式两相冷却是将芯片完全浸入冷却液中,全部热量直接传递给冷却液,通过冷却液的沸腾与冷凝进行散热的一种方式。

2020年,伊利诺伊大学香槟分校的BIRBARAH等开发了一种浸没式冷却方法,利用聚对苯二甲酸酯涂层的电气绝缘性能,实现了PCB、电子设备与工质的隔离。使用水作为冷却工质,利用水优异的相变潜热提升冷却能力,成功实现了对热流密度为 562 W/cm2芯片的冷却。

2022年,台积电的LIN等提出了一种针对高性能计算的浸没式两相冷却方案,首次将浸没式冷却应用于TDP高达 900 W的 CoWoS封装上。基于蒸汽腔热管的浸没式冷却结构如图14所示,将蒸汽腔热管集成在芯片背面,可有效实现热扩散,避免浸没式沸腾失稳的发生。该冷却结构的热阻可达 0.0355 ℃/W,其在温升为50℃的情况下可实现对200 W/cm2热流密度的冷却。
图14 基于蒸汽腔热管的浸没式冷却结构
浸没式两相冷却属于池沸腾方式,针对较大面积的热源,其临界热流密度极限大约为 300 W/cm2。由于所有器件均可浸入冷却液中,不需要额外的风冷装置,因此浸没式两相冷却可以获得更优的电源使用效率(PUE),是未来基于高算力Chiplet的数据中心或超算中心主流的冷却方式之一。

以上总结了近期微通道单相冷却、射流冷却、微通道两相冷却与浸没式两相冷却的研究进展,典型冷却方式的冷却面积和单位面积热阻的对比如图15所示。
图15 典型冷却方式的冷却面积和单位面积热阻的对比
基于高算力 Chiplet的特点,未来的冷却方式应聚焦于大尺寸以及低单位面积热阻,因此,近芯片单相冷却、芯片内嵌单相冷却更具有优势,考虑到加工与集成工艺的兼容性,未来应该聚焦于近芯片冷却的研究。

理论上两相冷却具有比单相冷却更强的对流系数,未来需要提高相变的稳定性以提高临界热流密度,从而实现比近芯片单相冷却与芯片内嵌单相冷却更低的单位面积热阻与更大的冷却面积。

03

热界面材料

芯片通过TIM与热沉进行贴合,TIM在远端冷却和近芯片冷却中起到十分关键的作用。当热沉与芯片或热扩散装置贴合时,实际的接触面积占比只有宏观接触面积的 1%~2%,因此需要使用具有高热导率和延展性的TIM,以确保芯片热量能快速有效地传输和散发。目前针对TIM的研究是多路并行的,常见的材料主要分为聚合物和金属2种类型。2021年,异构集成发展路线图便给出了各类TIM的开发路线,如图16所示。
图16 各类 TIM 的开发路线
3.1 聚合物TIM

聚合物 TIM是目前市面上应用范围最广的TIM,按材料状态可以分为脂类、垫类、凝胶类、相变材料类。其中,导热硅脂是一种常见的膏体TIM,它可以减小接触面的空气间隙,具备较优的导热性能,但是由于导热硅脂泵出效应明显,长期使用中导热硅脂的溶剂会挥发,导致导热硅脂变干,降低了其可靠性。

此外,导热硅脂的热导率偏低。而导热垫、导热凝胶和导热相变材料同样也表现出有限的导热性能。典型聚合物TIM的热导率分布如图17所示,目前商用聚合物TIM的热导率通常不高于 10 W/(m·K),未来聚合物TIM的发展应聚焦于热导率的提高。
图17 典型聚合物TIM的热导率分布
3.2 金属TIM

传统聚合物TIM的热导率低,难以支持高算力Chiplet的冷却需求。金属TIM的热导率高,且通过焊接能够在接触界面形成连续的热通道,显著降低热阻。但是,金属 TIM的模量较高,会在封装中引入较大的应力。针对未来的大尺寸、高算力 Chiplet,需要开发兼具高热导率和低模量的金属TIM。

3.2.1 焊料TIM

目前业界最常见的商用金属TIM为铟,铟的模量较低,能够贴合于焊接面并吸收内部应力,纯铟的热导率为 86 W/(m·K),熔点为157℃,是理想的金属TIM。AMD采用铟作为高端处理器的TIM,但是铟的价格高且供应量有限。出于成本考虑,以 SnAgCu 合金为主的无铅焊料也被广泛用作TIM,但 SnAgCu合金的机械性能和可靠性不如纯铟。通过将焊料基体与填料或其他纳米结构材料相结合,可以获得高热导率并改善其机械性能,这是焊料TIM目前的发展方向。

3.2.2 液态金属TIM

以镓基液态合金为代表的液态金属也可以用作TIM,常压下其熔点小于 29.7℃,具有出色的流动性,可以显著降低热应力。但是液态金属具有较大的表面张力,难以与接触表面实现紧密结合,并且液态金属泄漏导致器件短路的风险很大,一定程度上限制了液态金属TIM的发展。

中国科学院理化研究所的GAO 等发现纳米级的镓氧化物可以改善其润湿性,镓在不同金属表面的润湿性如图18所示,纯镓在铜表面的润湿性较差,但通过在镓中添加氧化物,可以使其均匀地涂抹在铜、钢和硅的表面。引入氧化膜是提高镓基液态合金作为 TIM的性能的有效方法。
图18 镓在不同金属表面的润湿性
3.2.3 微纳结构金属TIM

为了有效发挥作用,金属TIM必须在合理的装配压力下与配合表面保持良好接触,其厚度必须足够大,以适应配合表面的不规则性和非平面性。虽然铟作为TIM的热导率很高,但是它对非平面和高粗糙度表面的适应能力有限。

为了增加铟的塑性,并在接触界面形成连续的高导热通道,铟泰公司的 KEMPERS等开发了一种微纹理铟基TIM,该TIM表面有一些小尺寸(0.1~1.0 mm)的凸起纹理,这些凸起纹理经过压缩后会发生塑性变形,可以更好地适配接触界面,改善了普通铟膜的填隙性。
图19 微纹理铟基TIM压缩后的形貌
微纹理铟基TIM压缩后的形貌如图19所示。这种具有微纳结构的TIM可以显著降低热阻,相比于石墨垫 TIM,微纹理铟基 TIM 可以将设备的温度再降低 14.9℃。在实际应用中,对微纹理铟基 TIM进行系统功率循环测试,在从零功率到全功率的 100 次循环中,设备的温度保持恒定。

TIM种类繁多,如何实现高导热和低模量之间的平衡是现阶段TIM发展的重点和难点。对于大尺寸、高算力 Chiplet 的热管理,理想的TIM应具有以下特征:高热导率、低模量、良好的CTE匹配性。由于聚合物TIM热导率的提升比较困难,铟基TIM与液态金属TIM在未来大尺寸、高算力 Chiplet热管理中将有更加广泛的应用。

04

3D封装的冷却技术

为了应对3D集成芯片的散热挑战,DARPA 的微系统技术办公室(MTO)发布了 Minitherms 3D开发计划,旨在研究和开发紧凑型热管理技术,具体目标包括:5 层的3D堆叠、总散热大于 6.8 kW、散热系统体积小于 0.006 m3。

针对 3D封装的冷却,佐治亚理工学院取得了一系列研究成果。2008年,SEKAR 等提出了基于 TSV技术的嵌入式微通道冷却结构,如图20所示。该结构可以将热流密度为 102 W/cm2 的芯片温度冷却至52℃。
图20 基于TSV技术的嵌入式微通道冷却结构
2013年,ZHANG等提出了与TSV技术兼容的微通道热-电协同设计。2014年,OH等制备出具有高深宽比的TSV以及细间距的微型翅片热沉,并且实测了热沉的冷却性能。2015年,SARVEY等制作了3D堆叠的嵌入式冷却结构样品。

2010年,IBM的BRUNSCHWILER等提出了一种3D芯片堆叠冷却结构,如图21所示。针对面积为1 cm2、总功率为390 W的堆叠芯片进行冷却,最高温升为 54.7℃。
图21 3D芯片堆叠冷却结构
2018年,BRUNSCHWILER等提出了一种双面微通道冷却方案,实现了对3D堆叠芯片的冷却,结构如图22所示。芯片上方为冷板,冷板与芯片之间采用TIM 进行贴合,芯片下方为TSV转接板内嵌微通道。当冷却液流率为 0.66 L/min 时,400 mm2的芯片可以承受 304 W的热功耗,最大温升为 13.1℃。
图22 双面微通道冷却结构
利用微通道对3D封装进行层间/层内冷却是一种有效的冷却方案,相比于2D封装,3D封装在进行层间/层内冷却设计时,其芯片、互连线和微通道的设计更加复杂,集成度更高,因此在保证电气互连的前提下实现冷却结构的可靠集成存在巨大挑战,这类方案在实际应用中的可行性不高。而相比层间/层内冷却,双面冷却的方式更具可行性,且通过混合键合的方式,可以降低3D芯片之间的热阻,未来双面冷却将是一条可行的路径。

05

不均匀热分布调控

在大尺寸、高算力Chiplet中,高热流密度局部热点的存在最容易引起热分布不均,这将导致芯片内部产生较大的温度梯度、热串扰与残余应力,降低芯片的可靠性,有效的热管理需要降低局部热点的温度。

5.1 固定位置热点的调控

热电冷却是一种降低芯片热点温度的有效方法。佐治亚理工学院的SAHU等将热电冷却结构(SLC)和微流道集成在芯片一侧,将热电冷却结构设置在局部热点区域,对于热流密度为 300 W/cm2的热点,可以将热点区域的温度控制在 300 K。该热电冷却结构如图23所示。
图23 针对热点的热电冷却结构
针对热点区域的散热,改变该区域的翅片密度是一种常见的有效方法。2015年,苏黎世联邦理工学院的 SHARMA等提出了一种针对热点的多核微处理器嵌入式冷却结构,通过加密热点区域的翅片来实现对不均匀热分布的调控,面向局部热点的嵌入式冷却结构如图24所示。在 40 kPa的压降下,当热点热流密度为 300 W/cm2、背景热流密度为 24.2 W/cm2时,最大温度不均匀度可下降 30%,最大温升可降至 15℃。
图24 面向局部热点的嵌入式冷却结构
2015年,佐治亚理工学院的 SARVEY等通过对局部翅片进行加密使其对单个热点形成冷却能力。热点尺寸为 500 μm×500 μm,背景热流区域尺寸为1 cm×1 cm,热点处功率密度为 500 W/cm2,背景热流区域的功率密度为 250 W/cm2,在不同的流速下,热点区域与背景热流区域的温度差异最大为 0.4%。局部翅片加密结构如图 25所示,采用这种方法可以实现很好的均温性,但是局部的翅片聚集会带来更高的压降。
图25 局部翅片加密结构
5.2 微通道自适应调控

5.1节提到的技术在冷却固定位置热点方面有显著作用,但热点在芯片的实际工作中会随机出现,而且会随时间变化,因此无法准确预测其位置。用于固定位置热点热管理的强化传热技术将失去其冷却能力,引起泵功浪费。因此,许多研究人员开发了微通道自适应冷却技术,可以有效防止芯片的局部热失效。

2015年,中国科学院工程热物理所的 WANG等采用形状记忆合金(SMA)调节阀门开度比,实现不同发热情况下的相变冷却。可变形微细强化散热结构如图26所示,当区域温度升高时,SMA 微结构伸展,表面汽化核心增加,可使换热系数提升3倍,但由于成本较高,该方法目前无法在实际的大规模工业中应用。
图26 可变形微细强化散热结构
2020年,重庆大学的 YAN等集成了智能分形微通道热沉与热敏水凝胶,在流道的一级和二级分支中分别加入了热敏水凝胶。嵌入的热缩温敏型水凝胶能够响应芯片局部热点的温度变化,并在一定温度条件下发生体积变化,实现流道分流时的自适应调控和分支流道内的流量交换,进而实现流量的自动重新分配。该方法可以快速带走芯片局部热点的热量,有效防止局部热失效,维持芯片表面温度的均匀性。

2021年,南京理工大学的 LI等开发了一种热敏水凝胶微阀结构,可以自适应调节流量。微阀结构如图27所示,随着温度升高,微阀体积发生收缩,流量增大,这种微阀可以有效地提高温度均匀性,使不均匀热源的表面最高温度降低 22℃,使温度差异减少了14℃。
图27 热敏水凝胶自适应调节微阀结构
5.3 高导热材料的均热技术

高导热衬底材料可以消除局部热点,缓解 Chiplet热管理中热分布不均的情况。具有极高热导率的金刚石材料已经成为器件的理想衬底材料,例如通过将金刚石集成到 GaN 器件附近,可以显著降低热阻,有效排散 GaN 器件产生的热量。美国 DARPA 在 2011年启动的 ICECool 项目,其中有一项就是采用金刚石等高导热材料代替常规的 SiC 衬底,最近推动的THREADS 技术也同样明确了金刚石等高导热材料的使用。

2015 年,英国航空公司的 CHU等开展了针对GaN-金刚石的低温键合方法的研究,获得了金刚石基的GaN器件,金刚石基GaN与SiC基GaN HEMT的红外热成像结果如图28所示。在频率为10 GHz、漏极偏压为 40 V的条件下,金刚石基GaN HEMT 射频器件的最大功率密度可达11 W/mm,比传统的 SiC基GaN HEMT高出3.6倍。
图28 金刚石基GaN与SiC基GaN HEMT的红外热成像结果
2024年,ZHONG等将金刚石低温键合技术与玻璃转接板技术相结合,首次实现了将多晶金刚石衬底集成到玻璃转接板封装芯片的背面,图29为其结构示意图。
图29 金刚石衬底与玻璃转接板封装芯片集成结构示意图
利用金刚石的超高热导率,在芯片热点功率密度为 2 W/mm2时集成金刚石散热衬底,使得芯片的最高结温降低了24.1℃,芯片封装热阻降低了28.5%。

微通道自适应调控与高导热材料均热技术都可以实现超过20℃的降温,因此微通道自适应调控与高导热材料均热技术均具有有效性和实用性。

06

多物理场协同设计

由于大尺寸、高算力 Chiplet 的特征尺寸更小,布局更加密集,因此基于冷却能力、信号传输性能、结构强度的流-热-电-力协同设计是实现 Chiplet 先进封装的前提和基础。目前业内主要采用有限元仿真软件如 ANSYS 和 COMSOL 对 Chiplet 的电磁场、流场、温度场、应力场进行耦合分析。

2015年,美国洛克希德·马丁公司的 DITRI 等研究了由芯片发热和流体压力引起的应力,流-热-力耦合下的应力分布如图30所示,通过仿真获得整体结构的第一主应力,该应力值小于芯片的安全应力阈值,证明了微通道冷却工作的可靠性。
图30 流-热-力耦合下的应力分布
2016年,美国佐治亚理工学院的 OH等对比了风冷和 TSV转接板内嵌微通道对芯片温度的影响,如图31所示。采用 TSV转接板内嵌微通道冷却方法可以有效降低芯片温度,减小热串扰。
图31 风冷和 TSV 转接板内嵌微通道对芯片温度的影响
OH等通过分析液体冷却对TSV电气特性的影响,发现使用水作为冷却剂的通水 TSV 具有更大的电容和电导。对比结果如图32所示。
图32 通水TSV与TSV的电容、电导对比结果
2021年,中国石油大学的 WANG等针对 TSV转接板内嵌微通道的热-力-电协同设计进行了研究,应力仿真结果如图33所示,TSV直径增加,可以提高冷却能力,但是会导致局部热应力增大。
图33 TSV内嵌微通道应力仿真结果
封装技术推动着芯片系统向更高频率和更高功率的方向发展,给封装设计带来了挑战。在封装设计过程中,应尽早采用数值方法进行探索和试错,降低实验成本。多物理场仿真可以帮助评估 Chiplet 设计性能参数、提高可靠性并改善封装方法。

针对 Chiplet 热管理进行多物理场设计,要综合考虑冷却性能、信号传输性能、结构强度,从而获得先进可靠的封装结构,才能推进先进冷却方案的实际应用。

07

结束语

高算力Chiplet是支撑未来算力需求的关键之一,热管理已经成为高算力芯片发展的严重障碍,未来针对大尺寸、高算力Chiplet的热管理应该基于以下几个方面进行突破。

换热技术方面的突破。微通道近芯片冷却与芯片内嵌冷却通过增加换热表面积以及外部驱动,可以满足极高热流密度芯片的需求,但是芯片内嵌冷却存在工艺兼容性差等问题,未来近芯片冷却更有优势。

针对3D集成的冷却,考虑流体互通与电气互连极大地增加了设计与制造的复杂性,片内/片间冷却基本不可行,需进一步研究双面冷却并结合混合键合的方法以解决3D集成的冷却难题。

基于微通道的两相换热可实现最高的冷却能力,但实现高热流密度下的稳定相变是关键点也是难点,需要研究新的机制实现微通道下高稳定的相变。

浸没式两相技术已经用于数据中心的冷却,但由于绝缘冷却工质的物性以及池沸腾方式的限制,较难满足未来数百瓦每平方厘米热流密度的冷却要求,需要开发热导率更高的热扩散层或者提高工质的潜热。

热点均温方面的突破。通过在固定位点集成热电冷却结构或局部流道加密只能满足固定位置热点的冷却,不具有实用性,因此应该着力研究自适应微通道调控与高导热材料均热的技术方案。

其中自适应微通道调控,需要选择或开发循环可靠性好、成本低以及便于集成的材料与相应工艺。高导热材料如金刚石,需要重点解决低界面热阻低温键合工艺以及降低材料成本。

热界面材料方面的突破。在 Chiplet 热管理的界面材料选型中除了要考虑散热性能,开发高导热、低模量 TIM 材料,还应考虑长期可靠性以及对封装可靠性的影响。需要重点开发液态金属以及新型高导热材料并关注在Chiplet封装体内的 CTE匹配、老化机理以及寿命评估等。

多物理场协同设计方面的突破。在大尺寸、高算力Chiplet封装中,如何优化热、电传导,避免应力破坏是实现异质集成的关键问题之一。需要准确预测封装结构在多物理场耦合中的状态,综合考虑冷却性能、信号传输性能、结构强度,在跨尺度下形成完整的设计方法。

来源 | 电子与封装

作者 | 冯剑雨,陈钏,曹立强,王启东,付融

声明 | 转载仅供读者参考,并不代表CDCC的观点,如有涉及版权等问题,请联系我们,24小时内删除。

关注我们获取更多精彩内容


往期推荐

● 字节跳动团队:超大规模数据中心应用浸没式冷却解决方案

● 某数据中心空调系统深化设计的探讨

● 最佳演讲人气王 | 郝玉涛:百度AIDC高算力基础设施创新实践

● 发挥冷却潜力:液冷数据中心调试指南


CDCC
数据中心标准、技术沟通交流平台
 最新文章