文章信息
数据中心芯片级间接液冷技术与强化传热进展
尹瑞1,尹少武1,2,杨立坤1,童莉葛1,刘传平1,王立1
1北京科技大学能源与环境工程学院,北京 100083;2新疆工程学院能源工程学院,新疆 乌鲁木齐 830023
引用本文
尹瑞, 尹少武, 杨立坤, 等. 数据中心芯片级间接液冷技术与强化传热进展[J]. 化工进展, 2024, 43(11): 6010-6030.
DOI:10.16085/j.issn.1000-6613.2023-1761
摘要
为了满足高热通量数据中心的工作需求,液冷技术得到国内外学者的重视与研究。间接液冷比传统的风冷技术更具效率、更节能,但较直接接触式液冷传热能力有所减弱,因而强化传热就成为间接液冷的研究重点。此外,间接液冷存在安全或成本问题,如漏液、系统复杂等,因而基于技术优劣、将不同技术综合利用也成为当下数据中心冷却系统有意义的研究方向。本文对这些关键方面进行全面回顾,系统分析了当前单相、双相以及热管冷却在芯片级数据中心冷却的应用现状以及研究进展,从流体动力、介质材料以及流道设计优化三个方面梳理了芯片间接液冷中强化传热的途径。还整理了复合不同技术的芯片级数据中心冷却方式,主要包括单相冷却及热管冷却、相变材料与单相冷却或热管的组合,旨在探索更加节能高效的冷却形式。未来数据中心间接液冷仍需要在散热效率提升及技术复合方向进行拓展。本研究能为提升高温数据中心的冷却效率、拓展间接液冷技术应用提供参考。
随着设备功率和散热密度的日益增加,数据中心的散热需求也在不断改变,以往由于发热量低而被忽视的“热点”等问题,现已成为服务器乃至芯片功率增加的瓶颈。国内外学者在气流组织设计、制冷各环节的协同优化与节能增效等方面持续研究并在实际应用中取得了成效,但在传统风冷日渐难以满足服务器CPU等发热元件的最低冷却需求的当下,效率更高的散热介质和形式成为数据机房散热的研究重点。
在此情况下,液冷为散热系统的革新提供了新思路。以高比热容的液体作为散热介质的液冷相比以空气为散热介质的风冷虽然成本高,但效率更高。其中间接液冷相比直接液冷能够避免液体直接接触电子元件,是比较保守、较为安全经济的液冷方式。此外,复合其他技术如有储能作用的相变材料等在热管理领域或有平衡温度、应对极端工况等作用。现有研究中有很多关于数据中心的综述,但是专注于高温数据中心芯片级间接液冷以及不同技术复合的系统综述仍然需要补充细化,本文旨在梳理这些关键内容。
本文系统分析了间接液冷技术在数据中心芯片级冷却中的研究进展,梳理了单相冷却、两相冷却及热管冷却的散热方式,总结了间接液冷领域强化传热的方式以及技术复合,如单相冷却与热管、热管与相变材料等的研究成果,旨在为高温数据中心的散热研究拓展思路。
1
数据中心间接液冷技术机理
间接液冷技术基于热传导原理。热量从高温电子元件传递到冷却液体,再通过热交换器将热量排出,这一过程利用冷却液体的流动和物质内部的热传导。数据中心间接液冷利用比空气热物性更佳、导热速率更快的液体对数据中心进行热管理,允许更高的冷却剂温度,从而减少能耗以获得更佳的电源使用效率(PUE)。在间接液冷系统中,热传导方程解释了冷却液体如何吸收电子元件的热量,然后将热量传递到外部环境。其一维形式如式(1)。
式中,T为温度分布;t为时间;x为空间坐标;α为热扩散系数,描述了材料的热传导性能。
相对于单相冷却,两相冷却中相同质量的液体可以吸收或释放更多的热量,具有更高的热冷却容量。液体在相变期间温度恒定并产生冷却效应,十分符合数据中心内高热量密度及高性能计算的电子设备散热需要。在液冷系统的两相冷却中,液体达到饱和蒸气压后吸收热量发生液态到气态的相变,称为蒸发或沸腾,这一过程中吸收的热量通过潜热表示,如式(2)。
式中,Q为潜热,J;m为物质的质量,kg;L为物质的潜热,J/kg。
热管冷却的换热效果通常涉及热传导、对流和相变等多个复杂的物理过程,没有一个单一的公式能够全面描述它的性能。然而,热管的性能可以通过工质特性、长度、截面积、工作温度差等关键参数来衡量和分析,通常需要结合数值模拟和实验来评估优化,并使用复杂的热传导方程、热平衡方程和热流动方程来描述其换热过程。
2
数据中心间接液冷技术
数据中心液冷技术可大致分为直接接触式和间接接触式,见表1。前者是将部件甚至整机直接浸泡在液体中,通过液体循环带走热量;而后者利用金属板及其中的液体流动来散热,电子设备部件避免直接接触液体,可以分为单相冷却、两相冷却以及热管冷却三种形式。单相冷却是传统的间接液冷散热器,在相同位置替换传统的风冷散热器;两相冷却使用具有蒸发和冷凝功能的冷却介质,提供更高效的冷却;热管冷却主要发挥移热效果,在数据中心芯片级的散热中往往需要结合主动散热技术。
表1 液冷分类
2.1
芯片级单相冷却技术
单相冷却使用单一状态的液冷介质,通常是液态水或其他高热传导性液体,将热量从芯片传递到散热器,然后通过外部冷却系统散发到环境中,可以被视为冷板式液冷的子类别。20世纪中期,一些大型计算机开始使用液冷散热器来冷却主要的计算部件。随后液冷技术在计算机和服务器领域得到更多应用与研究。在数据中心芯片级冷却中最普遍的单相液冷形式是作用于单个CPU的冷板即水冷头,冷却液通过分水器分流后进入机柜各层CPU上方,如高益兵等为刀片服务器设计的液冷系统。此外,为了降低泄漏风险,也有双重间接液冷的研究尝试,这种方式用外接冷板取代传统流体连接器,将接触芯片的流体循环完全封闭,虽然减少了泄漏风险,但也增加了热阻传热界面而导致热性能下降。如图1所示,Kheirabadi等利用热接触换热器在服务器内部形成封闭流体循环,实验工况下所耗能量比传统冷却系统多43%。
图1 系统
单相液冷技术的发展集中在改进散热结构、更高效的液冷介质以及引入智能化液冷控制系统等方面。利用紧凑微小的通道增加冷却表面积,对流道进行形状、尺寸等调整以平衡散热效果及压降损失,结合热源分布进行结构优化,增加湍流以消除热点、提高芯片的温度均匀性,国内外学者对这些方面的强化换热效果进行了全面深入的研究,包括常规形状流道及仿生拓扑结构的换热特性,甚至通过机器学习等智能算法形成性能最优的换热结构。然而应用于数据中心芯片级单相液冷的散热器尺寸较小,通过结构优化带来的性能提升有限,结构变化对机加工制造精度及成本也提出了更高的要求。在这种情况下,将高热传递性能材料如纳米材料和复合材料应用到散热器主体、均热板、封装、界面材料以及液体介质中,或应用直触式液冷板减少接触热阻,有望从不同角度改善传热过程。如英伟达2022年发布集成液冷的A100 PCIe GPU,应用了Direct-to-Chip液冷方案。此外,在数据中心单相冷却应用中,帮助实现更精确的温度控制和自适应冷却的智能化控制系统,以及便于安装、维护和升级的模块化设计是其落地的重要一环。如A·埃达里设计的用于数据中心的智能间接液冷机架,包括流量稳定的智能两相冷板及一级二级的可控流体耦合器。此外,单相冷却的节能优势及热回收潜力也得到了重视,肖新文对冷板式液冷系统制冷能耗及热回收效益进行研究。结果表明,在60℃的一次侧进水温度下系统可确保芯片正常运行,进水温度高达75℃仍能保证足够散热能力。高水温有助于提高节能效果和实现余热利用。这些趋势共同推动着单相冷却技术的不断演进,以提高冷却效率和可靠性。
2.2
芯片级两相冷却技术
与单相冷却不同,两相液冷中液体在热源上蒸发吸收大量热量,然后在冷却器上冷凝将这些热量释放,以实现更高效的热传导,也意味着更低的泵功率即可满足换热要求。Tong等提出的适用于数据中心的R744两相热虹吸回路系统,可以在5℃的小驱动温差下工作。Ma等设计的泵驱两相冷却系统在10℃和25℃的室内外温差下制冷量可达3.429kW和9.241kW,远高于常规制冷系统。两相冷却的传热机制更为复杂,与之密切相关的相变工质的流动沸腾阶段就包括单相对流、饱和沸腾、膜沸腾等,涵盖气泡流、段塞流等流动模式。
气液比是两相冷却的核心优化参数。更高的气液比通常会提供更有效的冷却,因为气泡的存在可以增加流体的搅拌。但在微通道等尺寸较小的换热系统中,高气液比可能导致压降显著增大,增加泵功率需求。同时,高温区域生成大量气泡可能反向堵塞通道,影响流体流动,降低热点区域的热传递效率。在微通道散热器中,确保快速排气变得尤为重要。
气液比受工质特性、流量及热源热通量等共同影响。较大的制冷剂质量通量在强化对流换热的同时也会弱化沸腾换热,较小的流量流速和较高的热通量在两相冷却中会引起汽化现象增多,可能导致阻塞微小通道或者局部液膜蒸干,因此,换热系数可能随热通量的增加先增大后减小,也可能随流量增大先减小后增加。如杨文量等搭建的冷板两相循环冷却系统中不同热通量、质量通量下的冷却性能趋势都非单调变化。较大的热通量也会导致冷板内较大的蒸发压力,从而使制冷剂蒸发温度升高,继而抑制汽化。可见两相冷却中换热的影响机制复杂,需要综合考虑。此外,在两相冷却中,实际情况与液冷系统强化换热的理论存在差异。比如增加表面粗糙度理论上可以强化液冷系统的传热,但在Chen等的数据中心两相流冷却实验系统中,螺纹管的换热系数与光滑管相比没有明显的强化作用。总之,两相冷却中,强化换热需要重点关注单相强制换热与两相沸腾换热的转换。
尽管两相液冷和热管冷却都利用气液相变来传递热量,但两相冷却通常更加复杂,涉及更多的组件和控制系统,通常被集成到大型液冷系统中,以提供更广泛的冷却支持。此外,在微通道中实现两相冷却时,可能降低临界热通量,增强系统压力和壁面温度振荡,微通道中的流动沸腾不稳定性相较于大通道更容易触发。这使得两相冷却需要更复杂的设计和管理,包括控制系统来监测和维护液体循环。
2.3
芯片级热管冷却技术
热管基于两相冷却原理,液体和蒸汽两相在封闭管道中循环,通过液相吸热和蒸汽冷凝释放热量,以实现热传递,最早由NASA在20世纪60年代用于太空任务中的温度控制。热管冷却相较于两相冷却的主要区别在于,热管是封闭式、自包含的冷却装置,无需外部液冷循环,可将热量从芯片传递到散热器。这种方式适用于数据中心服务器局部的高效冷却。
热管技术单独使用时主要实现均热及快速移热,确保热源到热管整个长度的均匀热传递,防止热点形成。在改善热管冷凝段自然对流散热效率方面,曾乐业等设计了低热阻结构的热管冷板。该冷板通过将热管与紫铜块焊接,取代原有的紫铜块与CPU和GPU的接触方式,冷凝段采用楔块锁紧结构与机箱壁搭接,迅速将CPU与GPU的热量通过低热阻路径传导至机箱的上下侧壁,提高了冷却效率。此外,通过内部相变实现的均热板也能在数据中心提供温度均匀性,承担将芯片热量扩散开的作用,从而减少热通量,虽然通常不被视为传统热管或传统的间接液冷系统,但也是一种利用热管技术的热管理解决方案。如董德胜等研制的耐压型铝氨均温板,整体温差不到1℃。平板热管也可以提供均温功能,如图2所示,Li等利用平板脉动热管模块将中心热量散开后,再通过翅片自然对流散热。实验证明,该设计在最佳填充率范围内(75%~80%)成功解决了250W热功耗,总热阻为0.225℃/W,相较于市售铝制真空腔均热板,热阻降低了63.33%。这些解决方案在散热难题上表现出可靠高效的被动控温性能。
图2 1U服务器机箱的平板脉动热管模块装配
对于高功率密度的应用,热管冷却通常会结合额外的散热设备,以提供更强大的冷却性能。在服务器芯片级的间接液冷领域,热管通常贴合到芯片,快速传导热量至散热器翅片,通过自然对流或风扇冷却来散热。热管通常被弯曲或压制成特定形状后嵌入风冷散热器中,如Choi等模拟发现这样的设计可降低66.2%的风扇功耗。除了常见的单处理器风冷翅片散热器外,一些服务器整体散热器系统或机柜级热管理中也可能采用热管技术,热管将多个芯片的热量传递到一个散热器中,灵活有效地散发热量,被称作分离式热管。陈思晗利用穿插在服务器间的平板型蒸发器将热量传至机柜顶端后通过冷凝器排出。经仿真研究,CPU表面最大温差不超过3℃,热点温度由114.94℃降至70.15℃,数据机房PUE值由2下降至1.67。黄俊等设计了一种环路热管系统,如图3所示,利用毛细孔产生毛细力克服传统热管长度和方位限制,通过工质相变将元器件热量传至机箱外冷凝段,再通过直肋翅片风冷冷凝。理论和数值计算显示该系统可确保高功率密闭计算机的安全稳定运行。
图3 环路热管系统原理
3
数据中心芯片级间接液冷强化传热
在数据中心芯片级间接液冷技术领域,强化传热是关键问题之一,旨在提高散热效率和降低芯片温度。间接接触式液冷因外壳和管道系统而通用性降低,散热效果相对直接接触式液冷也有所削减,需要在换热效率上进行提高以弥补结构上的不足。流体流动状态、传热介质选择及改性、流体工质选择及改性等可以影响冷却效果及热传导效率。为强化散热性能,研究和应用中重点关注冷却液、壳体材料以及流道方面的强化换热方法,包括对微通道、纳米材料、相态变化等的利用。本章将深入探讨在芯片级间接液冷系统中实现强化换热的关键方法和技术。
3.1
流体动力学优化
3.1.1 流速增加
增加冷却介质的流速可以提高热传导效率,强化对流换热。通常,流量与散热性能正相关且呈现边际递减趋势,Zhang等模拟的间接液冷服务器温控能力佐证了这一点。这种一般规律适用于数据中心单相冷却以及两相、热管冷却的多数情况。基于此,在间接液冷散热器的设计中应权衡能耗、系统复杂性、流动稳定性、材料强度和机房噪声要求等因素,选择合适的流速范围。
较高的流速能减少边界层效应,促进液体与热表面更有效接触,增加液体的剪切力,在两相冷却中还能让气泡更容易被破坏,干扰两相流流型从而优化换热效果。高流速可以将热量及时带出,在两相液冷中还能抑制气泡的膨胀,延缓拉伸气泡流、环状流以及蒸干现象的出现。在申利梅等用VOF方法对微通道内流型、散热效果的研究中,流速提升伴随着环状流、拉伸气泡流、弹状流的流型变化,在0.1~0.5m/s的范围内带来了换热系数的增大。
数据中心两相冷却与热管冷却中,流速增加对换热可能带来不利影响。在两相冷却中,过高的流速可能对气泡的形成和稳定性产生负面影响,减弱沸腾换热效果。流速增加会减少液体在热源表面的停留时间,可能减少气泡形成机会。杨文量等的直通道冷板两相循环实验中,高热通量下,冷却效果随流量增加不升反降;Chen等的泵驱两相冷却系统沸腾过程实验中,冷却剂的沸腾换热系数在不同质量流量下保持不变,均为这一规律的证明。此类现象说明流量会影响两相沸腾换热程度,而当流量增加带来的对流换热提升幅度未超过沸腾换热减小幅度时,增加流速并不能达到整体换热效果的提升。流速过大时,还可能发生流动失稳从而影响散热性能。在热管冷却中,若冷凝段被冷却速度过快,可能导致间歇振荡,进而影响系统稳定性,例如,Shang等研制的卧式平板脉动热管CPU冷却器,在高冷却风速下的运行表现不稳定。数据中心利用工质相变的冷却中,流速增加的关键在于流速与热通量匹配,能充分利用工质相变,达到最好的综合换热效果。实际应用中,需要仔细优化和调整流速等参数,以寻找最佳的两相冷却散热效果和气泡控制。
3.1.2 涡流与湍流增强
在冷却介质流动中引入涡流或湍流,可以增强整体或局部流体的混合和动能,显著增强传热并提高换热效率。其意义可以在Elliott等的研究中进行发掘,该研究通过遗传算法分析芯片散热对流面的传热系数,多目标优化后,热源的最高温度和温度梯度都比均匀分布降低了近5℃。因此,这种方式的优势在于具有整体混合与局部调节的灵活换热能力,通过在间接液冷中引入针肋阵列、射流等,就能很好匹配并实现散热设计的优化策略。在数据中心间接液体冷却中,流体从层流状态转变为涡流或湍流状态可以通过多种方式实现。
通过增大泵流量或改变通道设计来实现较高的流速。如Ghasemi等就对Al2O3-H2O冷却工质流量、通道数和通道直径对换热系数的影响进行了实验研究;Xie等利用球阀压电泵和多级Y形微通道集成的换热器,在极端热负荷下将CPU温度控制在55℃以内。增大泵流量是数据中心间接换热中极为普遍且便捷的强化换热方式,减小流体域的体积也可以起到提高流速的作用。由于会增大压降,这些方式在数据中心冷却的应用中需要依据体量和结构强度控制变化范围。
数据中心间接液冷实际应用中普遍的顶部进出口利用到了射流,如Chen等的实验中,进出口位于顶部与两侧相比,CPU平均温度、局部最高温度最多可降低8.49℃、11.37℃,且温度分布更均匀。这是因为顶部开口会引起流体冲刷CPU底部,切断层流边界层,最终换热效果更好。进一步减小进出口的尺寸大小也可以在进出口附近增加湍流从而提高传热速率。
改变通道形状或结构、通过添加障碍物或翅片等改变流动条件,能使流体的速度和压力发生变化,促使湍流的产生。在CPU散热器的流体域引入针肋阵列或挡板,可改变某一热点区域的流体流动,从而加强整体的换热效果。王宏标、王彬等研究了圆柱、棱柱、水滴型针肋以及长直型、弧形挡板等,数值模拟结果均表明,不同结构特征会对散热、均流性、压降等带来不同的改善。在王彬等的研究中,散热器四角增加导流结构、使用水滴翅柱时,芯片温度比传统型降低了52.1%和49.2%。还可以将规则光滑通道引入形状变化,增加流体路径、接触面、流动涡、通道表面与冷却液间的摩擦,如Siahchehrehghadikolaei等增加蛇形及螺旋式散热器的翅片(见图4)波长,导致温度降低7K、12K,提高了换热率。增加通道表面粗糙度也有类似潜力。
图4 蛇形和正弦螺旋翅片的CPU水冷散热器
类似地,还可以在芯片散热器通道中添加波纹结构或旋转装置,引入涡旋流动,增强底部热流体和顶部冷流体的混合,如涡流发生器。Wang等的模拟中,采用长0.08mm、高0.06mm的针翅组合结构后,矩形微通道的综合性能提高了30%。Feng等的实验和模拟中,添加插入式纵向涡流发生器,在雷诺数为414~1042时,小通道内的摩擦系数和努塞尔数分别增加了85.5%~246.1%和39.2%~102.0%。为获得热液性能和熵产的最优解,Das等采用TOPSIS决策技术得到了蝶翼涡流发生器尺寸流量的最佳输入参数,Li等采用非支配排序遗传算法获得微通道中双三角小波涡流发生器的最佳设计点,将Nu提高128.1%。调整夹角、距离、速度等设计参数,就能影响涡流的大小、方向和核心位置,改变速度、温度边界层的结构,实现优化设计。
添加可以改变流体黏度或流动性质的化学物质,也可以提高湍流的形成概率,如纳米颗粒。Nakhchi等用氧化铜-水纳米流体作为工质,在Re=14000时,Nu值比水提高了15.6%。Kumar等提出了改变控制因素获得的AHP-TOPSIS技术,用于计算氧化铝纳米颗粒及湍流促进剂的最佳设计参数。
3.2
导热材料与冷却介质选择
3.2.1 材料性能对换热的影响
高导热材料能快速高效地将芯片热量传递到冷却液,有助于维持较低的温度和更佳的温度均匀性。这对CPU冷却、对流换热系数和翅片散热片热效率均有良好影响,这在Siahchehrehghadikolaei等对散热片材料使用银、铜和镍的CFD研究中有集中体现。高热导率材料利于散热的规律同样适用于芯片的封装结构,毛春林等的仿真分析对此的研究中,在基板(BeO或Al2O3)和封装外壳(铜或环氧树脂)分别使用低热导率和高热导率材料,封装结构的温度差高达5℃。市面上高功率芯片的水冷散热器材质多为纯铜,较低功率芯片使用铝,这是散热效果提升与成本之间的考量。面向未来更高热通量的芯片散热需求,研究者持续探索数据中心散热可使用的高导热材料。
具有复杂表面或微纳米结构的导热材料可以增加散热面积及湍流,从而增加热传递,如开孔翅片、泡沫金属或其他多孔材料。Zhang等将CPU散热器材料替换为多孔铜,散热系数提高了28.5%,表面温度降低了10℃以上。Liu等的模拟中则将CPU表面最高温度降低了40℃。使用非常规材料时,流动传热特性会比常规材质更复杂。Zhang等的研究中多孔铜冷却能力随进出口压差的增大而增大,随着热流通量的变化基本不变。Liu等的模拟中压降提高了近100倍。此外,由于结构抗压性弱、无法作为壳体等独特的材质特性,使用多孔材料时需要调整水冷散热器结构。如图5将铜多孔介质镶嵌在方形冷却悬浮微通道中。
图5 使用多孔材料的CPU冷却器
除材料本身特性外,还可以对常规材质进行粗糙化、亲疏水等表面处理。沸腾传热中,内部疏水可降低气泡成核屏障,外亲水可防止传热表面被蒸汽膜覆盖;冷凝传热中,外亲水能降低液滴成核屏障,内疏水有利于液滴凝结。如Wan等的实验中,内疏水腔壁和外亲水翅片换热器的冷凝和沸腾换热系数分别是光滑换热器的3倍和1.8倍。Yuan等的实验中,亲疏水泡沫铜的换热系数比未处理泡沫铜高57%,在CPU 40W/cm2以上的热通量下可达4.15W/(cm2·K)。
3.2.2 冷却介质的选择
高比热容、高导热性是利于芯片散热的介质特性,黏性、通道阻塞、成本等也是要考虑的因素。数据中心的冷却液一般选择比热容高的水,部分芯片散热中也会使用导热性高的特殊工业冷却剂或导热油。
为提高导热性能,在基础液体中添加纳米颗粒形成导热性更高的纳米流体,在芯片散热中具有广阔前景。国内外学者从纳米流体的稳定性能、相关的物理性质如纳米颗粒种类、体积分数等方面来研究分析对芯片温度、散热器内部黏性阻力及压降等的影响。Chen等的模拟和实验中,采用了体积分数为9%的TiO2-H2O纳米流体,与水相比,纳米流体可使CPU平均温度降低4.54℃。王琛的实验中,在Re=50~400的范围中,质量分数为0.1%~0.5%的TiO2-H2O纳米流体比水的对流换热系数更大,且随质量分数增加而增大。此外,还有加入刚性非胶体颗粒的尝试,或对人体和环境的危害更小。
纳米流体存在长时间运行的稳定可靠性问题,这在数据中心长期免检运行中十分关键。影响纳米流体稳定性的因素包括颗粒浓度、粒径、工作温度、溶液pH和分散剂等。纳米颗粒浓度减小会导致流体强化传热性能下降,维持其浓度是保证散热效果的关键。对此,Wang等用超分子β-CD修饰TiO2纳米颗粒进行实验,流体能稳定50天以上。此外,纳米颗粒较大的比表面积、表面原子比例增多以及表面能的升高导致其易结合成团聚体,若发生团聚和沉积,除了会影响流体热导率,还会引起局部流动阻力的增加,甚至导致微通道堵塞,从而降低芯片冷却系统的性能。针对此,FlexeGRAPH公司开发出一种用于数据中心冷却的石墨烯增强的纳米流体,可以防止腐蚀、藻类和微生物生长,产品性质稳定,静态环境下5年后98%的颗粒仍均匀分布,同时泵送系统中也几乎未观察到沉淀。为提高纳米流体的稳定性,在制备过程中可以添加表面活性剂,进行电磁搅拌、超声振荡等。刘正伟在磁性纳米流体中加入CTAB分散剂、进行电磁搅拌和超声后,流体静置24h内未发生明显沉降。总体而言,纳米流体的稳定性问题需要引起足够的关注,特别是在长时间运行的数据中心冷却应用中。
两相冷却中使用的工质种类等对传热性能也有极大影响。如Tong等研究的两相热虹吸回路系统中,R744强化了流动沸腾传热且驱动温差较小,制冷剂侧热阻远小于以R22作为工质的散热器。Chen等的泵驱动两相流系统实验中,R410A较R134a具有更好的传热特性,多数情况下流动阻力更小。Zhang等的两相小通道冷板仿真和试验中,R1234ze(E)较R1233zd(E)系统的温度和压降性能更优。存在两相变化的工质的充注量也至关重要,过少导致的过沸、蒸干会使冷却循环失效,而过多也可能占据汽化空间而抑制沸腾。祝清晖的重力式环路热管实验中,进水的流量为0.8L/min、温度为30℃时,合适的R134a充注量占蒸发器容积的40%~60%,偏离此区间会减弱散热性能。在冷却介质中,还可以考虑加入相变冷却剂(如蓄热盐、相变蜡或某些液态金属合金),利用潜热来提高换热效率。
3.3
增强传热结构及流道设计
3.3.1 微通道与翅片结构的特殊设计
翅片为间接液冷中常见的结构,通过增加液体周围的流动路径和接触表面积来增强对流传热,适用于较高流速。在常规平行翅片上加入特殊设计可以进一步强化传热效果,如叉排式微肋阵通道、交错翅片、圆柱形针翅等。
微通道用于满足微电子芯片冷却中高表面积低流速的需求,尺寸通常在微米到毫米。微通道散热器由于截面小,易产生很高的压降,同时因为需要控制流速,前后流体的温差也会较大。为改善这一问题,学者们提出在微流道层上添加歧管层,利用流体流动进出口的增加来减少流体进出的距离和阻力,使流体更快速分配到热沉各处,多点垂直冲击热沉底部也兼具射流优势,见图6。Zhang等在传统芯片散热器微通道上集成歧管流场覆盖,显著降低了压降。Van Erp等在同一半导体的衬底内协同设计微流体和电子元件,含10个歧管的微通道冷却设备仅使用0.57W/cm2的泵送功率,就可以允许高达1723W/cm2的热通量。Kong等通过3D打印制作了这类散热器进行试验,有效热通量可达240W/cm2。在这类歧管混合微通道热沉的泵功率和总热阻预测中,杨敏等使用随机森林算法,决定系数超过0.94。
图6 增材制造的歧管微通道微小散热器配置
还有引导冷却剂直接进入电子器件的设计,比如有嵌入式冷却液输送通道的PCB电路板,这种设计可以消除当前数据中心服务器内部对于散热器的需求,大大降低能源消耗和空间占用。NeoGene Tech将硅芯片和PGA基板集成到一个高效液冷封装模块中,芯片晶圆直接接触位于热交换室外的蒸发器区域,柱状冷凝器和耦合散热片容纳在热交换室内,通过新IC封装方法实现了3D嵌入式液冷。
3.3.2 流道形状与尺寸优化
灵活采用直线、螺旋、曲线等不同形状,确保液体在流动过程中均匀分布并接触散热表面,能在低泵功率增加的情况下实现高冷却性能。Gorzin等将直流道改为蛇形流道后,底板温度降低11.2%,Nu数提高4.2倍。Bahiraei等与Siahchehrehghadikolaei等的研究中,螺旋通道的冷却效率在相同泵送功率下优于蛇形通道。Ghadikolaei等发现,蜘蛛网与叶片脉络底板设计相比,CPU最高温度降低了8.5℃。流道对气泡的分割能力会影响气相比例和气泡平均体积,光滑的几何形状也会使肋附近的局部流速更大,有利于气泡成核和分离。Rui等实验发现图7中带扇形凸起的微通道在流动沸腾过程中具有更优的热工性能,换热系数比仿特斯拉阀的微通道高45%,压降低25%。
图7 微通道图片
人为设计的特定形状逐步拓展到仿生和智能设计。这类设计一般以压降和热阻最小为优化目标,如Ozguc等使用均质化方法,使用增材制造工艺实现的拓扑优化微流道如图8所示;孟凡振等结合SIMP拓扑优化和胡杨叶脉络特征提取形成液冷板主次流道;凌云志基于仿生学设计了新型叶状三维脉动热管;Tang等实验证实了浪潮截面仿生结构的优化效果(图9),当浪潮关键形状倾斜角度为65°时,表面温度达到最低。
图8 拓扑优化的3D打印微通道散热器
图9 潮截面仿生结构原理
在热管中,可以调整管壳形状。Wang等研究了图10所示的不同热管布置方式,嵌入式热管H形布置的散热器整体性能最佳。
图10 不同热管布置方式的热沉
一般来说,流道宽度、深度会影响固液接触面积、容纳流量及液体流速,也会影响冷却液的温度均匀性,需要在传热效率和均匀性之间取得平衡。诸凯等采用正交实验法对水冷散热器的基板厚度、流道位置、流道数量和宽度进行了优化设计实验,发现流道宽度和基板厚度是影响芯片温度和散热器综合性能的最主要因素。Lahmer等的参数分析及三维研究中,一次通道高度降低时,通过换热器二次通道的换热量增加了52.8%,微处理器温度降低4℃;换热器厚度的减小也可改善微处理器的传热。王琛模拟发现,面积相同的情况下,矩形截面有最高的局部换热系数;在矩形、三角形以及梯形截面中,高宽比大、水力直径小对传热系数、热阻及压降都有正面影响;矩形微通道散热器在高宽比为8.400~10.886时散热性能最佳。
流道长度解释为液冷通道的延伸距离,长流道可以提供更多的接触时间,但也可能增加流体的压降。Choi等利用实数编码遗传算法优化回路热管结构变量,使工作站冷却系统能运行多核CPU,200W的CPU最高温度为50.7℃。
调整翅片间距能够改变换热表面积和流体速度,获得更好的热性能,也会影响流体力学性能和压降。Manoj等使用Open-FOAM的微通道散热器研究中,随着翅片数量从0到16,传热系数和压降分别增加27%和49%;对于500~1000的6个不同Re值,传热系数随板数的增加而增加。Nada等将冷板流道数量从8个增加到12个,将服务器散热需水量降低了91%,泵送功率提高了50%。
在流道中引入变化的形状可以改变流速和流动方向,从而影响传热。倒角是一种常见的简易方式,通常用于缓冲拐角带来的流动变化,在数据中心芯片的间接液冷散热器中普遍应用。Tan等设计了360°扭曲的微通道,如图11所示,使Nusselt数增加了16.48%,在压降几乎没有增加的情况下增加了湍流强度,大大提升了换热效果。Zhang等实验研究了图12所示的交错通道的双层梭形通道冷板,比矩形冷板温度降低5℃,压降降低10~20kPa,还促进了沸腾过程。
图11 扭转角度为360°的微通道
图12 冷板的内部通道设计
3.4
物理状态和环境条件调整
在单相冷却中,热量主要通过液体传导和对流,一般可以忽略温湿度等外界环境因素。而当散热器或介质材料改变后,一些环境因素如磁场也会影响散热器整体的散热性能。
众多研究者们通过数值模拟和实验研究了电场强化纳米流体传热的影响因素,包括重力、纳米颗粒体积分数、雷诺数等。外加电场应用于数据中心以帮助解决芯片散热难题也是当下的研究热点。王冠楠模拟了电泳效应对纳米流体换热的影响,并通过改变电场分布等方法提高微通道散热器的传热能力。Izadia等通过解析模拟和实验发现,更强的磁场有利于增强多孔泡沫金属散热器的冲击冷却换热。
磁流体的利用可以使流动更加复杂,在倾斜的磁场下,磁场力沿主流速度方向的水平分量会加快磁性纳米颗粒的移动速度,垂直分量会加强纳米颗粒对边界层的冲刷,从而增大传热系数。此外,磁性纳米颗粒可以通过磁场作用在传热方向上形成热通道,通过携带热量的粒子的运动来增大能量传递。Qi等研究了使用Fe3O4-H2O纳米流体的CPU散热器,发现增大磁场强度和旋转角度有利于降低CPU表面温度,还有利于提高㶲效率和减少熵产。在磁场强度0.015T和旋转角度60°下,质量浓度为0.3%的纳米流体的热性能比水最大增强136.2%。
现代服务器设计通常考虑到电磁兼容性和电磁干扰标准,但芯片级散热器的磁场环境是否在服务器电磁屏蔽设计的服务范围之内,还需要进行确认。磁场强化换热技术在数据中心的应用虽有相关研究,但相关实验使用模拟发热装置,模拟条件也未考虑磁场对芯片使用状态的干扰,缺少使用真实芯片和机房环境下的实验研究和电-热-力多物理场耦合的数值模拟,需要进一步研究来更准确评估磁场强化换热技术在数据中心中的适用性和优势。
两相冷却中,被冷却元件的发热功率以及放置方向会影响冷板的流动均匀性和压降,从而影响其换热性能。Zhang等进行R1234ze(E)两相流冷板的模拟及实验研究后指出,应当尽量避免放置垂直于重力方向的平行通道,冷板内部弯管应放置在进液侧。
热管散热器在不同环境条件及自身状态下散热表现不同。一方面,热管冷却通常要结合其他的冷却设备如冷凝器等将热量散出系统内部,因此其换热效果大大受制于冷却组件。室内外温差小、室内温度高以及地区干燥有利于提高蒸发冷却的换热能力,如Shao等实验研究了回路热虹吸管散热系统,蒸发冷却使其换热能力比带常规冷凝器的提高7%~33%。另一方面,热管本身启动也与环境温度即热管初始温度有关,其状态如方向、倾角也会干扰两相介质在管内的流动及相态变化。Siricharoenpanich等发现,随着热管倾角增大,CPU温度有降低的趋势。Može等及Wang等的实验和模拟中,嵌入热管的散热器在90°方向上整体热阻达到最小。Maalej等的研究中,热虹吸、水平和反重力位置的冷却系统可分别去除150W、100W和50W的热量。
4
数据中心芯片级间接液冷技术复合应用
热管有高效的导热能力,但靠自然散热的冷却能力不足,冷板有更好的冷却效果,同时有漏液的风险,将不同冷却技术结合以获得理想的冷却能力或增加系统安全性成为研究的重要方向。如利用热管靠近发热元器件将热量快速导出后,在冷凝段设置冷板,就可以实现热量传导位置的偏移,由此减少漏液所带来的损失。除此之外,为了有均衡温度、完善系统功能等效果,也有复合其他技术的相关研究,如结合相变材料、热电冷却器等。基于此,本节将进一步梳理这些复合应用技术在数据中心芯片级冷却中的研究。
4.1
芯片级间接液冷不同技术的组合
在数据中心,漏水是限制冷板应用的主要原因。使用水冷头冷却CPU的技术虽较为成熟,但相比风冷散热器来说受众更少,同时因为多出一套管道以及水泵等设备,限制了其在数据机房服务器中的大规模覆盖。而热管具有将热量快速导出的能力,同时热管为密封的结构,出现漏液问题的可能性较少。因此将二者结合,能够使用热管将CPU处的热量带至安全位置后用水冷将这些热量带走。单相冷却与两相冷却复合的可能情况是将单相冷却作为两相冷却循环的冷凝器,或者在高功率密度区域使用两相冷却技术同时在低功率密度区域使用单相冷却。热管冷却与两相冷却复合的假想情况是利用热管技术将热量从热点区域传递到两相液冷系统中。但由于两相冷却涉及更复杂的流体管理和控制系统,与单相冷却或者热管组合会盲目增加系统的复杂性且效益并不大。服务器芯片如果使用两相液冷,低功率密度区域使用风冷是更具安全性和经济效益的选择,因此考虑可行性和成本,当前芯片级间接液冷不同技术的组合往往表现为单相冷却与热管冷却。
在数据中心芯片级热管理中,单相液冷与热管技术结合主要体现为芯片区热管搭配冷凝段水冷。以图13所示王晶等的设计为例,热管一端贴在服务器CPU上端,另一端镶嵌在水冷板中。通过热管将服务器内部热量传递到热管冷凝端,然后与冷却水进行热交换。相比于传统的单相冷板式液冷系统,这种设计使得冷却液与芯片之间的距离更大,从而降低了潜在的漏水风险。此外,由于它的安装方式与传统风冷方案相似,因此可以用于现有服务器散热系统的改造。Zhang等的实验证明了集成热管冷板与风冷相比在CPU热管理中的优势。杜雪涛用这种改造方式将热量带到服务器外,经由板式换热器将热量传输至冷却塔,将单机架平均运行功率提升至25kW,机房装机密度增加200%以上,PUE达到1.2以下。王玉珏的水冷型热管散热器使CPU的满载温度降低20℃。但这类设计引入了额外的热交换步骤,冷却液需要与热管内的冷媒再次交换热量,导致了一级热交换损耗的增加,因而热管、水冷板的热阻大小就十分关键。基于此,王玉珏发现采用串并联的槽道结构比串联具有更好的传热效果以及阻力特性。Zhang等实验发现流量为2L/min、冷却剂温度为24℃时效果最佳,增大流量会降低换热性能,且各参数变化减缓或相反,提出了在低功耗下采用低流量进行热管理的建议。除在服务器外部结合冷板外,还可以使用覆盖在主板上的液冷冷却板作为服务器整体冷却方案,在芯片上集成热管技术,确保整体和局部冷却都得到满足。吕云等提出的复合平板热管由冷板基板及数根热管组成,如图14所示。在50W、100W、150W的加热功率下,其冷板壁面温差均小于3℃,起到提高散热效率、增加设备可靠性以及均温的作用。
图13 水冷热管散热器蒸发端及冷凝段结构
图14 液冷板外观、内部结构、进液孔与蛇形冷却通道
1—液冷板;2—蛇形冷却液通道;3—进液孔;4—出液孔;5—平板热管
在芯片与常规水冷板中间增加均温板能减小热通量,扩大散热接触面积。受液冷板温度分布影响,均热板内部沸腾核心区集中在出水口侧的高温区域,同时均热板内部的蒸汽在压差作用下存在定向运动,可有效中和液冷板进出水温差对换热表面均温性的影响,在此作用下均温板和冷板的组合可以为系统带来更好的均温性,有效减少加热表面温差。刘帆等的仿真和实验中,相比常规冷板,复合均温板的液冷板散热能力显著提升,热阻降低40%,能解决热通量100W/cm2、单芯片功耗650W的散热问题。李维平等用类似的复合冷板将加热表面温差控制在了2.72℃内。李维天等对纯铝冷板、内嵌热管冷板及嵌入均温板的一体化冷板进行模拟,三者相比,电子器件壳温依次下降5~8℃,导热性能得到改善。
4.2
芯片级间接液冷技术与其他技术的复合
相变材料是通过相态变化实现热量储存、释放的物质,具有储能密度大、安全稳定的优势,也有热导率低的缺点。相变材料冷却利用相变材料的热容量,能解决热量供需时间、空间和强度上的不匹配,通常不被归类为间接液冷技术,但某些特定情况下可以作为热管理的一部分来应用,以帮助控制设备温度。在数据中心能够帮助维持CPU、服务器、机柜及房间内的温度稳定,往往与单相液冷或热管组合,发挥其蓄热优势。
相变材料的加入可以加快热管启动,余俊声等通过实验研究脉动热管在升降热流条件下的传热特性,发现了引入辅助热流可以改善脉动热管的迟滞圈现象,促进其启动并降低热阻,从而更好应对局部温升。相变材料结合热管也能够更好发挥本身的蓄能作用,田绅等将热管嵌入相变蓄冷板来平衡热负荷波动,并搭建了基于动态热阻的解析模型,结果表明,热管的加入有利于增大蓄冷板的瞬时传热速率,且热管的加密、加大对系统传热有正向作用。这类结合还有降低环境热负荷和噪声的作用。
相变材料可提供额外的热量吸收能力,用于处理突发的高热量冲击,从而平滑温度波动、防止热应力损坏。Huang等的实验设计中,基于相变材料的冷却单元可满足300s以上的应急冷却需求。在服务器中,可以使用单相液冷技术进行整体冷却,同时集成相变材料作为热峰值处理器的辅助冷却或应急冷却,如热蓄冷盘。可以将相变材料封装在小型容器中,安装在需要降温的区域附近。如图15所示,Liao等将相变材料组合在刀片式服务器的机架中,研究了时间比、加热功率和冷却水温度对热控制性能和周期稳定性的影响,实验结果表明相变材料避免了受热面温度快速升高。还可以将相变材料混合到液体冷却剂中来集成,经过高温区域时,相变材料会吸收额外的热量并进行相变,从而减少冷却剂的温度。Wang等利用高导热的共晶镓铟液态金属浸没碳基相变材料胶囊,制备了复合材料,用作CPU冷却的热缓解剂。在服务器中进行了实验验证,比起传统的鳍式散热片,这种集成方式可将连续满负荷运行时间延长414.3%。
图15 数据中心刀片式服务器的热管理方案
采用相变材料的潜热储能技术可以与水冷结合,帮助数据中心节能,如夏季储存余热,冬季通过充放电加热生活用水,实现全年余热的高效利用。张媛琳等为某数据机房增建内置相变材料冰盒的储能水箱以及智能控制的水循环系统和换热系统,可以在水箱中存储冷量,需要时通过热交换的方式将冷量释放到机房中。在这类结合中,性能的进一步强化可以通过引入金属翅片等途径来解决。Liu等在相变材料板表面安装弧形翅片增强传热性能,延长了342s的冷却时间,充电时间缩短1850s。
相变材料可以用作热缓冲器与热管相结合,以维持热管理区域的最佳温度。Ma等使用循环热虹吸管带走服务器的热量,设计了含10~12℃相变温度石蜡的多管热储能装置作为补充冷库,关闭冷水机组后应急冷却时间可达15min。这类结合中,PCM本身的熔点及热导率得到了较多关注。如图16所示,Motevalizadeh等研究了热管搭配风扇、热管搭配相变材料盒以及热管搭配风扇和相变材料盒三种情况下的散热效果,具有较低熔点的PCM可以优化热管冷却,并有助于减少最大热应力。Ma等研究得出,2W/(m∙℃)是数据中心应急冷却系统可参考的PCM热导率。此外,此类结合中热管的工质及充液率也需要进行专门研究。凌云志的数据中心冷却系统中,甲醇作为工质且充液率为34%的三维脉动热管结合相变材料后具有最佳的冷却效果。除用于热缓冲外,相变材料还有承担散热作用的可能,这种情况中热管需要嵌入相变材料中以强化相变材料的传热性能,提高其熔化或凝固的速度,但这样的系统体积偏大,不适用于服务器芯片冷却。
图16 三种不同冷却系统的配置构造
此外,还有将数据中心间接液冷技术与热电发生器(thermoelectric generator,TEG)结合的研究案例,用于能量的回收。朱心慧的温水制冷系统如图17所示,利用制冷液和自然水源间的温差发电实现了热能回收。还可以综合利用热管的极低热阻以及TEG的高效热电发电提高净功率输出,回收能量,如Zhou等将TEG与环路热管耦合,得到了0.997的最小PUE值。
图17 面向温水制冷策略的热能回收发电系统H2P系统硬件结构设计
对于高度集成的芯片,可以考虑多层次冷却,即在不同层次上使用不同的冷却技术。最内层可能是两相冷却或热管,用于处理最热的组件。中间层可能是单相冷却,用于次热的组件。最外层可能是空气或液冷,用于整体冷却。这种复合应用需要高度的工程设计和系统集成,以确保不同冷却技术之间的协调和有效性。需要在芯片设计阶段考虑冷却需求,涉及在芯片上集成复杂的冷却结构和传感器,以实现精细的热管理。实际上,大多数芯片级冷却更倾向于使用单一冷却技术,如单相冷却或两相冷却。然而,未来将面向超高性能和超高功率散热,如2021年的Tesla DOJO就集成了25块400W的芯片,有着高达10000W的热设计功耗,使用了上下两层的水冷板。多层次冷却的概念在数据中心具有潜在的应用可能。尽管没有大规模的实际案例可以提供,但结合不同冷却技术的多层次冷却可能在未来的研究和开发中得到更多的关注。
综上,总结数据中心间接液冷技术的强化措施以及复合应用的实现方法及效果见表2。
表2 数据中心间接液冷技术强化及耦合应用
5
结语
过去几十年里,研究者在数据中心散热领域进行了大量讨论与探索。本综述聚焦于芯片级间接液冷技术,探讨了单相冷却、两相冷却和热管冷却三种间接液冷技术的机理、研究进展、强化换热方法以及应用领域。
单相冷却技术在性能方面取得了显著进展,包括仿生或拓扑优化结构、纳米流体工质、嵌入式微通道及多孔金属材料等的使用;两相冷却技术在高功率密度应用中表现出色,近期研究主要围绕气液两相流流动状态及换热效果之间的平衡,还有纳米结构的加入对沸腾换热的增强等,还需要继续关注其复杂性和维护问题;热管冷却技术在均热效果上表现出色,有助于确保温度分布均匀,但由于结构的紧凑化趋势及其他散热技术的飞速发展,与风冷散热器或液冷板组合使用的常规热管或被淘汰,扁平化热管作为均热板或许更加符合数据中心的实际需要。
通过流体动力学优化、导热材料选择或创新制备、增强传热结构设计等方式,能够提高芯片级间接液冷系统的换热效率。芯片级间接液冷技术还可以和其他热管理技术,如相变材料、热电制冷和废热回收等技术相结合,形成更高效的整体解决方案。随着对能源消耗和环境影响的重视,数据中心将继续寻求更节能可持续的液冷解决方案,废热回收、再利用和更环保的液冷介质可以作为未来的重点研究领域。
新一代大功率芯片发热功率增加,面积也成倍增大,增加顶盖的设计带来的保护作用以及对散热效果造成的阻碍之间需要进行新的权衡,可以重新考虑CPU顶盖的设计甚至考虑去除顶盖,界面材料对芯片热量导出的影响也需要重新评估并优化。
芯片功率的增加不应是未来数据中心散热设计考虑的唯一因素,还需关注电路特征尺寸与封装系统复杂性的变化。材料的导热能力、热膨胀特性、电学特性和材料的加工制造能力等传统热沉的考虑因素要进行微细空间下的再设计;此外,集成化的芯片上在极小空间内组合众多电子元件,往往还需集成微阀、管道等部件,三维堆叠芯片内的流体与电学连接会更加复杂,在这种情况下高温引起的材料电磁特性的变化对信号和电源完整性的影响,以及热应力导致的机械故障都需要进行重新评估,因此亟待突破近结点微通道设计优化与强化换热方法、芯粒集成芯片热电力流一体化协同设计等关键技术。热仿真中,需要完善芯粒尺度的热界面理论,探索多芯粒系统中的电磁、热和应力等多物理场交互仿真。复合冷却系统的耦合试验及模拟需要同时考虑多尺度形状及非线性场相关材料的特性。总之,芯粒集成以及技术的复合等都对多物理量耦合交互的理论、仿真及实验提出了新的要求。
材料科学和工程领域的不断进步为液冷技术提供了新的机会,高导热性材料、新型冷却介质和高效散热结构方面的研究也将不断推动技术革新。然而目前,相关文献报道的相关模拟或实验数据存在较大差异。尤其是在两相领域以及微通道和纳米颗粒等低维空间尺度,由于机理及性质的复杂化以及微细尺度的难以准确观察测量,导致相关研究及数据的规律性难以表征,传热传质特性也难以预测和控制。未来研究的重点一方面是实现纳米流体、两相工质、新型复合材料的长期稳定并增强传热特性,另一方面则需要在纳米颗粒、多孔介质以及微通道或不规则流道等方面建立合适的模型,揭示其传热传质机制,从而对新结构、新材料、新流动的传热传质特性进行较为准确地预测。还需要在磁场强化传热、多孔泡沫金属散热器等方面进行可靠性研究,确保方案可行。
作者简介
第一作者:尹瑞,硕士研究生,研究方向为数据中心热管理。
通信作者:尹少武,博士,教授,研究方向为能量转换、储存及利用。
(扫码关注我们)
邮发代号:82-311
订阅热线:010-64519502
网址:http://hgjz.cip.com.cn
欢迎您分享、点赞、收藏、在看