高性能计算 (HPC) 领域正在经历一场深刻的变革,其驱动力是人工智能、机器学习和物联网等各个领域对增强计算能力的持续需求。计算需求的激增推动了高端中央处理器 (CPU) 和图形处理器 (GPU) 的发展,其特点是晶体管密度大幅增加。随着这些处理器突破计算界限,它们同时产生更高的散热功率 (TDP) 和更强的热通量,迫切需要先进的冷却解决方案来缓解相关的散热挑战。最近的一篇论文[1]和一篇科学杂志上的出版物[2]报告称,与 2010 年的数据相比,全球能源消耗增加了 6%,但计算能力在此期间增加了 550% 以上。
数据中心能源的最大部分被 IT 和冷却设备消耗,约占总能源消耗的 30-50% [3]。传统的冷却方法主要依赖于空气冷却,但事实证明,这种冷却方法不足以满足当代处理器不断增长的散热需求。随着 CPU 和 GPU 不断发展,达到新的复杂性和性能水平,空气冷却系统的局限性变得越来越明显。在空气冷却中,使用计算机房空调 (CRAC) 或计算机空气处理器 (CRAH),并遵循最佳实践,例如放置热通道和冷通道密封装置、使用架空地板、布置机架、电缆管理等,以提高冷却效率。随着机架密度的增加,保持冷却效率和组件所需的结温或外壳温度变得极其困难。随着气流需求的增加,风扇产生的噪声和功耗也会增加。为了应对这一挑战,电子冷却领域已经见证了向液体冷却的范式转变,这是一种更高效、更有效的方法来管理与高性能计算相关的热问题。
液冷系统相比风冷具有更出色的散热能力,非常适合对最佳热性能要求不高的应用。在液冷领域,基于冷板的解决方案已成为一种受欢迎的选择,尤其是直接应用于芯片时。冷却策略的这种演变不仅提高了传热效率,而且还解决了密集电子元件中常见的空间限制和不规则热分布问题。从冷板到机架级测试,已经进行了大量研究来提高直接芯片液冷的整体性能。在一项研究[4]中,他们用数值方法研究了目标冷却液输送对散热器的影响,并提出了一种将热阻降低 42% 的冷板设计。Hadad 等人进行的一项研究。[5]对热水冷却 V 型槽冲击 (TISE) 微通道冷板进行了数值建模,以预测压降并进行优化,研究了翅片倾斜角度对热阻和压降的影响,并观察到翅片倾斜角度确实对压降有影响,但对热阻的影响却很弱。通过实验和 CFD 对冷板的特性进行了几项研究,结果表明,通过优化分流冷板,性能有所提高[6] - [8]。还对 PCB 板故障的可靠性方面进行了几项研究[9] - [11]。为了提高间接液体冷却技术的冷却效率,研究人员提出了混合冷却技术,即大功率组件通过液体冷却冷却,小功率组件通过空气冷却[12]。一项实验研究表明,改进管道以更好地为 1U 服务器中的组件提供气流,可获得冷却优势[13]。对 1U 服务器的热捕获率 (HCR) 研究表明,不同参数(例如空气和液体入口温度以及气流速率)可能会影响液体的 HCR [14]。对后门热交换器 (RDHx) 的研究表明了其可行性,并根据热负荷和服务器设计为其在数据中心实施提供了指导[15]。在数据中心,在特定时刻,所有服务器可能以不同的工作负载运行[16] [17],因此恒定的流速可能导致过大的泵送功率,因此动态冷却至关重要[18] - [20]。对于动态冷却,设计、开发和表征了流量控制装置,并制定了控制策略以根据热负荷优化流速,从而节省泵送功率[21] - [26]。一项研究表征了不同的冷却回路,并开发了使用 CFD 的分析和数值模拟来分析液-液冷却,包括冷却剂分配单元 (CDU),并开发了一个用于确定回路管道尺寸的系统计算器[27] [28]。研究还显示了不同类型冷却剂的腐蚀影响。一项研究表明了不同流体对传热和压降的影响[29]。一项研究表明了铜冷板的腐蚀机理以及流体温度、其类型和电位的影响[30]。一项热学和水力学研究显示了不同供应商提供的相同冷却剂的影响,并表明给定冷板的热阻和压降没有影响,但从可靠性来看,每种供应商的冷却液对构建液-液数据中心所使用的不同润湿材料有不同的腐蚀影响[31]。[32]液体冷却效率的基础在于精心协调整个系统中的冷却液流动和分配。系统中的主要组件是 CDU、行和机架歧管以及冷却回路。确保液体冷却装置成功的关键组件之一是 CDU。作为冷却基础设施的中枢神经系统,CDU 在管理整个系统的流量、温度和压力方面发挥着至关重要的作用。了解这些组件的架构和功能对于理解现代液体冷却系统的复杂性至关重要。随着液体冷却(尤其是基于冷板的解决方案)的采用不断增加,调试成为系统部署中不可或缺的一部分。调试涉及一个系统过程,旨在验证组件和整个冷却系统的正常功能。这一阶段的重要性怎么强调也不为过,因为它是一种主动措施,可以防止潜在问题,例如冷却剂分布不均匀、冷却剂污染、泄漏和长期可靠性受损。这项全面的研究深入探讨了高性能计算先进冷却解决方案的各个方面,重点关注调试过程。以下各节将深入探讨背景、先进冷却的意义、液体冷却带来的挑战、CDU 的关键作用以及调试在确保液体冷却系统效率和寿命方面的关键重要性。