Nvidia 的液冷革命:开启下一代高性能 AI 服务器的关键举措

文摘   2025-01-19 13:13   河北  

3 月 1 日,在斯坦福大学举行的 2024 年 SIEPR 经济峰会上,英伟达首席执行官黄仁勋 (Jensen Huang) 确认,该公司的下一代 DGX AI 服务器将采用液冷技术。这标志着当前的风冷设计发生了重大转变,液冷将为更高性能 AI 系统开辟新的可能。


液体冷却对AI服务器很重要


尖端 AI 芯片的功耗在不断增加,这成为了下一代 DGX AI 服务器转向液体冷却的催化剂。Nvidia 当前的旗舰H100 GPU的TDP(热设计功率)为700W,已经突破了传统风冷的极限。
根据早些时候戴尔首席执行官在财报电话会议上的说法,预计今年晚些时候,Nvidia 将推出的“Blackwell”架构 B100 GPU 的 TDP 约为 1000W,而该公司计划于 2025 年推出的 B200 GPU 预计将更加耗电,戴尔表示届时液体冷却肯定是必要的。

对于高性能计算系统来说,液体冷却比空气冷却具有几个关键优势:

  • 卓越的传热效率,使更高 TDP 的组件得到充分冷却

  • 由于减少了对高速风扇的需求,运行更安静

  • 系统设计更密集,笨重的散热器和风扇占用的空间更少

  • 释放液-液热交换器中废热捕获和再利用的潜力


通过采用液体冷却,Nvidia 可以继续突破 AI 加速器性能的极限,而不受冷却系统的限制。随着人工智能训练负载的复杂性不断增加以及相应硬件功耗的增加,这一点至关重要。

图:DGX AI 服务器(来源:Nvidia

DGX AI 服务器的部署快速增长


Nvidia 的 DGX AI 服务器将多个 GPU 打包成一个针对 AI 工作负载的优化系统,已被超大规模企业迅速采用。Google Cloud、Meta 和 Microsoft 等主要云服务商都在其数据中心部署了 DGX 系统。近年来,随着越来越多的组织寻求利用人工智能的变革力量,Nvidia DGX 人工智能系统的采用呈指数级增长。
尽管 Nvidia 并未透露具体的销售数据,但分析师估计,2021 年,DGX 系统安装量超过 2,000 个。2022 年,这一数字增至 3,500 多个。自 2016 年该产品线推出以来,DGX 累计出货量已超过 10,000 台。截至 2023 年,DGX 系统预计将占 Nvidia 数据中心收入的 20% 左右。

随着 DGX 部署规模的扩大,过渡到液体冷却的能效优势将非常显著。单个 DGX H100 系统消耗约 10kW 的功率。液冷可提高整体能效20-40%,既通过服务器级别的直接节省减少了数据中心的冷却负载。

如果应用于未来 10,000 个 DGX 系统,这将意味着节省 20-40 兆瓦的功耗。按 0.10 美元/千瓦时计算,这相当于每年 2000-4000 万美元的能源成本。环境效益也是巨大的,因为每年每节省一兆瓦的电力就可以避免约 1,500 吨的碳排放。

DGX 液冷系统的技术细节


尽管 Nvidia 没有透露具体细节,但我们可以根据行业趋势和 Nvidia 自己的研究,对下一代 DGX 中可能采用的液体冷却技术做出一些有根据的猜测。

液体冷却的两个主要类别是:

  • 间接冷却,使用液体(通常是水)通过冷板冷却芯片组件,但液体不直接接触电子器件

  • 直接芯片冷却,使介电液体与 GPU 芯片等组件直接接触


间接冷却是更安全、更常见的方法,因为它避免了液体接触敏感电子设备的任何潜在问题。Nvidia 很可能会在液冷 DGX 中使用这种技术,至少在最初是这样。

Nvidia 发表了关于使用介电流体的先进浸没式冷却设计的研究。这表明,如果事实证明直接芯片冷却的收益高于增加系统复杂性的成本,那么直接芯片冷却将成为 DGX 系统未来的一种选择。

直接芯片冷却将介电流体直接泵送到 GPU 芯片和其他热组件上,无需冷板,实现更直接的热传递,可在单芯片上支持非常高的 TDP 水平 (500W+),实现更密集的系统。

图:微射流直接芯片冷却示意图(来源:JetCool)

展望未来


Nvidia 为其下一代 DGX AI 服务器采用液体冷却是该行业的一个分水岭。它标志着人们认识到传统的空气冷却已不足以满足最苛刻的人工智能训练负载。

随着人工智能继续以惊人的速度发展,支持的硬件基础设施必须同步发展。液体冷却是一项关键的使能技术,它将使加速器能够扩展到前所未有的性能水平。

这一转变并非没有挑战。因为数据中心需要改造液体冷却基础设施并开发新的维护程序,但能源效率、密度和性能方面的好处非常显著,不容忽视。

·END·

来源:热管理行业观察

注:部分材料源自网络,仅作为最新文章分享交流,版权归原作者所有,如涉侵权,请联系。


T

D

Thermal

application

微信号|ThermalDA

TD散热应用技术

TD散热应用技术
先进的热管理散热应用技术,涉及工艺、结构、材料,涵盖通讯通信、能源汽车、消费电子、航空医疗等应用领域
 最新文章