3 月 1 日,在斯坦福大学举行的 2024 年 SIEPR 经济峰会上,英伟达首席执行官黄仁勋 (Jensen Huang) 确认,该公司的下一代 DGX AI 服务器将采用液冷技术。这标志着当前的风冷设计发生了重大转变,液冷将为更高性能 AI 系统开辟新的可能。
液体冷却对AI服务器很重要
对于高性能计算系统来说,液体冷却比空气冷却具有几个关键优势:
卓越的传热效率,使更高 TDP 的组件得到充分冷却
由于减少了对高速风扇的需求,运行更安静
系统设计更密集,笨重的散热器和风扇占用的空间更少
释放液-液热交换器中废热捕获和再利用的潜力
通过采用液体冷却,Nvidia 可以继续突破 AI 加速器性能的极限,而不受冷却系统的限制。随着人工智能训练负载的复杂性不断增加以及相应硬件功耗的增加,这一点至关重要。
图:DGX AI 服务器(来源:Nvidia)
DGX AI 服务器的部署快速增长
随着 DGX 部署规模的扩大,过渡到液体冷却的能效优势将非常显著。单个 DGX H100 系统消耗约 10kW 的功率。液冷可提高整体能效20-40%,既通过服务器级别的直接节省减少了数据中心的冷却负载。
如果应用于未来 10,000 个 DGX 系统,这将意味着节省 20-40 兆瓦的功耗。按 0.10 美元/千瓦时计算,这相当于每年 2000-4000 万美元的能源成本。环境效益也是巨大的,因为每年每节省一兆瓦的电力就可以避免约 1,500 吨的碳排放。
DGX 液冷系统的技术细节
尽管 Nvidia 没有透露具体细节,但我们可以根据行业趋势和 Nvidia 自己的研究,对下一代 DGX 中可能采用的液体冷却技术做出一些有根据的猜测。
液体冷却的两个主要类别是:
间接冷却,使用液体(通常是水)通过冷板冷却芯片组件,但液体不直接接触电子器件
直接芯片冷却,使介电液体与 GPU 芯片等组件直接接触
间接冷却是更安全、更常见的方法,因为它避免了液体接触敏感电子设备的任何潜在问题。Nvidia 很可能会在液冷 DGX 中使用这种技术,至少在最初是这样。
Nvidia 发表了关于使用介电流体的先进浸没式冷却设计的研究。这表明,如果事实证明直接芯片冷却的收益高于增加系统复杂性的成本,那么直接芯片冷却将成为 DGX 系统未来的一种选择。
直接芯片冷却将介电流体直接泵送到 GPU 芯片和其他热组件上,无需冷板,实现更直接的热传递,可在单芯片上支持非常高的 TDP 水平 (500W+),实现更密集的系统。
图:微射流直接芯片冷却示意图(来源:JetCool)
展望未来
Nvidia 为其下一代 DGX AI 服务器采用液体冷却是该行业的一个分水岭。它标志着人们认识到传统的空气冷却已不足以满足最苛刻的人工智能训练负载。
随着人工智能继续以惊人的速度发展,支持的硬件基础设施必须同步发展。液体冷却是一项关键的使能技术,它将使加速器能够扩展到前所未有的性能水平。
这一转变并非没有挑战。因为数据中心需要改造液体冷却基础设施并开发新的维护程序,但能源效率、密度和性能方面的好处非常显著,不容忽视。
·END·
来源:热管理行业观察
注:部分材料源自网络,仅作为最新文章分享交流,版权归原作者所有,如涉侵权,请联系。
T
D
Thermal
application
微信号|ThermalDA
TD散热应用技术