Nvidia 的液冷革命：开启下一代高性能 AI 服务器的关键举措

文摘 2025-01-19 13:13 河北

3 月 1 日，在斯坦福大学举行的 2024 年 SIEPR 经济峰会上，英伟达首席执行官黄仁勋 (Jensen Huang) 确认，该公司的下一代 DGX AI 服务器将采用液冷技术。这标志着当前的风冷设计发生了重大转变，液冷将为更高性能 AI 系统开辟新的可能。

液体冷却对AI服务器很重要

尖端 AI 芯片的功耗在不断增加，这成为了下一代 DGX AI 服务器转向液体冷却的催化剂。Nvidia 当前的旗舰H100 GPU的TDP（热设计功率）为700W，已经突破了传统风冷的极限。

根据早些时候戴尔首席执行官在财报电话会议上的说法，预计今年晚些时候，Nvidia 将推出的“Blackwell”架构 B100 GPU 的 TDP 约为 1000W，而该公司计划于 2025 年推出的 B200 GPU 预计将更加耗电，戴尔表示届时液体冷却肯定是必要的。

对于高性能计算系统来说，液体冷却比空气冷却具有几个关键优势：

卓越的传热效率，使更高 TDP 的组件得到充分冷却
由于减少了对高速风扇的需求，运行更安静
系统设计更密集，笨重的散热器和风扇占用的空间更少
释放液-液热交换器中废热捕获和再利用的潜力

通过采用液体冷却，Nvidia 可以继续突破 AI 加速器性能的极限，而不受冷却系统的限制。随着人工智能训练负载的复杂性不断增加以及相应硬件功耗的增加，这一点至关重要。

图：DGX AI 服务器（来源：Nvidia）

DGX AI 服务器的部署快速增长

Nvidia 的 DGX AI 服务器将多个 GPU 打包成一个针对 AI 工作负载的优化系统，已被超大规模企业迅速采用。Google Cloud、Meta 和 Microsoft 等主要云服务商都在其数据中心部署了 DGX 系统。近年来，随着越来越多的组织寻求利用人工智能的变革力量，Nvidia DGX 人工智能系统的采用呈指数级增长。

尽管 Nvidia 并未透露具体的销售数据，但分析师估计，2021 年，DGX 系统安装量超过 2,000 个。2022 年，这一数字增至 3,500 多个。自 2016 年该产品线推出以来，DGX 累计出货量已超过 10,000 台。截至 2023 年，DGX 系统预计将占 Nvidia 数据中心收入的 20% 左右。

随着 DGX 部署规模的扩大，过渡到液体冷却的能效优势将非常显著。单个 DGX H100 系统消耗约 10kW 的功率。液冷可提高整体能效20-40%，既通过服务器级别的直接节省减少了数据中心的冷却负载。

如果应用于未来 10,000 个 DGX 系统，这将意味着节省 20-40 兆瓦的功耗。按 0.10 美元/千瓦时计算，这相当于每年 2000-4000 万美元的能源成本。环境效益也是巨大的，因为每年每节省一兆瓦的电力就可以避免约 1,500 吨的碳排放。

DGX 液冷系统的技术细节

尽管 Nvidia 没有透露具体细节，但我们可以根据行业趋势和 Nvidia 自己的研究，对下一代 DGX 中可能采用的液体冷却技术做出一些有根据的猜测。

液体冷却的两个主要类别是：

间接冷却，使用液体（通常是水）通过冷板冷却芯片组件，但液体不直接接触电子器件
直接芯片冷却，使介电液体与 GPU 芯片等组件直接接触

间接冷却是更安全、更常见的方法，因为它避免了液体接触敏感电子设备的任何潜在问题。Nvidia 很可能会在液冷 DGX 中使用这种技术，至少在最初是这样。

Nvidia 发表了关于使用介电流体的先进浸没式冷却设计的研究。这表明，如果事实证明直接芯片冷却的收益高于增加系统复杂性的成本，那么直接芯片冷却将成为 DGX 系统未来的一种选择。

直接芯片冷却将介电流体直接泵送到 GPU 芯片和其他热组件上，无需冷板，实现更直接的热传递，可在单芯片上支持非常高的 TDP 水平 (500W+)，实现更密集的系统。

图：微射流直接芯片冷却示意图（来源：JetCool）

展望未来

Nvidia 为其下一代 DGX AI 服务器采用液体冷却是该行业的一个分水岭。它标志着人们认识到传统的空气冷却已不足以满足最苛刻的人工智能训练负载。

随着人工智能继续以惊人的速度发展，支持的硬件基础设施必须同步发展。液体冷却是一项关键的使能技术，它将使加速器能够扩展到前所未有的性能水平。

这一转变并非没有挑战。因为数据中心需要改造液体冷却基础设施并开发新的维护程序，但能源效率、密度和性能方面的好处非常显著，不容忽视。

·END·

来源：热管理行业观察

注：部分材料源自网络，仅作为最新文章分享交流，版权归原作者所有，如涉侵权，请联系。

Thermal

application

微信号｜ThermalDA

TD散热应用技术

先进的热管理散热应用技术，涉及工艺、结构、材料，涵盖通讯通信、能源汽车、消费电子、航空医疗等应用领域

最新文章

【纳米流体】煤气化渣衍生水铝钙石纳米流体用于电力电子器件流动沸腾传热强化

【强化换热】余热回收用整体成型双面螺旋翅片管强化传热的数值研究

【仿真】高效排水换热翅片设计与性能优化研究

【热管】强化超薄均热板传热性能的研究进展

管内纽带强化传热技术：涡流结构调控的进展与挑战

【液冷】分隔板结构对歧管式微通道沸腾传热特性影响

【LHP】摆动速度对3D 打印毛细芯环路热管传热性能的影响

【热管】复合相变材料耦合微槽平板热管的电池热管理实验研究

【LHP】不同蒸发室厚度下平板蒸发器环路热虹吸管IGBT冷却的实验研究

【液冷】蛇形多孔扁管内燃油流动换热特性数值研究

可见透明辐射冷却材料研究进展

【LHP】IGBT散热用立式平板蒸发器环路热虹吸管传热特性及不稳定性的实验研究

10 nm 尺度氮化镓局域热点的传热测量

【LHP】新型不锈钢毛细芯环路热管的启动特性

【LHP】低温环路热管启动特性的理论与实验研究

【液冷】水滴阵列微通道传热特性与压降研究

【综述】喷雾冷却技术及其强化传热机制研究进展

【液冷】浸没液体冷却技术在动力电池热管理中的应用研究进展

【LHP】用于芯片级冷却的双蒸发器环路热管的性能和能耗研究

3D打印中的热仿真基础

Nvidia 的液冷革命：开启下一代高性能 AI 服务器的关键举措

【液冷】交织网状小通道热沉的传热特性

【液冷】大功率数据中心服务器浸液冷却性能实验研究

【液冷】采用锯齿肋壁强化硅基MEMS微通道相变换热

【服务器液冷】高热流液冷服务器相变工质的研究及应用进展

【液冷】相变冷却与液冷耦合的锂电池组热管理系统多目标优化

【LHP】环路热管温度振荡必要条件的数值研究

【液冷】水滴阵列微通道传热特性与压降研究

【液冷】不同空腔和直肋组合的微通道散热器性能研究

【芯片散热】硅基环路热管自湿润毛细芯的制备及其热性能提升

会议通知 | 第八届传热传质青年学术论坛会议通知（第一轮）

【LHP】以绞合线为毛细芯结构的新型微型环路热管

【芯片热管理】高算力 Chiplet 的热管理技术研究进展

【PHP】新型蛇形环状扁平微通道热管的热性能实验研究

【LHP】微型环路热管瞬态特性和启动行为的实验研究

【PHP】同心环相互连接的单回路脉动热管热性能

2025麦当劳加盟政策是什么？

【芯片散热】轻量化3D Thermosyphon管理1000W大功率芯片散热的实验与理论研究

【液冷】液冷机箱不同结构流道散热性能研究

【说明书】模拟热源使用说明及注意事项

【液冷】相变材料与液冷复合电池热管理系统研究

【液冷】双层针翅歧管微通道热沉歧管层优化研究

【新能源电池】新能源汽车动力电池冷却系统热仿真及优化

【PHP】大功率LED 热管理用脉动热管热性能

【液冷】多孔针肋阵列结构流动沸腾换热特性实验研究

【相变液冷】采用锯齿肋壁强化硅基MEMS微通道相变换热

【液冷】用于三维集成电路冷却的芯片微通道

【说明书】模拟热源使用说明及注意事项

西安交通大学魏进家团队最新论文：歧管式射流微通道液冷散热性能研究

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉