引言
在人工智能(AI)时代,计算需求正在突破传统数据中心的极限。本文旨在帮助读者了解NVIDIA开发的前沿冷却技术,以应对这些前所未有的挑战[1]。
先进冷却技术的需求
随着AI模型日益复杂和庞大,对计算能力的需求急剧增加。多GPU集群的AI工厂正成为生产AI工具的未来。让我们来看看NVIDIA的AI工厂是如何快速发展的:
图1:NVIDIA AI工厂的发展历程,从2021年的Selene(4,480个A100 GPU)到预计的下一代AI工厂(32,000个GPU,645 ExaFLOPs AI计算能力)。
这些AI工厂正在推动训练和推理能力的极限。然而,强大的计算能力也意味着巨大的热量产生,因此需要先进的冷却解决方案来维持最佳性能和效率。
数据中心冷却技术:解决方案谱系
为满足不同数据中心设置的需求,NVIDIA开发了一系列冷却技术,从传统的空气冷却到尖端的液体冷却系统。让我们探索这些冷却技术:
1. 空气冷却
空气冷却仍然是低密度到中密度机架的可行选择。空气冷却有几种方法:
a) CRAH/CRAC空气冷却:
适用于低密度机架的房间级冷却
空气吸收的热量通过CRAH传递到设施冷却水
使用架空或实心地板
实施冷通道或热通道隔离
图2:展示使用CRAH/CRAC单元的空气冷却设置,显示了气流模式和系统的关键组件。
b) 行间冷却器空气冷却:
适用于中密度机架的通道级冷却
热量通过行间冷却器和CRAH单元传递到设施冷却水
可使用架空或实心地板
实施冷通道或热通道隔离
c) 后门热交换器(RDHX)空气冷却:
适用于中密度机架的机架级局部冷却
空气吸收的热量通过RDHX传递到设施冷却水
可独立使用或与CRAH单元配合使用作为辅助冷却
2. 混合空气和液体冷却
随着数据中心密度增加,结合空气和液体冷却的混合解决方案变得更具吸引力:
a) 液体到空气侧车(L2A)液体冷却:
适用于高密度机架的通道级空气/液体混合冷却
适合传统空气冷却数据中心的空气辅助液体冷却
无需额外的液体冷却基础设施
过渡性解决方案,冷却能力有限
图3:液体到to Air Side Car(L2A)冷却设置,演示了如何与现有的空气冷却基础设施集成。
b) 液体到液体CDU(L2L)液体冷却:
适用于高密度机架的通道级空气/液体混合冷却
行级冷却分配单元可在紧凑的CDU单元中移除兆瓦级IT热量
需要额外的液体冷却基础设施
过渡性解决方案,单相液体冷却的极限
3. 直接芯片液体冷却
对于最高密度的机架和最苛刻的冷却需求,直接芯片液体冷却提供了最高效的解决方案:
液体到液体冷却分配单元在紧凑空间内提供约2MW冷却
在2.75倍小的空间内产生6.5倍于CRAH的冷却能力
功耗约为名义冷却能力的1%
图4:Direct to Chip Liquid-to-Liquid CDU Solutions
冷却解决方案的评估和优化
为确保这些冷却解决方案的有效性,NVIDIA采用了一系列评估标准和建模技术:
1. L2A CDU评估:
设计和构建模拟液冷服务器的仿真器
建立受控实验室环境
根据产品要求进行性能评估
使用CFD/FNM(计算流体动力学/流网络建模)构建数字孪生
2. L2L CDU评估:
设计和构建模拟液冷服务器的仿真器
建立受控实验室设置
评估L2L CDU的性能
构建L2L CDU的物理感知数字孪生模型
3. 液冷数据中心的Omniverse数字孪生:
NVIDIA利用其Omniverse平台创建液冷数据中心的全面数字孪生。这允许:
AI加速的数据中心设计和优化
热流体动力学的实时推理
虚拟测试环境
预测性故障维护
能源使用预测和碳足迹减少
图5:AI加速数据中心数字孪生,展示了如何整合各种技术以实现全面的数据中心建模和优化。
研究重点领域
为继续推进冷却技术,NVIDIA正在几个关键领域进行研究:
1. 次级流体、腐蚀和侵蚀研究:
评估多种冷却液的热性能
使用ASTM-D1384和D8040标准进行腐蚀测试
分析冷却液中的生物生长
进行侵蚀研究,确定ASHRAE侵蚀流体速度限制的适用性
2. 机架功率密度与DLC冷却技术路线图:
分析热限制和机械限制
将冷却技术映射到功率密度范围
探索超高密度机架的先进冷却技术
3. 数据中心效率和总拥有成本(TCO)分析:
比较空气冷却与混合空气和液体冷却
分析能源效率和总拥有成本(TCO)
评估可持续性策略
图6:NVIDIA全面的数据中心可持续性方法,涵盖了可持续设计、部署和运营、监控和自动化以及生命周期管理等方面。
4. 废热回收:
开发原型,从废热回收单元(WHRU)生成电力
探索从液冷机架回收废热的可能性
与研究中心合作优化废热利用
5. ARPA-E COOLERCHIPS项目:OMNICOOL
NVIDIA正参与美国能源部的ARPA-E COOLERCHIPS项目,专注于高效可靠的数据中心冷却。OMNICOOL项目目标包括:
使用混合D2C两相和单相浸没冷却系统提高能源效率(目标:PUE <1.05)
提高功率密度挑战(目标:>160 kW/机架)
克服地理位置和天气限制(目标:适合ISO 40'集装箱,环境温度≥40 °C)
强调环境影响和可持续性(目标:GWP <1,零水消耗)
该项目包含几项创新:
创新的两相多孔金属冷板技术
用于紧凑型自由冷却器的非正交、互锁线圈阵列
机架内分布式泵送和流分离系统
利用分层架构的多尺度流分配系统
结论
随着继续推动AI和加速计算的边界,冷却技术在实现下一代高性能数据中心中发挥着关键作用。NVIDIA全面的冷却解决方案方法,从空气冷却到先进的液体冷却系统,确保数据中心能够满足AI工作负载日益增长的需求,同时保持效率和可持续性。
通过利用数字孪生、AI驱动优化和创新冷却设计等前沿技术,NVIDIA正在为数据中心冷却的未来奠定基础。展望未来,对可持续性、能源效率和适应性的关注将成为应对明天AI工厂挑战的关键。
计算效率和性能的提升之路仍在继续,冷却技术将与之同步发展。通过保持在这些发展的前沿,数据中心运营商和AI研究人员可以确保拥有必要的基础设施,以推动人工智能和高性能计算的下一波创新。
参考文献
[1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.
点击左下角"阅读原文"马上申请
欢迎转载
转载请注明出处,请勿修改内容和删除作者信息!
关注我们
关于我们:
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
http://www.latitudeda.com/
(点击上方名片关注我们,发现更多精彩内容)