Hot Chips 2024 | 下一代NVIDIA加速计算冷却技术

文摘   科技   2024-10-23 08:00   江苏  

引言

在人工智能(AI)时代,计算需求正在突破传统数据中心的极限。本文旨在帮助读者了解NVIDIA开发的前沿冷却技术,以应对这些前所未有的挑战[1]。

先进冷却技术的需求

随着AI模型日益复杂和庞大,对计算能力的需求急剧增加。多GPU集群的AI工厂正成为生产AI工具的未来。让我们来看看NVIDIA的AI工厂是如何快速发展的:

图1:NVIDIA AI工厂的发展历程,从2021年的Selene(4,480个A100 GPU)到预计的下一代AI工厂(32,000个GPU,645 ExaFLOPs AI计算能力)。


这些AI工厂正在推动训练和推理能力的极限。然而,强大的计算能力也意味着巨大的热量产生,因此需要先进的冷却解决方案来维持最佳性能和效率。

数据中心冷却技术:解决方案谱系

为满足不同数据中心设置的需求,NVIDIA开发了一系列冷却技术,从传统的空气冷却到尖端的液体冷却系统。让我们探索这些冷却技术:


1. 空气冷却

空气冷却仍然是低密度到中密度机架的可行选择。空气冷却有几种方法:

a) CRAH/CRAC空气冷却:

  • 适用于低密度机架的房间级冷却

  • 空气吸收的热量通过CRAH传递到设施冷却水

  • 使用架空或实心地板

  • 实施冷通道或热通道隔离


图2:展示使用CRAH/CRAC单元的空气冷却设置,显示了气流模式和系统的关键组件。


b) 行间冷却器空气冷却:

  • 适用于中密度机架的通道级冷却

  • 热量通过行间冷却器和CRAH单元传递到设施冷却水

  • 可使用架空或实心地板

  • 实施冷通道或热通道隔离


c) 后门热交换器(RDHX)空气冷却:

  • 适用于中密度机架的机架级局部冷却

  • 空气吸收的热量通过RDHX传递到设施冷却水

  • 可独立使用或与CRAH单元配合使用作为辅助冷却


2. 混合空气和液体冷却

随着数据中心密度增加,结合空气和液体冷却的混合解决方案变得更具吸引力:

a) 液体到空气侧车(L2A)液体冷却:

  • 适用于高密度机架的通道级空气/液体混合冷却

  • 适合传统空气冷却数据中心的空气辅助液体冷却

  • 无需额外的液体冷却基础设施

  • 过渡性解决方案,冷却能力有限


图3:液体到to Air Side Car(L2A)冷却设置,演示了如何与现有的空气冷却基础设施集成。


b) 液体到液体CDU(L2L)液体冷却:

  • 适用于高密度机架的通道级空气/液体混合冷却

  • 行级冷却分配单元可在紧凑的CDU单元中移除兆瓦级IT热量

  • 需要额外的液体冷却基础设施

  • 过渡性解决方案,单相液体冷却的极限


3. 直接芯片液体冷却

对于最高密度的机架和最苛刻的冷却需求,直接芯片液体冷却提供了最高效的解决方案:

  • 液体到液体冷却分配单元在紧凑空间内提供约2MW冷却

  • 在2.75倍小的空间内产生6.5倍于CRAH的冷却能力

  • 功耗约为名义冷却能力的1%


图4:Direct to Chip Liquid-to-Liquid CDU Solutions


冷却解决方案的评估和优化

为确保这些冷却解决方案的有效性,NVIDIA采用了一系列评估标准和建模技术:

1. L2A CDU评估:

  • 设计和构建模拟液冷服务器的仿真器

  • 建立受控实验室环境

  • 根据产品要求进行性能评估

  • 使用CFD/FNM(计算流体动力学/流网络建模)构建数字孪生


2. L2L CDU评估:

  • 设计和构建模拟液冷服务器的仿真器

  • 建立受控实验室设置

  • 评估L2L CDU的性能

  • 构建L2L CDU的物理感知数字孪生模型


3. 液冷数据中心的Omniverse数字孪生:

NVIDIA利用其Omniverse平台创建液冷数据中心的全面数字孪生。这允许:

  • AI加速的数据中心设计和优化

  • 热流体动力学的实时推理

  • 虚拟测试环境

  • 预测性故障维护

  • 能源使用预测和碳足迹减少


图5:AI加速数据中心数字孪生,展示了如何整合各种技术以实现全面的数据中心建模和优化。


研究重点领域

为继续推进冷却技术,NVIDIA正在几个关键领域进行研究:

1. 次级流体、腐蚀和侵蚀研究:

  • 评估多种冷却液的热性能

  • 使用ASTM-D1384和D8040标准进行腐蚀测试

  • 分析冷却液中的生物生长

  • 进行侵蚀研究,确定ASHRAE侵蚀流体速度限制的适用性


2. 机架功率密度与DLC冷却技术路线图:

  • 分析热限制和机械限制

  • 将冷却技术映射到功率密度范围

  • 探索超高密度机架的先进冷却技术


3. 数据中心效率和总拥有成本(TCO)分析:

  • 比较空气冷却与混合空气和液体冷却

  • 分析能源效率和总拥有成本(TCO)

  • 评估可持续性策略


图6:NVIDIA全面的数据中心可持续性方法,涵盖了可持续设计、部署和运营、监控和自动化以及生命周期管理等方面。


4. 废热回收:

  • 开发原型,从废热回收单元(WHRU)生成电力

  • 探索从液冷机架回收废热的可能性

  • 与研究中心合作优化废热利用


5. ARPA-E COOLERCHIPS项目:OMNICOOL

NVIDIA正参与美国能源部的ARPA-E COOLERCHIPS项目,专注于高效可靠的数据中心冷却。OMNICOOL项目目标包括:

  • 使用混合D2C两相和单相浸没冷却系统提高能源效率(目标:PUE <1.05)

  • 提高功率密度挑战(目标:>160 kW/机架)

  • 克服地理位置和天气限制(目标:适合ISO 40'集装箱,环境温度≥40 °C)

  • 强调环境影响和可持续性(目标:GWP <1,零水消耗)


该项目包含几项创新:

  • 创新的两相多孔金属冷板技术

  • 用于紧凑型自由冷却器的非正交、互锁线圈阵列

  • 机架内分布式泵送和流分离系统

  • 利用分层架构的多尺度流分配系统

结论

随着继续推动AI和加速计算的边界,冷却技术在实现下一代高性能数据中心中发挥着关键作用。NVIDIA全面的冷却解决方案方法,从空气冷却到先进的液体冷却系统,确保数据中心能够满足AI工作负载日益增长的需求,同时保持效率和可持续性。


通过利用数字孪生、AI驱动优化和创新冷却设计等前沿技术,NVIDIA正在为数据中心冷却的未来奠定基础。展望未来,对可持续性、能源效率和适应性的关注将成为应对明天AI工厂挑战的关键。


计算效率和性能的提升之路仍在继续,冷却技术将与之同步发展。通过保持在这些发展的前沿,数据中心运营商和AI研究人员可以确保拥有必要的基础设施,以推动人工智能和高性能计算的下一波创新。


参考文献

[1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.



- END -



软件申请
我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。

点击左下角"阅读原文"马上申请


欢迎转载


转载请注明出处,请勿修改内容和删除作者信息!




关注我们



                      




关于我们:

深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。


http://www.latitudeda.com/

(点击上方名片关注我们,发现更多精彩内容)





逍遥设计自动化
分享特色工艺半导体(PIC/Power/MEMS)设计自动化解决方案及行业技术资讯,与广大业界朋友、专家共同交流!
 最新文章