Hot Chips 2024 | 下一代NVIDIA加速计算冷却技术

文摘科技 2024-10-23 08:00 江苏

引言

在人工智能（AI）时代，计算需求正在突破传统数据中心的极限。本文旨在帮助读者了解NVIDIA开发的前沿冷却技术，以应对这些前所未有的挑战[1]。

先进冷却技术的需求

随着AI模型日益复杂和庞大，对计算能力的需求急剧增加。多GPU集群的AI工厂正成为生产AI工具的未来。让我们来看看NVIDIA的AI工厂是如何快速发展的：

图1：NVIDIA AI工厂的发展历程，从2021年的Selene（4,480个A100 GPU）到预计的下一代AI工厂（32,000个GPU，645 ExaFLOPs AI计算能力）。

这些AI工厂正在推动训练和推理能力的极限。然而，强大的计算能力也意味着巨大的热量产生，因此需要先进的冷却解决方案来维持最佳性能和效率。

数据中心冷却技术：解决方案谱系

为满足不同数据中心设置的需求，NVIDIA开发了一系列冷却技术，从传统的空气冷却到尖端的液体冷却系统。让我们探索这些冷却技术：

1. 空气冷却

空气冷却仍然是低密度到中密度机架的可行选择。空气冷却有几种方法：

a) CRAH/CRAC空气冷却：

适用于低密度机架的房间级冷却
空气吸收的热量通过CRAH传递到设施冷却水
使用架空或实心地板
实施冷通道或热通道隔离

图2：展示使用CRAH/CRAC单元的空气冷却设置，显示了气流模式和系统的关键组件。

b) 行间冷却器空气冷却：

适用于中密度机架的通道级冷却
热量通过行间冷却器和CRAH单元传递到设施冷却水
可使用架空或实心地板
实施冷通道或热通道隔离

c) 后门热交换器（RDHX）空气冷却：

适用于中密度机架的机架级局部冷却
空气吸收的热量通过RDHX传递到设施冷却水
可独立使用或与CRAH单元配合使用作为辅助冷却

2. 混合空气和液体冷却

随着数据中心密度增加，结合空气和液体冷却的混合解决方案变得更具吸引力：

a) 液体到空气侧车（L2A）液体冷却：

适用于高密度机架的通道级空气/液体混合冷却
适合传统空气冷却数据中心的空气辅助液体冷却
无需额外的液体冷却基础设施
过渡性解决方案，冷却能力有限

图3：液体到to Air Side Car（L2A）冷却设置，演示了如何与现有的空气冷却基础设施集成。

b) 液体到液体CDU（L2L）液体冷却：

适用于高密度机架的通道级空气/液体混合冷却
行级冷却分配单元可在紧凑的CDU单元中移除兆瓦级IT热量
需要额外的液体冷却基础设施
过渡性解决方案，单相液体冷却的极限

3. 直接芯片液体冷却

对于最高密度的机架和最苛刻的冷却需求，直接芯片液体冷却提供了最高效的解决方案：

液体到液体冷却分配单元在紧凑空间内提供约2MW冷却
在2.75倍小的空间内产生6.5倍于CRAH的冷却能力
功耗约为名义冷却能力的1%

图4：Direct to Chip Liquid-to-Liquid CDU Solutions

冷却解决方案的评估和优化

为确保这些冷却解决方案的有效性，NVIDIA采用了一系列评估标准和建模技术：

1. L2A CDU评估：

设计和构建模拟液冷服务器的仿真器
建立受控实验室环境
根据产品要求进行性能评估
使用CFD/FNM（计算流体动力学/流网络建模）构建数字孪生

2. L2L CDU评估：

设计和构建模拟液冷服务器的仿真器
建立受控实验室设置
评估L2L CDU的性能
构建L2L CDU的物理感知数字孪生模型

3. 液冷数据中心的Omniverse数字孪生：

NVIDIA利用其Omniverse平台创建液冷数据中心的全面数字孪生。这允许：

AI加速的数据中心设计和优化
热流体动力学的实时推理
虚拟测试环境
预测性故障维护
能源使用预测和碳足迹减少

图5：AI加速数据中心数字孪生，展示了如何整合各种技术以实现全面的数据中心建模和优化。

研究重点领域

为继续推进冷却技术，NVIDIA正在几个关键领域进行研究：

1. 次级流体、腐蚀和侵蚀研究：

评估多种冷却液的热性能
使用ASTM-D1384和D8040标准进行腐蚀测试
分析冷却液中的生物生长
进行侵蚀研究，确定ASHRAE侵蚀流体速度限制的适用性

2. 机架功率密度与DLC冷却技术路线图：

分析热限制和机械限制
将冷却技术映射到功率密度范围
探索超高密度机架的先进冷却技术

3. 数据中心效率和总拥有成本（TCO）分析：

比较空气冷却与混合空气和液体冷却
分析能源效率和总拥有成本（TCO）
评估可持续性策略

图6：NVIDIA全面的数据中心可持续性方法，涵盖了可持续设计、部署和运营、监控和自动化以及生命周期管理等方面。

4. 废热回收：

开发原型，从废热回收单元（WHRU）生成电力
探索从液冷机架回收废热的可能性
与研究中心合作优化废热利用

5. ARPA-E COOLERCHIPS项目：OMNICOOL

NVIDIA正参与美国能源部的ARPA-E COOLERCHIPS项目，专注于高效可靠的数据中心冷却。OMNICOOL项目目标包括：

使用混合D2C两相和单相浸没冷却系统提高能源效率（目标：PUE <1.05）
提高功率密度挑战（目标：>160 kW/机架）
克服地理位置和天气限制（目标：适合ISO 40'集装箱，环境温度≥40 °C）
强调环境影响和可持续性（目标：GWP <1，零水消耗）

该项目包含几项创新：

创新的两相多孔金属冷板技术
用于紧凑型自由冷却器的非正交、互锁线圈阵列
机架内分布式泵送和流分离系统
利用分层架构的多尺度流分配系统

结论

随着继续推动AI和加速计算的边界，冷却技术在实现下一代高性能数据中心中发挥着关键作用。NVIDIA全面的冷却解决方案方法，从空气冷却到先进的液体冷却系统，确保数据中心能够满足AI工作负载日益增长的需求，同时保持效率和可持续性。

通过利用数字孪生、AI驱动优化和创新冷却设计等前沿技术，NVIDIA正在为数据中心冷却的未来奠定基础。展望未来，对可持续性、能源效率和适应性的关注将成为应对明天AI工厂挑战的关键。

计算效率和性能的提升之路仍在继续，冷却技术将与之同步发展。通过保持在这些发展的前沿，数据中心运营商和AI研究人员可以确保拥有必要的基础设施，以推动人工智能和高性能计算的下一波创新。

参考文献

[1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.

- END -

软件申请

我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用，PIC Studio都可提升您的工作效能。

点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

关注我们

关于我们：

深圳逍遥科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

http://www.latitudeda.com/

（点击上方名片关注我们，发现更多精彩内容）

逍遥设计自动化

分享特色工艺半导体（PIC/MEMS/Power/3D IC）设计自动化解决方案及行业技术资讯，与广大客户、专家共同交流、共同进步！

最新文章

光电子集成芯片的光纤熔接封装技术介绍

MEMS导向梁式压电能量收集器的设计与分析

激光雷达数据处理及分析

氮化镓技术在电力电子领域的发展与市场动态

压电致动高速空间光调制器在可见光至近红外波段的应用

Scientific Reports | 深度学习在纳米光电子结构设计和优化中的应用

基于硅基光电子技术的零串扰亚波长光栅折射率传感器

系统级封装(SiP)技术

Chiplet技术革新與挑战

类脑计算：从材料到系统

光子智能变量优化工具(PIVOT）教程

Nature Communications | Floquet拓扑耗散Kerr孤子与非公度频率梳

现代半导体先进封装技术

Hot Interconnects 2024 | 人工智能系统互连技术的未来：挑战与解决方案

双偏振IMDD系统推进数据中心连接技术

激光雷达遥感技术的最新进展与未来展望

OCP2024 | 新一代人工智能服务器设计

重磅发布 | 逍遥科技推出PIVOT：基于pSim Plus的光子智能变量优化工具

IDTechEx | 光电子集成芯片和硅基光电子的演进

电子系统从2D到4D集成技术的发展

氮化镓技术：从制造到器件加工

光纤供电与射频光纤传输：新一代网络中的复合传输系统

GaN从衬底到器件技术的进展

NVIDIA自动驾驶汽车安全开发技术综述

人工智能时代传输网络的未来规划

Applied Sciences | 集成光电子技术的核心概念与未来展望

上海交大-平湖智能光电研究院携手逍遥科技助力光电子集成芯片产业发展

Optics Express | 使用角锥型横向转移反射器进行三孔径阵列主动相位锁定

无电感低功耗低电压交叉耦合调节式共源跨阻放大器设计

激光雷达数据获取系统

人工智能如何重塑数据中心基础设施

仿真技术推动光/微电子产业高质量发展——逍遥科技第六届仿真技术报道

激光雷达遥感技术原理与应用

通过制造感知反向设计来优化光电子集成芯片

Acacia | 未来光传输网络为人工智能时代做好准备

激光雷达遥感技术简介

Nature Photonics | 通过可控合成时间光子晶格的量子态处理

氮化镓技术：材料与生长工艺

Hot Chips 2024 | 人工智能普及之旅：现代计算中的挑战与解决方案

讯石专访逍遥科技：探索MEMS Studio创新方案，协同并进共创未来

硅基单片波长选择开关：利用阵列波导光栅和布拉格光栅滤波器

Chiplet架构的发展与设计

理解紧密耦合异构系统中的内存操作：Grace Hopper超级芯片指南

Optics Letters | 光学差分波前传感：利用深度学习提高灵敏度和动态范围

GaN技术在电力电子中的应用概述

基于强化学习的模拟线路设计优化

Meta | 人工智能集群光连接的挑战与机遇

Optics Express | 硅基光电子平台上高速外调制宽可调谐激光器

Lightmatter | 光子技术与人工超级智能的道路

基于波导介电网络的偏微分方程求解

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉