Hot Chips 2024 | 人工智能时代数据中心高密度计算的散热技术

文摘   科技   2024-10-28 08:00   四川  

引言

随着生成式人工智能和大型语言模型(LLMs)的兴起,数据中心面临着功耗和散热挑战。本文探讨了管理高密度计算环境的散热技术和解决方案,重点关注从传统空气冷却向更高效的液体冷却方法的转变[1]。

人工智能革命及其对数据中心的影响

生成式人工智能和LLMs的出现开创了新的计算时代,其特点是海量数据集和密集的计算需求。现代LLMs,如GPT-3,由数十亿个参数组成,需要大量数据进行训练。

图1展示了LLMs的规模,显示GPT-3的1750亿个参数如何对应于海量数据集和GPU计算需求。


这些模型需要异常强大的计算能力,通常使用数百或数千个GPU并行工作。这种计算密度导致数据中心的功耗和热量产生显着增加。

GPU计算的兴起及其挑战

向以人工智能为中心的计算转变使GPU成为数据中心硬件的核心。与传统CPU不同,GPU专为并行处理而设计,非常适合人工智能工作负载。然而,这也带来了一些挑战:

  • 热设计功率增加:现代GPU的功耗可超过1000瓦,产生大量热量。

  • 更高密度:人工智能训练服务器每台可消耗超过10千瓦,远超许多现有数据中心的容量。

  • 散热限制:大多数数据中心设计用于一般计算和存储,而非人工智能工作负载的极端热密度。


图2显示了数据中心由于GPU计算兴起而面临的挑战,包括功耗增加和热密度提高。

传统空气冷却:局限性和低效性

历史上,数据中心一直依赖空气冷却系统来管理热量。虽然对于低密度计算环境有效,但空气冷却难以应对现代人工智能硬件的热输出。

图3描绘了数据中心的传统空气冷却系统,显示了空气流动和冷却过程中涉及的各种组件。


空气冷却的局限性包括:

  • 热传递效率低:与液体相比,空气的热导率较低。

  • 能耗高:风扇和CRAC单元消耗大量电力。

  • 空间限制:空气冷却需要移动大量空气,限制了机架密度。


这些因素导致较高的能源使用效率(PUE)比率,表明数据中心运营效率较低。

液体冷却革命

为应对高密度人工智能计算带来的挑战,业界正迅速转向液体冷却解决方案。与传统空气冷却相比,液体冷却具有多项优势:

  1. 更好的热传递:液体的热导率远高于空气。

  2. 效率提高:液体冷却可显着减少冷却功耗。

  3. 更高密度:允许更紧凑的服务器设计和更高的机架密度。

图4展示了数据中心的液体冷却系统,说明如何消除空气冷却系统中存在的大型耗能组件。


液体冷却解决方案类型

1. 直接液体冷却(DLC)

DLC涉及在产热组件(如CPU和GPU)上直接安装冷板。液体冷却剂流经这些冷板,有效地从热源处移除热量。

图5概述了直接液体冷却系统,显示了关键组件,包括冷板、冷却分配单元(CDU)和冷却塔。


DLC的优势:

  • 服务器冷却功耗最高可减少92%

  • 整体数据中心电力成本最高可减少40%

  • 服务器噪音最高可减少55%


2. 后门热交换器(RDHx)

RDHx是一种可在现有空气冷却环境中实施的混合解决方案。它涉及在服务器机架背面安装冷却面板,以冷却热排气。

图6展示了后门热交换器系统,说明它如何与现有空气冷却服务器机架集成以提高冷却效率。


3. 浸没式液体冷却(ILC)

在ILC中,整个服务器浸没在介电冷却液中,为所有组件提供全面冷却。

图7展示了浸没式液体冷却系统,描述了如何将服务器完全浸没在介电液体中以实现最大热量移除。


实施液体冷却:考虑因素和益处

在转向液体冷却时,数据中心运营商应考虑:

  1. 基础设施变更:液体冷却需要不同的管道和热交换系统。

  2. 组件兼容性:确保所有服务器组件与所选冷却方法兼容。

  3. 维护程序:液体冷却系统需要不同的维护方法。


实施液体冷却的益处包括:

  • 大幅减少冷却成本

  • 提高计算密度

  • 提高整体数据中心效率

  • 潜在的热量在其他设施中再利用

图8比较了直接液体冷却和空气冷却,突出显示了在资本支出和运营支出方面的潜在成本优势。


数据中心冷却的未来趋势

随着人工智能继续发展,我们可以预期冷却技术将进一步发展:

  • 液体冷却的广泛采用

  • 冷却剂配方的改进以提高热传递

  • 人工智能集成以优化冷却管理

  • 更加关注可持续性和热量再利用

图9展示了未来人工智能和冷却趋势的"水晶球"视图,包括人工智能推理的扩展、特定领域的LLMs,以及人工通用智能(AGI)的潜力。

结论

人工智能革命已将数据中心热管理推向极限,需要从传统空气冷却转向更高效的液体冷却解决方案。随着行业继续发展,采用这些新的冷却技术对支持下一代人工智能和高性能计算工作负载将变得越来越重要。通过了解和实施先进的冷却技术,数据中心运营商可以确保准备好应对未来的计算需求,同时提高效率并减少环境影响。

参考文献

[1] T. Garvens, "Thermal Techniques for Data Center Compute Density," Supermicro, Aug. 23, 2024.



- END -



软件申请
我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。

点击左下角"阅读原文"马上申请


欢迎转载


转载请注明出处,请勿修改内容和删除作者信息!




关注我们



                      




关于我们:

深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。


http://www.latitudeda.com/

(点击上方名片关注我们,发现更多精彩内容)





逍遥设计自动化
分享特色工艺半导体(PIC/Power/MEMS)设计自动化解决方案及行业技术资讯,与广大业界朋友、专家共同交流!
 最新文章