上周我们有谈到关于Blackwell过热的传言。那么目前是否有什么给其降温的方法呢?
随着AI的升温,越来越多的数据中心倾向选择液体冷却。与传统的空气冷却方法相比,液冷(尤其是直接液体冷却(DLC))的散热效率要高得多。液体的导热效率是空气的 50 到 3,000 倍,可以在产生大量热量的高密度服务器环境中实现更好的热管理。此外液冷还可以降低总体能耗。研究表明,在从空气系统过渡到液体系统时,实施液体冷却可以减少 27% 的设施用电量和 15.5% 的总体场地能耗。液体冷却的另一个优点是运行更安静,同时占用较少的物理空间。
总结起来液冷的优点就是:省电效率高,安静不占地。
今天主要介绍如下几个液冷方案:
CoolIT Systems 液冷方案:
CoolIT Systems (CoolIT) 成立于2001 年,最初为桌面游戏行业设计和分销直接液冷产品。于2014 年开始为数据中心和服务器OEM 设计产品,如今已成为市场上最值得信赖的直接液冷解决方案。公司总部位于加拿大卡尔加里,在加拿大和中国设有三个制造仓。我们前几期提到的号称最快的超级计算机El Capitan也是由CoolIT提供液冷支持的。
就在上周也就是有消息称Blackwell过热那阵子,CoolIT Systems (CoolIT) 宣布推出了 CHx1000,这是世界上密度最高的液体对液体冷却剂分配单元 (CDU)。CHx1000 专为关键任务应用而设计,专门用于冷却NVIDIA Blackwell 平台和其他现在需要液体冷却的苛刻AI 工作负载。CoolIT首席运营官Patrick McGinn 表示:CoolIT Systems (CoolIT) 推出了CHx1000,这是世界上密度最高的液体对液体冷却剂分配单元(CDU)。CHx1000专为关键任务应用而设计,专门用于冷却NVIDIA Blackwell 平台和其他现在需要液体冷却的苛刻AI 工作负载。
CHx1000 利用CoolIT 20 多年的直接液体冷却(DLC) 创新,并与领先的处理器制造商和超大规模企业密切合作开发,可提供1000kW 的冷却能力,流速高达1.5 升/分钟/千瓦(LPM/kW),接近温度为 3°C。CHx1000液对液 CDU 目前将为前所未有的十个 NVIDIA GB200 NVL72 平台机架提供冷却,并为未来热密度更高的 AI 芯片和服务器提供充足的性能。NVIDIA GB200 NVL72 的推理性能比其前代产品快 30 倍,能源效率比其前代产品高 25 倍,适用于大规模LLM。
该装置可进行列内维护,具有前后访问和现场可更换的泵、过滤器和传感器,而无需中断操作。CHx1000 专为满足 DLC系统的严格操作要求而设计,其高可靠性设计包括不锈钢管道、内置25 微米过滤器和最高等级的湿润材料,以及可动态调节冷却液流向芯片的精确温度、流量和压力的智能控制装置。可通过10 英寸触摸屏或通过Redfish、SNMP、TCP/IP、Modbus 和其他几种协议远程控制设备。
Supermicro 直接液冷:
Supermicro 推出了SuperCluster 解决方案,该解决方案将NVIDIA Blackwell GPU 集成到液冷机架配置中。此设置提高了GPU 计算密度,并包括垂直冷却液分配歧管和改进的冷板等高级功能,以实现最佳热管理。该设计可提高效率并降低运营成本,使其适用于大规模AI 部署. 今年SuperMicro 在 Computex 上宣布了针对Nvidia 推出的Blackwell GPU 进行优化的系统,包括为基于HGX B200 的系统打造的10U 风冷和 4U 液冷设备。该公司还在开发一款风冷 HGX B100 系统,以及一个 GB200 NVL72 机架,其中包含 72 个通过Nvidia NVLink 交换机互连的GPU。SuperMicro还承诺推出基于英特尔Xeon 6 的系统。
Supermicro 的液冷机架解决方案由多个内部设计的组件组成,包括:
1. 冷却液分配单元(CDU) – 包含将冷却液循环到冷却CPU 和 GPU 的冷板的泵送系统。Supermicro CDU 集成了 2 个热插拔和冗余泵送模块和电源模块,可确几乎 100% 的正常运行时间。CDU冷却能力高达100kW,可实现极高的机架密度。CDU 还提供了一个易于使用的触摸屏,可通过WebUI 访问来监控和控制机架操作,并集成在Supermicro 的 Super Cloud Composer 数据中心管理软件中。
CDU 控制系统优化了功耗,同时确保为所有CPU 和 GPU 提供高效的冷却。采用有效的防凝策略来防止任何硬件性能下降。
2. 冷却液分配歧管(CDM) – CDM 是向每台服务器供应冷却液并将较热的冷却液收集回 CDU 的分配管道。
有两种类型的CDM:
垂直 – 垂直歧管放置在机架后部,并通过软管直接连接到CDU。它们将冷却液输送到系统上的冷板,并在机架后部有入口和出口软管。
水平 – 水平歧管放置在1U 机架安装空间中的机架前部。
它们将机架后部的垂直歧管连接到机架前部带有入口和出口软管的系统上的冷板(SuperBlades和 8U GPU服务器)软管和连接器- 柔性软管用于将冷却液输送到CPU 和 GPU 冷板,并将热液返回到 CDM。
3. 冷板 - 冷板放置在 CPU 和 GPU 的顶部;通过其微型通道流动的冷却剂可以非常有效地冷却芯片。Supermicro冷板旨在减少芯片上的热点并达到超低热阻。
联想Neptune 水冷系统:
联想ThinkSystem N1380 Neptune是一款第六代垂直液体冷却系统,旨在高效冷却高密度服务器机架,无需专门的空调即可实现超过100 kW 的配置。该系统采用开环直接温水冷却,可显著降低功耗——比传统冷却方法低40%5。联想在液体冷却方面的专业知识源于其收购IBM 的服务器技术,这使其成为该领域的领导者。直接水冷解决方案可回收温水循环来冷却数据中心系统,并保持所有服务器组件冷却,从而减少数据中心运行中对耗电系统风扇的需求。针对CPU 和加速器优化的专利冷板设计可最大限度地提高加速器的散热能力,目前功耗约为700W,未来设计功耗将超过1000W。新的温水冷却设计Neptune™ 温水冷却) 将允许在不需要任何专门的数据中心空调的情况下运行。
——部分引用摘自官网