最佳演讲人气王 | 阿里云任华华 一册在手 液冷不愁——《数据中心液冷系统技术规程》内容解析

科技   2024-12-05 12:18   北京  

11月20~21日,为期两天的数据中心标准大会在北京国家会议中心圆满举行。大会以“AI之光 照耀未来”为主题,汇聚了国内数据中心产业链的权威专家、关键企业领袖及行业精英,共同探讨AI在数据中心领域的变革与未来发展前景。《数据中心液冷系统技术规程》的主要起草人、阿里云基础设施高级专家、2022年度数据中心青年科技人才 任华华受邀出席会议,并对该技术规程进行了深入解读。

1


智算大势

时下最火的词汇莫过于“大模型”、“Chat GPT”、“AI”、“GPU”了。AI大势,可谓浩浩汤汤,英伟达CEO黄仁勋Jensen Huang在SIEPR峰会上提到10年内AI系统的算力将比现在增加百万倍。IDC Research报告并预测了中国算力的持续高增长,预计2024~2026年算力的年均增长率超过35%+,其中2022年GPU提供的算力在总AI算力中占比约89%。

算力的强大离不开高功率密度的芯片,单GPU的热设计功率已高达1000W,NV著名的B200 GPU卡的设计功率高达1200W,1500W~2000W的芯片也在开发测试中,芯片的正常工作离不开可靠的散热,由于液体的单位体积比热容远大于空气,液冷应用于GPU的冷却,用于数据中心也是自然而然的结果。

如果说CPU的通用算力开启了液冷的上半场,GPU的AI智算则继续着液冷的下半场。IDC Research调研并预测了中国液冷服务器的规模,2023~2028年均复合增长率约为45%,预计2026年AI服务器在总服务器中占比将超过40%。

顾名思义,液冷是应用某种液体取代空气,把电子器件在运行时产生的热量带走,分为间接式与直接式,间接式以单相和两相冷板较为常用,直接式分为单相浸没与两相浸没。

2


背景与目标

GPU卡必须与CPU、存储、交换机等联合工作形成设备、机柜、集群、算力中心才能输出强大的算力。如果说AI的尽头是散热,散热的尽头是液冷,那么液冷的尽头则是产品与工程。

就整体冷却系统而言,芯片与ICT设备级冷却侧重于芯片与服务器内的温度场设计、冷却液与ICT设备材料的兼容性,机柜级冷却侧重机柜级的温度场设计、机柜的密封设计、冷却液的材料兼容性,房间与算力中心级则侧重机房区的温度场设计、CDU设计、冷源系统设计及支持系统。本次发布的《数据中心液冷系统技术规程》,其内容涵盖机柜级、集群级、房间与算力中心级,而芯片与ICT设备级的冷却诉诸设备制造商;按照本规程规划建设算力中心,购入ICT设备即可构建一座完善的高密度算力中心。

3


章节大纲

我们来看下规程的章节大纲。第3章为总述,既然液冷服务于高密算力设备,就需要匹配IT业务的可靠性,规程从液冷系统适配A/B/C级可靠性数据中心开始,选定了可靠性之后还需要考虑能效和算力得电率,采用液冷的ICT设备往往不配风扇或为部分电子器件配冷却风扇,本章提出适配液冷系统的能效与得电率指标;之后进入设计篇,设计篇重点梳理了液冷的机柜平面布局、设计参数选择、建筑结构、冷却液系统及设备、冷源系统与空调系统,并单独辟出一个章节着重描述了冷却液相关的内容,设计篇也述及了液冷配套的通风、给排水、电气、消防、智能化与智能化系统。

接下来是安装相关的内容;液冷系统投入正式运行前需要测试与验收,液冷的模拟负载与风冷有较大不同,具体的做法与要点写在第6章;运维管理相关的内容放在第7章。

4


内容解析

我们先来看总述章节可靠性相关的内容,按照GB50174的A、B、C级,规程给出了适配A级数据中心的冷板式、浸没式液冷系统的做法,冷却设备与冷量分配路由均设置冗余,任一组件故障均不会影响电子信息设备的正常运行。

适配B级数据中心时仅设备设置冗余,冷量分配路由不设置冗余。

适配C级数据中心时设备与冷量分配路由均无冗余。

关于能效与得电率指标,由于液冷服务器与风冷服务器在风扇与PSU的设计上有较大不同,用于浸没液冷系统的服务器无需设置风扇,用于冷板液冷系统的服务器其风扇仅负责散热10%~30%左右,PSU电源设计也随着集中供电和Busbar的应用而有所不同,因此总述的第3章提出综合算力得电率的指标,即可用于ICT设备综合算力的设计功率与总功率的比值,这里可用于ICT算力部分的设计功率不包含服务器与网络设备风扇与电源PSU损耗的设计功率,该指标可用于衡量相同电力输入条件下,可用于综合算力部分的得电率,综合算力得电率越高越好。

能效部分,较风冷场景的PUE,提出ICTPUE的指标,即数据中心在某段统计期内的总电量与综合算力耗电量的比值,这里综合算力的耗电量同样不包含服务器与网络设备风扇与PSU损耗的耗电量。我国四大典型气象区,传统冷却系统(水冷冷机+板换+冷塔+风冷冷却末端)的PUE在张北、北京、上海、深圳分别为1.2、1.25、1.3、1.34,ICT PUE为1.38、1.44、1.49、1.54,以单相浸没式液冷数据中心为例,ICT PUE为1.12、1.12、1.12、1.13,基于ICT PUE的能效优化,在张北约18.5%,在深圳可达26.4%。

选定了可靠性等级、得电率与能效目标,就需要确定设计参数,规程给出了浸没式与冷板式液冷系统的供、回液温度,供、回液温差建议值。

接下来需要根据液冷系统的类型进行液冷机柜的排布。常与业界工程师讨论,规划设计之初还不确定CPU与GPU的部署比例,如何能做到风冷、液冷的兼容?如何做到风冷、液冷的比例灵活可调?第4.4建筑与结构章节给出了模块化的平面布局思路,当需要部署浸没液冷服务器时,可部署整列浸没液冷机柜和浸没型CDU换热单元,当需要部署冷板服务器时,可部署整列板冷机柜和冷板型CDU和风冷补冷末端,当需要部署风冷服务器时,可部署整列风冷机柜和风冷冷却末端;换热末端可作为风冷机柜、液冷机柜的分界,而冷源系统则可共用,也就是风、液同源。

风液同源的系统应该如何搭建?我们给出了两个例子,一个是风冷的冷却末端和液冷系统用的CDU可以共同挂在一个冷却水的环网上,这是时下最为流行的风液同源。当然这里的风冷冷却末端我们也可以采用直接新风型的AHU和间接蒸发式的AHU的。

风、液同源的冷源系统如何搭建,答案在第4.6章节,举个例子,风冷的冷却末端和液冷系统用的CDU可以挂在同一个冷却水的环网上,也就是风、液同源;风冷的冷却末端也可以采用直接新风型或间接蒸发式的AHU。

最新出的GPU芯片与冷板服务器,冷却液的供液温度可设定为24度、27度、32度,冷板服务器部分组件仍需要风冷,如何能做到液冷CDU和风冷冷却末端共用冷源,并同时做到风冷机柜与液冷机柜灵活部署、比例可调?也可采用列级自然冷却型磁悬浮冷机单元同时为本列的冷板CDU与风冷冷却末端供水,同样能够实现风、液同源。

液冷系统的用冷侧为液冷,但是冷源侧的室外散热设备终归要靠风冷散热到大气环境,往往选择冷却塔或干冷器;液冷的型式与风、液冷比例决定了PUE,而室外散热设备的选择决定了WUE,选择湿膜型干冷器配合冷板式CDU,则冷板式液冷数据中心在全国任一气象区可做到PUE小于1.15,WUE小于0.12,P+W<1.3;湿膜型干冷器配合浸没式CDU,则浸没式液冷数据中心在全国任一气象区可做到PUE<1.1,WUE<0.1,P+W<1.2。

既然冷却液取代空气作为散热介质,冷却液的选择就变成值得关注的重要课题。第4.7章节重点叙述了冷却液相关的内容,重点叙述了冷却液选型需关注的关键参数和冷却液的兼容性。冷板式冷却液与浸没式冷却液各有其选择方向和特点:两相冷板液冷系统通常选用高汽化潜热、低沸点(沸点约35度~40度)的氟化液,单相冷板液冷系统可选择较高沸点的氟化液或水基冷却液;两相浸没液冷系统可选择低沸点(沸点约50度)的氟化液,单相浸没液冷系统通常选择高沸点(约110度~170度)的氟化液或油类冷却液,例如合成油、硅油等。

先来看单相冷板式液冷系统的冷却液,冷却液的选型目前最常用的是水基冷却液,有配方水、乙二醇溶液、丙二醇溶液,冷却液的选型需要关注通用要求、理化性能与使用性能;理化性能需要拆解到核心指标pH值、电导率、总硬度、各类离浓度子等,这些指标关系着冷板式液冷系统长期运行的稳定性。

那么冷板式冷却液选型时需要关注的关键指标有哪些呢?关键指标的阈值如何设定?这些内容都可以在第4.7章节中找到。值得注意的是铜冷板适宜的pH值范围是8.0~10,铝冷板适宜的pH值范围是7.5~9.5。

长期运行需关注冷却液对金属的腐蚀、与非金属材料的兼容性、能否抑制微生物,冷却液中需要的功能添加剂也列在4.7章节中。

而浸没冷却液则与电子器件直接接触,运维人员在维护过程中也会有所接触,那么浸没式冷却液的选择首先需要关注安全性,其次是可靠性与兼容性,最后核查物理化学性能。

浸没冷却液选型时需要关注哪些因素,这些因素的关键指标及其阈值均在4.7章节中给出详细列表。

尤其是热工参数、绝缘相关的、损耗相关的参数均给出建议值,方便读者一站式查阅。

材料兼容性是浸没冷却液的重中之重,满足安全性的前提下,冷却液需要进行材料的兼容性测试,因为系统的物料、材料成份繁杂,兼容性测试是相当繁琐的一项任务。单相浸没式冷却液应采用浸泡测试法,两相浸没式冷却液应采用萃取测试法,测试过程应记录物料测试前后的体积变化率和质量变化率。不宜选用体积或质量变化率大于3%的物料,不应选用体积或质量变化率大于10%的物料。

在本规程中,常用材料按金属、有机、无机进行分类并标明在系统中的位置与作用,读者可根据材料所在部件与功能的重要程度决定是否需要做兼容性测试;在浸没冷却液领域,阿里曾与业界众多冷却液合作伙伴做过大量的测试,最佳实践与总结均列在第4.7章,工程师想略过兼容性测试环节迅速确定系统物料的选择,可查阅4.7章节氟化液不兼容的材料、油类冷却液不兼容的材料清单,以规避材料选择导致的系统设计与运行风险。

液冷系统的测试与验收与风冷有较大区别,尤其是功能测试、故障模拟、逻辑测试。规程的第6章梳理了相关内容。

测试前准备需要确定模拟负载的类型与功能,测试与联调过程分为厂验测试、工艺测试、系统测试几个环节,验收过程也需要有序进行。

液冷测试用模拟假负载该怎么选怎么做?传统风冷假负载大家都很熟悉,而液冷用假负载分为直接式和间接式,直接式的假负载接触冷却介质,间接式的则不接触冷却液,冷板式液冷系统适合直接式,而浸没式液冷系统适合间接式。测试过程如何节省冷却液的消耗?如何进行故障模拟?如何进行液冷系统与智能化系统的联调?答案都可以在第6章中找到。

液冷数据中心的稳定运行同样也离不开良好的运维管理,浸没冷却液的年检、冷板冷却液的取样抽检、CDU&智能化系统的巡检、液冷专用运维工具、应急供冷装置,读者均可在第7章中找到相关内容。

5


总结

总结来说,液冷是从ICT设备的冷却到基础设施冷却的整体优化,其系统设计理念与工程实施均与风冷有较大不同,需要理性设计、谨慎验证方可进入大规模的工程应用。

目前随着智算的迅速崛起,算力中心的规划设计与实施会遇到诸多问题:风冷、液冷比例不确定,单机柜功率密度不确定,液冷系统类型和冷却液不好选。作为液冷系统开发与应用的先行者,阿里与CDCC联合业界同行编成的《数据中心液冷系统技术规程》,融合了所有参编单位的最佳实践,

工程师新建、改&扩建算力中心时,查阅本规程可获得液冷系统设计、安装、测试验收及运维管理的技术参考,是学习前人经验不错的机会,也欢迎读者提出宝贵的修改意见。

仅以本规程献给这个炽热的AI时代,只期待后来的您更擅长液冷。

在此一并感谢CDCC的组织,感恩钟老师的信任与鼓励,鸣谢所有的参编单位。



转发赠阅

在国家政策、“双碳”战略目标的有力指引下,数据中心加快向具有创新技术、强大算力、超高能效为特征的方向演进。液冷技术成为提高数据中心能效和降低环境影响的关键技术之一。


CDCC牵头制定了一本行业内的“操作手册”——T/CECS 1722-2024《数据中心液冷系统技术规程》。该《规程》为数据中心行业内首部工程标准,将从2024年12月1日起正式“上岗”,为数据中心的液冷系统提供了标准化的操作指南。

● 转发本文到朋友圈,并集赞20个;同时点赞视频号演讲视频,截图保存。

● 扫描下方二维码填写快递信息并上传转发截图

● 标准将于12月11日统一快递,请耐心等待。

●本次赠阅限量100本(已获赠阅不可重复填写),如有疑问请添加微信:jishn1235咨询。

● 如需额外定购,请致电010-68002770

关注我们获取更多精彩内容


往期推荐

● 智慧金融 算力未来 | 2024中国金融行业数据中心发展论坛报名通道正式开启

● CDCC 2024数据中心标准大会盛大开幕 | AI七色光,照耀智算中心未来路

● CDCC 2024数据中心标准大会胜利闭幕:七色光融合,精准映射AIDC发展蓝图

CDCC
数据中心标准、技术沟通交流平台
 最新文章