最佳演讲人气王 | 阿里云任华华一册在手液冷不愁——《数据中心液冷系统技术规程》内容解析

科技 2024-12-05 12:18 北京

11月20~21日，为期两天的数据中心标准大会在北京国家会议中心圆满举行。大会以“AI之光照耀未来”为主题，汇聚了国内数据中心产业链的权威专家、关键企业领袖及行业精英，共同探讨AI在数据中心领域的变革与未来发展前景。《数据中心液冷系统技术规程》的主要起草人、阿里云基础设施高级专家、2022年度数据中心青年科技人才任华华受邀出席会议，并对该技术规程进行了深入解读。

智算大势

时下最火的词汇莫过于“大模型”、“Chat GPT”、“AI”、“GPU”了。AI大势，可谓浩浩汤汤，英伟达CEO黄仁勋Jensen Huang在SIEPR峰会上提到10年内AI系统的算力将比现在增加百万倍。IDC Research报告并预测了中国算力的持续高增长，预计2024～2026年算力的年均增长率超过35%+，其中2022年GPU提供的算力在总AI算力中占比约89%。

算力的强大离不开高功率密度的芯片，单GPU的热设计功率已高达1000W，NV著名的B200 GPU卡的设计功率高达1200W，1500W～2000W的芯片也在开发测试中，芯片的正常工作离不开可靠的散热，由于液体的单位体积比热容远大于空气，液冷应用于GPU的冷却，用于数据中心也是自然而然的结果。

如果说CPU的通用算力开启了液冷的上半场，GPU的AI智算则继续着液冷的下半场。IDC Research调研并预测了中国液冷服务器的规模，2023～2028年均复合增长率约为45%，预计2026年AI服务器在总服务器中占比将超过40%。

顾名思义，液冷是应用某种液体取代空气，把电子器件在运行时产生的热量带走，分为间接式与直接式，间接式以单相和两相冷板较为常用，直接式分为单相浸没与两相浸没。

背景与目标

GPU卡必须与CPU、存储、交换机等联合工作形成设备、机柜、集群、算力中心才能输出强大的算力。如果说AI的尽头是散热，散热的尽头是液冷，那么液冷的尽头则是产品与工程。

就整体冷却系统而言，芯片与ICT设备级冷却侧重于芯片与服务器内的温度场设计、冷却液与ICT设备材料的兼容性，机柜级冷却侧重机柜级的温度场设计、机柜的密封设计、冷却液的材料兼容性，房间与算力中心级则侧重机房区的温度场设计、CDU设计、冷源系统设计及支持系统。本次发布的《数据中心液冷系统技术规程》，其内容涵盖机柜级、集群级、房间与算力中心级，而芯片与ICT设备级的冷却诉诸设备制造商；按照本规程规划建设算力中心，购入ICT设备即可构建一座完善的高密度算力中心。

章节大纲

我们来看下规程的章节大纲。第3章为总述，既然液冷服务于高密算力设备，就需要匹配IT业务的可靠性，规程从液冷系统适配A/B/C级可靠性数据中心开始，选定了可靠性之后还需要考虑能效和算力得电率，采用液冷的ICT设备往往不配风扇或为部分电子器件配冷却风扇，本章提出适配液冷系统的能效与得电率指标；之后进入设计篇，设计篇重点梳理了液冷的机柜平面布局、设计参数选择、建筑结构、冷却液系统及设备、冷源系统与空调系统，并单独辟出一个章节着重描述了冷却液相关的内容，设计篇也述及了液冷配套的通风、给排水、电气、消防、智能化与智能化系统。

接下来是安装相关的内容；液冷系统投入正式运行前需要测试与验收，液冷的模拟负载与风冷有较大不同，具体的做法与要点写在第6章；运维管理相关的内容放在第7章。

内容解析

我们先来看总述章节可靠性相关的内容，按照GB50174的A、B、C级，规程给出了适配A级数据中心的冷板式、浸没式液冷系统的做法，冷却设备与冷量分配路由均设置冗余，任一组件故障均不会影响电子信息设备的正常运行。

适配B级数据中心时仅设备设置冗余，冷量分配路由不设置冗余。

适配C级数据中心时设备与冷量分配路由均无冗余。

关于能效与得电率指标，由于液冷服务器与风冷服务器在风扇与PSU的设计上有较大不同，用于浸没液冷系统的服务器无需设置风扇，用于冷板液冷系统的服务器其风扇仅负责散热10%～30%左右，PSU电源设计也随着集中供电和Busbar的应用而有所不同，因此总述的第3章提出综合算力得电率的指标，即可用于ICT设备综合算力的设计功率与总功率的比值，这里可用于ICT算力部分的设计功率不包含服务器与网络设备风扇与电源PSU损耗的设计功率，该指标可用于衡量相同电力输入条件下，可用于综合算力部分的得电率，综合算力得电率越高越好。

能效部分，较风冷场景的PUE，提出ICTPUE的指标，即数据中心在某段统计期内的总电量与综合算力耗电量的比值，这里综合算力的耗电量同样不包含服务器与网络设备风扇与PSU损耗的耗电量。我国四大典型气象区，传统冷却系统（水冷冷机+板换+冷塔+风冷冷却末端）的PUE在张北、北京、上海、深圳分别为1.2、1.25、1.3、1.34，ICT PUE为1.38、1.44、1.49、1.54，以单相浸没式液冷数据中心为例，ICT PUE为1.12、1.12、1.12、1.13，基于ICT PUE的能效优化，在张北约18.5%，在深圳可达26.4%。

选定了可靠性等级、得电率与能效目标，就需要确定设计参数，规程给出了浸没式与冷板式液冷系统的供、回液温度，供、回液温差建议值。

接下来需要根据液冷系统的类型进行液冷机柜的排布。常与业界工程师讨论，规划设计之初还不确定CPU与GPU的部署比例，如何能做到风冷、液冷的兼容？如何做到风冷、液冷的比例灵活可调？第4.4建筑与结构章节给出了模块化的平面布局思路，当需要部署浸没液冷服务器时，可部署整列浸没液冷机柜和浸没型CDU换热单元，当需要部署冷板服务器时，可部署整列板冷机柜和冷板型CDU和风冷补冷末端，当需要部署风冷服务器时，可部署整列风冷机柜和风冷冷却末端；换热末端可作为风冷机柜、液冷机柜的分界，而冷源系统则可共用，也就是风、液同源。

风液同源的系统应该如何搭建？我们给出了两个例子，一个是风冷的冷却末端和液冷系统用的CDU可以共同挂在一个冷却水的环网上，这是时下最为流行的风液同源。当然这里的风冷冷却末端我们也可以采用直接新风型的AHU和间接蒸发式的AHU的。

风、液同源的冷源系统如何搭建，答案在第4.6章节，举个例子，风冷的冷却末端和液冷系统用的CDU可以挂在同一个冷却水的环网上，也就是风、液同源；风冷的冷却末端也可以采用直接新风型或间接蒸发式的AHU。

最新出的GPU芯片与冷板服务器，冷却液的供液温度可设定为24度、27度、32度，冷板服务器部分组件仍需要风冷，如何能做到液冷CDU和风冷冷却末端共用冷源，并同时做到风冷机柜与液冷机柜灵活部署、比例可调？也可采用列级自然冷却型磁悬浮冷机单元同时为本列的冷板CDU与风冷冷却末端供水，同样能够实现风、液同源。

液冷系统的用冷侧为液冷，但是冷源侧的室外散热设备终归要靠风冷散热到大气环境，往往选择冷却塔或干冷器；液冷的型式与风、液冷比例决定了PUE，而室外散热设备的选择决定了WUE，选择湿膜型干冷器配合冷板式CDU，则冷板式液冷数据中心在全国任一气象区可做到PUE小于1.15，WUE小于0.12，P+W<1.3；湿膜型干冷器配合浸没式CDU，则浸没式液冷数据中心在全国任一气象区可做到PUE<1.1，WUE<0.1，P+W<1.2。

既然冷却液取代空气作为散热介质，冷却液的选择就变成值得关注的重要课题。第4.7章节重点叙述了冷却液相关的内容，重点叙述了冷却液选型需关注的关键参数和冷却液的兼容性。冷板式冷却液与浸没式冷却液各有其选择方向和特点：两相冷板液冷系统通常选用高汽化潜热、低沸点（沸点约35度～40度）的氟化液，单相冷板液冷系统可选择较高沸点的氟化液或水基冷却液；两相浸没液冷系统可选择低沸点（沸点约50度）的氟化液，单相浸没液冷系统通常选择高沸点（约110度～170度）的氟化液或油类冷却液，例如合成油、硅油等。

先来看单相冷板式液冷系统的冷却液，冷却液的选型目前最常用的是水基冷却液，有配方水、乙二醇溶液、丙二醇溶液，冷却液的选型需要关注通用要求、理化性能与使用性能；理化性能需要拆解到核心指标pH值、电导率、总硬度、各类离浓度子等，这些指标关系着冷板式液冷系统长期运行的稳定性。

那么冷板式冷却液选型时需要关注的关键指标有哪些呢？关键指标的阈值如何设定？这些内容都可以在第4.7章节中找到。值得注意的是铜冷板适宜的pH值范围是8.0～10，铝冷板适宜的pH值范围是7.5~9.5。

长期运行需关注冷却液对金属的腐蚀、与非金属材料的兼容性、能否抑制微生物，冷却液中需要的功能添加剂也列在4.7章节中。

而浸没冷却液则与电子器件直接接触，运维人员在维护过程中也会有所接触，那么浸没式冷却液的选择首先需要关注安全性，其次是可靠性与兼容性，最后核查物理化学性能。

浸没冷却液选型时需要关注哪些因素，这些因素的关键指标及其阈值均在4.7章节中给出详细列表。

尤其是热工参数、绝缘相关的、损耗相关的参数均给出建议值，方便读者一站式查阅。

材料兼容性是浸没冷却液的重中之重，满足安全性的前提下，冷却液需要进行材料的兼容性测试，因为系统的物料、材料成份繁杂，兼容性测试是相当繁琐的一项任务。单相浸没式冷却液应采用浸泡测试法，两相浸没式冷却液应采用萃取测试法，测试过程应记录物料测试前后的体积变化率和质量变化率。不宜选用体积或质量变化率大于3%的物料，不应选用体积或质量变化率大于10%的物料。

在本规程中，常用材料按金属、有机、无机进行分类并标明在系统中的位置与作用，读者可根据材料所在部件与功能的重要程度决定是否需要做兼容性测试；在浸没冷却液领域，阿里曾与业界众多冷却液合作伙伴做过大量的测试，最佳实践与总结均列在第4.7章，工程师想略过兼容性测试环节迅速确定系统物料的选择，可查阅4.7章节氟化液不兼容的材料、油类冷却液不兼容的材料清单，以规避材料选择导致的系统设计与运行风险。

液冷系统的测试与验收与风冷有较大区别，尤其是功能测试、故障模拟、逻辑测试。规程的第6章梳理了相关内容。

测试前准备需要确定模拟负载的类型与功能，测试与联调过程分为厂验测试、工艺测试、系统测试几个环节，验收过程也需要有序进行。

液冷测试用模拟假负载该怎么选怎么做？传统风冷假负载大家都很熟悉，而液冷用假负载分为直接式和间接式，直接式的假负载接触冷却介质，间接式的则不接触冷却液，冷板式液冷系统适合直接式，而浸没式液冷系统适合间接式。测试过程如何节省冷却液的消耗？如何进行故障模拟？如何进行液冷系统与智能化系统的联调？答案都可以在第6章中找到。

液冷数据中心的稳定运行同样也离不开良好的运维管理，浸没冷却液的年检、冷板冷却液的取样抽检、CDU&智能化系统的巡检、液冷专用运维工具、应急供冷装置，读者均可在第7章中找到相关内容。

总结

总结来说，液冷是从ICT设备的冷却到基础设施冷却的整体优化，其系统设计理念与工程实施均与风冷有较大不同，需要理性设计、谨慎验证方可进入大规模的工程应用。

目前随着智算的迅速崛起，算力中心的规划设计与实施会遇到诸多问题：风冷、液冷比例不确定，单机柜功率密度不确定，液冷系统类型和冷却液不好选。作为液冷系统开发与应用的先行者，阿里与CDCC联合业界同行编成的《数据中心液冷系统技术规程》，融合了所有参编单位的最佳实践，

工程师新建、改&扩建算力中心时，查阅本规程可获得液冷系统设计、安装、测试验收及运维管理的技术参考，是学习前人经验不错的机会，也欢迎读者提出宝贵的修改意见。

仅以本规程献给这个炽热的AI时代，只期待后来的您更擅长液冷。

在此一并感谢CDCC的组织，感恩钟老师的信任与鼓励，鸣谢所有的参编单位。

转发赠阅

在国家政策、“双碳”战略目标的有力指引下，数据中心加快向具有创新技术、强大算力、超高能效为特征的方向演进。液冷技术成为提高数据中心能效和降低环境影响的关键技术之一。

CDCC牵头制定了一本行业内的“操作手册”——T/CECS 1722-2024《数据中心液冷系统技术规程》。该《规程》为数据中心行业内首部工程标准，将从2024年12月1日起正式“上岗”，为数据中心的液冷系统提供了标准化的操作指南。

● 转发本文到朋友圈，并集赞20个；同时点赞视频号演讲视频，截图保存。

● 扫描下方二维码填写快递信息并上传转发截图

● 标准将于12月11日统一快递，请耐心等待。

●本次赠阅限量100本（已获赠阅不可重复填写），如有疑问请添加微信：jishn1235咨询。

● 如需额外定购，请致电010-68002770

关注我们获取更多精彩内容

往期推荐

● 智慧金融算力未来 | 2024中国金融行业数据中心发展论坛报名通道正式开启

● CDCC 2024数据中心标准大会盛大开幕 | AI七色光，照耀智算中心未来路

● CDCC 2024数据中心标准大会胜利闭幕：七色光融合，精准映射AIDC发展蓝图

CDCC

数据中心标准、技术沟通交流平台

最新文章

“2024中国金融行业数据中心发展论坛”参会指南——全面解析会议亮点与参会攻略

某金融数据中心扩容改造供配电在线割接实战

液冷板防凝露的关键措施与技术

会议全日程 | 2024中国金融行业数据中心发展论坛开幕在即——共筑数据未来，引领金融科技新篇章

451 Research | 未来核能对人工智能发展的影响

OpenAI o1 的智商已经达到120，高于普通人平均水平

面向未来的能源互联网 | 伊顿&世纪互联能源路由器发布会成功举办

浅谈江苏某数据中心空调系统设计

分布式光纤传感（Distributed Fiber Optic Sensing）发展历史

最佳演讲人气王 | 世纪互联刘学潮：数据中心国产柴发的机遇和挑战

2024年数据中心用电需求将增至20.9G，马来西亚政府延长发电厂营运期限应对

微软发布数据中心闭环液冷设计，“零水蒸发”冷却系统预计2026年开始运行

最佳演讲人气王 | 康普吴健：关键网络决定智算效率

马来西亚发布新指南以推动数据中心发展

CDCC专家探营 | 大美时代视听大数据产业园，一个有格调的高品质数据中心

GPU服务器支持的“卡数”由哪些因素决定？（上篇）

GPU服务器支持的“卡数”由哪些因素决定？（下篇）

新型TIM：散热效率提升高达70%？AI数据中心是不是可以不慌了！

更名一年后，这家企业又有新举措

NTT公司试验两相直芯液冷并推出现场试验数据中心

数字经济新动能！中国移动马山数据中心即将竣工

阿里巴巴官方回应“河源云计算数据中心失火”，对云服务未造成任何影响

最佳演讲人气王 | 抖音井汤博数据中心技术矩阵和产品套餐化研发策略

原创中标｜山西太原万家寨云谷大数据中心

科技巨头公司Meta为数据中心寻求核电支持

智慧金融算力未来 | 6大亮点曝光，EDC变革一触即发，不容错过！

世界上最智能的语言模型！OpenAI“满血版”o1大模型上线

NVIDIA GH200 内部架构探究-2

继Google的数据落地越南之后，Nvidia又在越南建智能和数据中心！

联想郝京阳：拥抱液冷：联想推动AI产业绿色高质量发展

让算力更加容易更加便宜

SK海力士将采用台积电3nm制程生产第六代高频宽內存HBM4

NVIDIA GH200 内部架构探究-1

最佳演讲人气王 | 阿里云任华华一册在手液冷不愁——《数据中心液冷系统技术规程》内容解析

NVIDIA 危？亚马逊计划推出AI芯片Trainium2

Amazon投资建造Xe-100先进反应堆

360智算中心：万卡GPU集群落地实践

绿色智算多原理兼容开放架构创新

美国商务部加强出口管制，限制中国先进半导体能力

腾讯落地全国首个风光储一体化数据中心微电网项目

CDCC 2024数据中心标准大会：海悟多场景液冷探索，风液同行，为高算力时代保驾护航

西安交通大学魏进家团队最新论文 | 微针翼歧管分布式射流微通道的数值与实验研究

约68.8亿元，1.8万机柜！兴业银行贵安新区数据中心项目开工建设

顶尖智慧碰撞，共同擘画AIDC发展蓝图

单志广：关于“算力网”和“算力网络”的几点粗浅思考

“去中国化”又一次加码，思科禁止使用原产中国的部件！

智慧金融算力未来 | 2024中国金融行业数据中心发展论坛报名通道正式开启

CDCC 数据中心标准大会 | STULZ液冷产品备受关注

惠普、戴尔抢囤中国产零部件！

2024 CDCC数据中心标准大会| 张健：智算未来，IDC变革与转型之路

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

最佳演讲人气王 | 阿里云任华华 一册在手 液冷不愁——《数据中心液冷系统技术规程》内容解析

最佳演讲人气王 | 阿里云任华华一册在手液冷不愁——《数据中心液冷系统技术规程》内容解析