最近,《2024数字中国万里行暨算力经济中国行考察报告》出版,我们将对报告内容开启连载模式。
PART III 技术演进 第五章 全栈数据中心理念落地,主要探讨了以下话题:
全栈液冷技术新突破
从专业计算到创新实践
第五章 全栈数据中心理念落地
近些年,随着云计算、大数据、AI等应用的不断普及,业界对于承载实际业务的底层数据中心IT基础设施的性能要求越来越高。这也使得包括服务器、存储在内的诸多基础设施功耗不断增加。特别是随着“东数西算”工程的启动以及“双碳”目标的提出,如何解决数据中心能源利用率低、节能技术水平不足等问题,已成为数据中心建设的首要难题。为此,全行业都在寻找行之有效的、高性价比的解决方案,促成了液冷技术的大面积应用。
2023年,液冷发展呈现出“井喷”式增长,然而这并非意味着液冷解决方案是新生技术。事实上,早在十几年前,液冷在高性能计算领域就是主流解决方案了。我国最早登上TOP500冠军宝座的“天河二号”超级计算机就采用了部分液冷解决方案。但是在更通用、更广泛的云数据中心领域,液冷虽然一直在发展,却总是显得不温不火,更多的用户是抱着试水的心态在“体验”。直到AI的爆发式增长、算力需求的指数级提升,再加上迅猛发展的生成式AI不再单纯增加数据中心的数量,而是大幅增加了运行这些数据中心所消耗的功率。液冷已成为从芯片到基础设施,整个产业未来发展的指导方向。
无论从政策角度、市场需求,还是技术的成熟度来讲,我们都可以认为数据中心已经来到了“液冷时代”。液冷正成为未来AI服务器散热的主流解决方案,其强大的散热能力和经济效率将推动数据中心的持续发展和创新。2024年不仅是国产算力加速发展的黄金期,也是液冷的放量元年。
一.全栈液冷技术新突破
据国际能源署(IEA)估算,由于需要靠大量计算才能运行的生成式AI越来越普及,2026年全球数据中心耗电量最多将达到2022年的2.3倍,可能膨胀至620至1050太瓦时(1太瓦时=10亿千瓦时)。
斯坦福大学AI研究所发布的《2023年人工智能指数报告》显示,OpenAI的GPT-3单次训练耗电量高达1287兆瓦时(1兆瓦时=1000千瓦时),甚至OpenAI每训练一次,就相当于3000辆电动汽车同时跑30多公里。
以数据中心的能耗大户CPU和GPU为例,在主流的第五代英特尔至强可扩展处理器中,铂金8593Q的TDP功耗已经达到了385瓦,其余铂金8580、铂金8558P等处理器的TDP功耗也在350瓦,这是相当惊人的数值。
GPU的表现更加“恐怖”。英伟达最新一代的H100GPU峰值功耗高达700瓦,按照61%的年利用率,每张H100每年将消耗约3740千瓦时的电量。被英伟达称为“传奇”的DGXH100共由8个NVIDIAH100加速卡组成,系统功耗最高为10.2千瓦。按照英伟达2023年底公布的H100终端用户销量数据显示,仅大型互联网客户,H100GPU全球范围内共售出约70万张,按照61%的利用率计算,要耗费约2000千兆瓦时,大约20000万亿度电。
近10年主流CPU/GPU的功耗增长(益企研究院整理/发布)
公开数据显示,2008年到2019年,CPU年功耗增长率大约为4.4%,而2020年到2023年就增长到22%;GPU功耗增长也有相应趋势,2008年到2019年的复合增长率为1.6%,2020年到2023年的复合增长率就达到了21%。芯片功耗的急剧增长,给服务器散热带来了非常大的挑战。同理,数据中心的能耗管理也已刻不容缓,否则未来数据中心散热设备的耗电量将会超过IT设备,从而让计算“背上的包袱”越来越重。
为此,越来越多的企业也将液冷作为解决数据中心散热难题、缓解数据中心高能耗问题的“关键方案”。当然,真正推动液冷普及的因素是多方面的,还包括技术进步、需求迭代和政策引导等等。
早在2020年,我国明确提出2030年“碳达峰”与2060年“碳中和”目标。为实现“双碳”目标,也为解决数据中心的能源利用率低、技术水平不足等问题,各级政府先后出台了相关政策,包括北京、天津、上海、重庆、广州、湖北、深圳等七省市在内启动了地方碳排放权交易市场试点工作并陆续开始上线交易。
相应的,这也从政策层面对数据中心提出了全新的挑战。一直以来,我国数据中心占用的能耗较高,年耗电量超过全社会用电量的1.5%,大多数数据中心的电能使用效率(PUE)甚至大于2。近些年,包括北上广深在内的一线城市都不约而同的出台了若干限制数据中心PUE的政策与措施。比如,北京市地方标准《数据中心能源效率限额》(DB11/T1139)中就明确提出,优先推荐达到先进值的项目(年能耗≤2万吨标煤的PUE准入值为1.25,年能耗>2万吨标煤的PUE准入值为1.2;PUE先进值为1.15),其中包括了对于碳排放、水资源消耗量等多维度的需求,目的就是为了引导粗放、低能效的传统数据中心建设向集约、高技术、高能效的新型数据中心变革。目前,建设绿色低碳、集约高效、安全可靠的新型数据中心,也是为了促进整个行业快速、健康、有序地发展。
当然,最核心的还是在液冷技术上的突破。散热需求的暴增引导了技术服务商的加速迭代,最终在全球大环境与国内政策导向的双重作用下,让液冷这项已经存在多年的技术获得了全面普及的市场契机。
目前看来,冷板式与浸没式是当下最主流的两种液冷散热方式,其中又以冷板式技术的发展更为成熟、接受程度更高、成本更可控。不过,这里提到的冷板式液冷并非只包括全覆盖式,事实上由于设计原理不同,冷板式液冷需要把散热的设备固定在冷板上(比如CPU、GPU等),液体经过冷板将设备的热量传递带走,从而实现散热,这属于间接接触型液冷散热。
在数字中国万里行考察团队的调研过程中,我们看到不少数据中心采用的都是风液混合模式,即服务器内主要热源采用液冷冷板套件进行冷却,其余热源仍采用风冷方式进行冷却。如此一来,既能够借助混合冷却方式大幅提升服务器散热效率,又可以降低冷却系统能耗,增强服务器可靠性。如今,主流服务器供应商都提供这样的散热方式,也因其超高性价比为广大用户所接受。
1.
冷板式液冷:全液冷覆盖
冷板式液冷在服务器内部首先解决的是CPU和GPU等高功率芯片的热点问题,让服务器有效提升液冷占比,并初步实现液冷能效对PUE的贡献。与此同时,由于其他功率器件还未完全实现液冷的覆盖,如硬盘/SSD、PCIe卡、电源等,其热量耗散仍由风扇带走,所以当前数据中心的冷板液冷服务器仍然处于“风液混合”的发展阶段。
一方面,风液并存的架构增大了数据中心基础设施的复杂程度,机房内不仅要同时维护风冷空调和液冷管路两种末端,送风温度和送液温度的设置也是一个系统工程;另一方面,随着液冷趋势的逐步产业化,以及国家对数据中心从包含PUE、WUE、CUE的更多维度、更严苛的减碳考核,服务器液冷走向全覆盖就成为了一个必然的走向。
以技术突破而言,固定配置下的定制液冷方案都属易于实现的范畴,而拥有众多“变形金刚”式配置的通用机架服务器则一直是液冷圈实现全覆盖难以逾越的难关,包含怎样实现高密度硬盘下的液冷热插拔、内存高频维护场景的便捷拆换、层出不穷的PCIe卡的液冷解耦覆盖、电源在风冷液冷下的无缝切换等等,以及必须搭配的更加精细化、智能化的流量分配、调节机制。
在2U通用服务器领域,宁畅推出的首款原生全液冷通用机架服务器,让涉及服务器内解热需求的部件都实现原生基因式、标准化的液冷设计突破,包含CPU、DIMM、SSD/HDD、GPU、PCIe卡、PSU等,通过OCPUQD/UQDB液体连接器以及特殊高分子材料管路的互通连接,实现整机液冷的全面、解耦覆盖。
宁畅的解决方案最大亮点在于PCIe区域的首创解耦设计,以及3200W CRPS冷板PSU的首发,突破了业内服务器全液冷覆盖的关键技术瓶颈。这些原生液冷标准化设计可以移植到各种类型的机架服务器中,且支持全生命周期各部件、多规格的适配,从部件液冷模块化组合的思路出发,实现了各种应用场景,满足客户的组合需求。
相对于机架式服务器来说,刀片服务器的市场覆盖率要小很多,主要是一些注重计算密度与效率的用户在选购。但随着液冷时代来临,在冷板式液冷的全新加持下,刀片服务器也实现了算力密度、散热效率与运维管理等多维度的全面提升,对于注重空间利用率的许多高校、科研机构和企业来说也是节能低碳的新选择。
刀片服务器的代表产品就是联想海神Neptune温水水冷服务器。作为一款发布于2012年的技术产品,海神温水水冷服务器经过不断迭代,已升级到第6代。相比过往,新技术增加了对服务器电源部件水冷散热的支持。新一代联想温水水冷系统已经完全实现对CPU、GPU、内存、IO设备及电源等关键部件的全水冷散热设计,大幅提高了系统的可靠性。
温水水冷技术汇集了材料学、微生物学、流体力学、传热学等多个领域的科研成果,可以让使用该技术的服务器乃至数据中心全年自然冷却,将PUE值降至1.1甚至更低,显著提高了能源再利用效率。
实践验证,与传统风冷散热方式相比,联想温水水冷系统可以达到最高98%的热传导效率,能够将进水温度控制在最高50摄氏度,出水温度在58摄氏度左右,有效提升了整个系统的性能。即使在海南等热带地区,室外侧散热也能够实现自然冷却而不用空调或风扇等散热设备辅助,大大减少了能源消耗。
除了散热效率的提升之外,联想温水水冷还实现了余热的回收利用。比如,在冬季可以利用余热为楼宇供暖,进一步节省能源消耗。不得不说,联想是该领域的先行者,包括北京大学、上海交通大学等多家高校都已经有所应用(更多详细内容请参见第三章)。
随着液冷技术应用的深入,不少用户已经不满足于服务器层面的散热,而需要整机柜级液冷解决方案。这一点在互联网、运营商的数据中心愈发明显。
超聚变的FusionPoD系列商用数据中心整机柜液冷服务器,具有高密度、高性能、高能效、高可靠、一体化交付等特点,也是唯一一家明确表示“PUE低至1.06”的厂商。超聚变还是首个获得TÜV南德意志集团认证的品牌,证明了其在数据中心领域具有的先进智能技术及优异性能。
值得一提的是,FusionPoD for AI整机柜液冷服务器,支持多种GPU模组应用,实现4U空间内CPU、GPU和交换的一体化高密集成,支持水、电、网三总线盲插,即插即通,即拔即断。基于原生液冷设计,通过防喷射、漏液导流、漏液关断等措施保护高价值设备的可靠运行,为高价值设备增加了一层保障。
2.
浸没液冷快速推广
与多样化的冷板式液冷不同,浸没式液冷是一种直接接触型液冷,通过将服务器、存储等有散热需求的IT设备完全浸没在冷却液中,让冷却液吸收发热器件的热量实现降温。根据原理不同,浸没式液冷也分为“单相”与“相变”两种,其中“相”指的就是分子或原子的聚集状态。所谓“相变”简单说来就是液态与气态的相互转化,冷却液受热后气化带走热量,再通过冷却后液化进而循环利用。浸没式液冷是目前业界最先进,也是成本相对更高的液冷解决方案。
得益于液体比热容较大或相变潜热的优势,浸没式液冷解决方案可以有效解决高功耗的行业难题,确保CPU核温低至65摄氏度以下(比风冷方式降低约25摄氏度),在突发高频运行时不会引起CPU温度瞬间大幅变化,保障了系统运行的安全可靠性。
相变式浸没液冷解决方案以低沸点、不导电液体作为冷媒,服务器所有部件均浸没在冷媒中,所有元器件做到100%液冷,利用冷媒沸腾吸热,实现发热元器件高效冷却,为服务器运行提供了一个稳定的环境。数据中心的空调需求大为降低,节省了大部分风扇与空调投资成本。据测算,相比传统风冷机房节能在20%至30%以上,浸没式液冷PUE可低至1.1以下,并大幅度降低数据中心的噪音。
曙光数创的C8000是针对超高密度刀片服务器散热问题推出的浸没式液冷基础设施产品,在高 2600mm × 宽 2100mm × 深 1400mm 的空间内,最多可部署160个计算节点,单柜功率高达220千瓦,节省机房面积超过85%。发热部件100%采用浸没式液冷散热技术,利用15到35摄氏度的水作为冷源,实现全年自然冷却,无风扇设计相比传统风冷数据中心节能超过30%。服务器采用DC400V直流供电,减少AC/DC转换环节,系统效率高达96%以上,在满足高功耗供电需求的同时,减少了配电损耗。
总体来说,由于冷却液和发热设备充分接触,使得散热效率更高;由于没有风扇,也让噪音更低。这都是液冷技术特别是浸没式液冷技术的优势。但是,浸没式液冷的成本与技术难度同样很大,特别是冷却液的选择。数字中国万里行考察团队在调研过程中走访了位于浙江绍兴市的浙江诺亚氟化工有限公司,了解到关于冷却液发展的最新行业进展。
国产冷却液的快速发展也让浸没式液冷的成本进一步降低,让其不再是部分超算中心或者互联网大厂才能使用的“贵族技术”,而走向更多行业、更多场景。
☞ 报告连载 | 上海交通大学:优化应用部署,关注复合型人才培养
☞ 报告连载 | 华南理工大学:以多元化液冷实践打造高效绿色算力
☞ 报告连载 | 华中农业大学:释放多元算力价值,推动交叉学科应用
☞ 报告连载 | 中国人民大学:升级算力应用,打造“玉兰 10B”大模型
☞ 报告连载 | 北京理工大学:提升大模型价值,“墨子”全新升级
扫描或者点击文末“阅读原文”
可下载报告电子版
如需纸质版请注明
▼