从500W处理器功耗谈冷板式液冷的大爆发

科技   2024-11-01 11:51   北京  
当英特尔和AMD不约而同的将处理器热设计功耗增加到500W,就意味着散热市场将要变天了。
192核心处理器的热设计功耗高达500W
不久前,作者远赴美国旧金山,参加AMD Advancing AI 2024发布会。会上发布了包括CPU、GPU和DPU等一系列产品,而最引人关注的还是被称为“巨大飞跃”的第五代EYPC处理器。该系列产品包括Zen5和Zen5c两种架构,最多支持192核心384线程,也是目前x86家族中核心数量最多的处理器。当然多核心的代价就是功耗的提升,这款旗舰机产品的热设计功耗达到了500W,非常恐怖。

巨大但并不夸张的散热器(2U单路机型)
这也不由得让人想起上个月底,也就是9月26日英特尔发布的至强6900系列处理器。由于定位于P-core(性能核),该系列产品在提供多达128核心256线程的同时,也将热设计功耗控制在了最高500W。换句话说,当下的x86市场,面向企业应用的旗舰级处理器都达到了500W的功耗,一个新的问题出现了——传统风冷散热怕是越来越难以支撑。

500W高功耗压力迫在眉睫,冷板式液冷将迎来大爆发

这并非危言耸听,反而已经成为了不少服务器品牌的“共识”。至强6900系列处理器发布时,英特尔邀请了包括浪潮信息在内的一众合作伙伴,现场展示的不少样机都采用了硕大的散热片,甚至不少2U机架只采用了单路设计。无独有偶,在美国AMD的大会上,我看到了多个国外品牌也同样采用的是2U单路设计,同样搭载了巨大的散热片——还是原来的配方,还是熟悉的味道。

在刚刚结束的2024年度OCP(Open Compute Project)开放计算全球峰会上,液冷无疑是一个热点议题。会上,OCP成员展示了冷却环境项目组和冷板子项目的最新进展与成果,Meta、英特尔、超微、微软等多家头部企业发表了关于冷板、歧管、冷却液、快接头等液冷组件的技术创新与规范,并就通过混合冷却建设高密度模块化数据中心,以及液冷部署的并发可维护性等话题进行分享交流,我们可以看到全球层面对推进液冷产业化的探索与实践。在展区也有多家液冷解决方案提供商都展示了自家的创新型产品和方案,比如基于 OCP DC-MHS 和英伟达 MGX 架构的机箱解决方案、为兆级参数大语言模型训练和实时推论设计的液冷机柜、气液冷却侧挂式技术等等……

由此看来,业界对于高功耗散热已经提供了多元化的解决方案,也说明传统风冷解决方案在当下已经是捉襟见肘。更可怕的是对于服务器来说,CPU散热还只是一小部分,而AI算力需求的飙升使得越来越多设备需要搭配GPU算力,动辄就是大几百瓦甚至上千瓦的功耗更是巨大的散热压力,对于终端用户来说这也意味着更高的散热和能源成本。

那么问题来了——即便是如今风冷还能在一定程度上满足需求,那么下一代呢?再下一代呢?按照如今的x86处理器更新节奏、按照如今大模型应用带来的AI需求飙升,企业管理者必须考虑到未来3-5年算力需求与数据中心部署的发展问题,而能耗控制就成为了摆在眼前的首要矛盾。

由此看来,技术成熟、高性价比、安全可靠的冷板式液冷,能够充分满足高功耗、高密度散热需求,这逐步成为新型数据中心散热首选。

冷板式液冷部件优化,让安全可靠看得见摸得着

随着大模型应用激增、数据中心向高密高电发展以及人工智能、边缘计算需求的提升,数据中心、智算中心的遍地开花使得冷板式液冷的市场需求也在不断增加,市场规模持续扩大。
据著名分析机构IDC最新的《中国半年度液冷服务器市场(2024上半年)跟踪》报告显示,中国液冷服务器市场在2024上半年继续保持快速增长,市场规模达到12.6亿美元,与2023年同期相比增长98.3%,其中液冷解决方案仍以冷板式为主,占到95%以上。浪潮信息市场份额占比第一,超过了50%,持续领跑。预计2023-2028年,中国液冷服务器市场年复合增长率将达到47.6%,2028年市场规模将达到102亿美元。

其实液冷技术早在多年前就在关键计算领域普遍应用,但对于主流算力市场来说,受限于成本与应用场景,一直在近些年才逐渐被行业接受。究其原因,一方面是冷板式液冷技术发展愈发成熟,大众普遍担心的漏液问题已经得到了妥善解决;另一方面则是成本大幅度降低,尤其是针对传统数据中心对原有基础设施改造成本和难度下降,使得越来越多用户具备了使用冷板式液冷的条件,加之产业链成熟度、部件更换运维便捷性、初期投资等多维度的提升,才为冷板式液冷提供了全面普及的基础。
时至今日,几乎所有主流服务器品牌都提供了冷板式液冷解决方案,这也让用户选购的时候犯了难——冷板式液冷的差异化主要在哪里?不同品牌之间的差别有多大?如何针对自身应用场景,选择合适的解决方案?这其实可以从技术能力与解决方案两个层面来考量,技术是方案的基础,方案是技术的凝结。下面,我们就以市占率第一、提出“All in 液冷”战略的浪潮信息为例,看看冷板式液冷该如何选。

首先就是技术层面的基础部件,这部分包括冷板、CDU、集成冷源、快接头等等,也是组成冷板式液冷的关键部件。值得一提的是,这些部件虽然看起来普通,但每件产品都有诸多细节,也会影响散热与安全——比如浪潮信息的冷板都是全铜制造,在业界常见的铲齿形液冷板之外,还独创了低流阻冷板,在保持良好散热性能的同时使液体流动的时候流阻更小,为冷却液流动提供更充足的动力,大幅提高CDU利用率。

CDU全称为冷量分配单元,是液冷数据中心整体散热的部件,一般分为风液式、液液式,机架式、机柜式等等。浪潮信息CDU覆盖机架式风液CDU、机架式液液CDU、机柜式液液CDU等全系列产品。其中,最新自研的机柜式CDU集成液冷系统控制模块,具备恒温供液、恒流供液、漏液监测、防凝露、溶液质量监测等功能,适用于大中型排级或微模块级板式液冷机房场景。
许多用户可能会对液冷的安全性有疑问,尤其是担心“漏液”问题。其实随着技术的发展,这类问题出现的概率已经非常低。而为了从根源上彻底解决这一难题,给客户“吃上一颗定心丸”,浪潮信息还首创了液环式真空CDU,可以使得液冷系统二次侧均为负压,彻底杜绝了漏液隐患,在技术极简化同时实现了可靠性的大幅提升。
更有意思的是快接头,它虽然看来无足轻重,但确是关乎“漏液”与否的核心部件——由于数量多、插拔次数多、精度要求高、容错率低,快接头的可靠性在液冷系统全生命周期中至关重要。也为了让更多用户用上安全、稳定、可靠的快接头,浪潮信息积极推动UQD液冷接头标准化工作,携手第三方认证机构及英特尔共同制定UQD认证标准,这样解决了不同品牌接头互插互换带来的问题,即便服务器替代了,使用的冷板式设备还能够重复利旧,也进一步降低了客户采购成本,推动了行业标准化。

基于上述技术积累与沉淀,今年1月浪潮信息与英特尔联合发布全球首个全液冷冷板服务器参考设计,并面向业界开放,为全球液冷产业链上下游提供极具价值的参考样板,推动先进全液冷冷板解决方案在全球数据中心的大规模部署应用,实现数据中心更加绿色低碳可持续发展。

以上,就是对于单台服务器来说,所需要关注的冷板式液冷技术问题。但如今的数据中心或智算中心都会部署成百上千台设备,因此在设备选择的时候更多会考虑整机柜级乃至数据中心级的一体化设计。所以,仅提供可靠的部件和服务器还不够,有技术有能力有远见的服务器品牌更要提供安全完善的一体化解决方案,这也正是浪潮信息的价值所在。

整机柜级与数据中心级交付,让液冷从此变简单

相对于传统风冷来说,液冷设备的部件会更多,在部署和应用难度上也更为复杂,日常的运维要求也更高。因此,在我参观过的多家液冷数据中心案例中,大部分用户都是选择一体化的统一部署,至少在某个机房或者某个机柜层面选择的是一体化部署,这样尽可能将液冷的应用难度与风险都降到了最低,后续日常运维也更为简便。

但这就并非是所有品牌都能实现的,在机柜层面就要求服务器厂商具备整机柜的研发能力,而且还能够进行液冷化应用的创新。那么作为国内首家推出整机柜服务器的厂商,浪潮信息有着多年的整机柜探索经验,与京东云联合推出天枢(ORS3000S)液冷整机柜服务器,实现业界首次冷板式液冷整机柜的大批量交付,并创新推出了国内首款符合《整机柜服务器通用规范》的产品——元脑ORS6000G7整机柜服务器,并面向社区开放该产品的全部设计规范,推动实现全产业规模化应用。

元脑ORS6000G7整机柜服务器实现了开放兼容,机柜和节点的彻底解耦,同时兼容19/21英寸节点,满足多种算力部署需求;支持柜级液冷,冷板覆盖率高达90%以上,无需机房额外制冷,数据中心能耗降低25%以上,经实践验证PUE低至1.1。

据国家发展改革委等部门研究制定的《贯彻落实碳达峰碳中和目标要求推动数据中心和5G等新型基础设施绿色高质量发展实施方案》明确指出,到2025年国家枢纽节点的PUE要进一步降到1.25以下,绿色低碳等级达到4A级以上。而PUE低至1.1,这意味着已经远超国家要求,也接近于冷板式液冷散热的极限——熟悉液冷的朋友都知道,即便是成本更高、要求更苛刻的浸没式液冷,最佳成绩也只有1.049;而大规模部署条件下,一般会保持在1.08或者1.09。相比之下,实用性更强、成本更低的冷板式液冷已经可以将PUE控制到1.1,这说明浪潮信息已经在尽力挖掘冷板式散热的潜力,也体现了其领先的技术水平。
如果你觉得整机柜解决方案还不能满足特定场景数据中心需要的话,浪潮信息还提供了液冷数据中心整体解决方案,其中包括了上述提到的所有内容,从室外液冷一次侧循环冷源到室内CDU、集液器、液冷二次侧循环、液冷服务器等全线布局,为用户全方位打造从规划、建设到实施的液冷数据中心交钥匙工程。当然,这种解决方案一般都需要基于实地情况因地制宜,用户可按需选用模块化、预制化等建设模式,实现了算力规、建、运的全面支撑。

为进一步推动液冷产业化,浪潮信息提出了2025年实现风液同价的目标,为此浪潮信息不断优化液冷产品的设计和工艺。截至目前,浪潮信息已经拥有500多项液冷技术领域核心专利,已参与制定与发布10余项冷板式液冷、浸没式液冷相关设计技术标准,并牵头制定《模块化数据中心通用规范》国家标准,牵头编写国内首批冷板式液冷核心部件团体标准,对液冷产业的快速发展及液冷技术的大规模普及建设具有重要的指导意义。
正如我们在文章开篇提到的,随着IT基础设施的能耗越来越高,传统风冷散热越来越难以满足未来的应用需求。尤其是在“万物智能化”的今天,越来越多的设备需要接入网络、接入数据中心,这对于数据中心的算力需求、能耗管理都会带来巨大挑战。更可怕的是,这种挑战来得远比想象快太多,其需求提升更是指数级而非线性增长。

套用国足评论员场所的一句话:“留给数据中心客户们的时间已经不多了”,而解决能耗挑战的最佳时机就是现在,最佳办法就是液冷,特别是性价比出色、技术成熟的冷板式液冷。

来源:IT大嘴巴

关注我们获取更多精彩内容


往期推荐

● 相约北京 直面AIDC变化与未来 | 2024数据中心标准大会报名正式开启

● 4年后将成东盟第一!CDCC专家解读马来西亚数据中心热潮

● 探秘全球最大GPU集群,20万GPU超算在路上

CDCC
数据中心标准、技术沟通交流平台
 最新文章