摘要
3月17日,中兴通讯股份有限公司制冷开发资深专家朱冰以《数据中心全域液冷解决方案分析》为题发表演讲,从原理、需求、配置条件、应用场景等多个维度对中兴数据中心全域液冷解决方案进行了分析。
现将精彩内容整理如下,供数据中心广大从业者学习交流。
数据中心液冷是一个新兴技术。数据中心早期都是以风冷为主的。这次介绍的方案,是对数据中心液冷产品做出的一个基础性单一架构。因为我们发现在整个数据中心液冷推广过程中存在一些问题:很多的方案是需要定制化的,无论是对于改造现场还是新建整体项目,需要一个普适性的基础方案,中兴通讯更愿意做单一架构之后在架构之上做一些相应变化,以此来适应不同场景实际需求,所以就有了全域液冷解决方案。
CCTC®3060
目前整个数据中心面临问题是比较明确的。
首先,热流密度上升。
随着芯片整个行业发展,芯片热流密度基本处于上升态势,到目前为止主流芯片实际热流密度,CPU这样的产品热流密度在大概在10W/cm²左右,已经处于风液切换临界点。通常来说使用风冷的散热模式,在一个比较合理的能耗跟相应温度条件下使用,合理的热流密度应该是在10W-12W左右,当然也可以做一些扩展加一些部件来提升它的效能,再往上走它的能耗会越来越高。这时就到了一个临界点,随着下一代芯片的普及,整个芯片热流密度将上升到20W/cm²,这个时候风冷不能完全解决问题,液冷要开始做普及。
第二,系统节能。
国家开始对整个数据中心能耗做了一个比较高的要求,无论是东数西算项目还是各地政府出台其它政策来说,它本身对PUE的要求已经达到比较高的程度上。除了这个以外还有阶梯电价,在不同的PUE条件下给予电价的要求,这一块也是对数据中心运维成本做出了一个限制,所以这一块也是整个数据中心需要做进一步升级的一个主要原因。
最后,高可靠性要求。
第一方面,整个液冷散热形式跟风冷是有很大差别,在风冷使用过程中只是单个IT模块內风机的可靠性,但是如果到了液冷阶段,整个液冷系统本身,它可能是一个系统对很多服务器,这个时候在这个系统里任何一个部件发生损坏或者发生更换、维护,对整个系统影响会比早期风冷大得多,所以相应对服务器液冷系统本身可靠性要求也就会要比风冷系统高得多。
第二方面,因为本身现在常做的冷却液是去离子水冷板式液冷方式,一旦发生冷却液的泄漏这一块也是很大的风险点。冷却液在使用过程中会导致铜质的冷板和系统管路之间产生电偶腐蚀,这会对水质包括后续也冷系统整体产生很多影响,这也就对系统可靠性产生了新的要求。如何处理冷却介质对液冷系统的影响是需要面对的一个问题。
最后,因为使用液冷以后,整个运维方式发生变化,早期风冷的时候,运维方式还是比较简单的,一旦使用液冷以后,冷板式液冷、后期浸没液冷相应运维方式发生很大变化。变化过程中如何提升整个可使用性和可维护性也是需要注意。
中兴通讯提出的全域液冷解决方案适用于所有的地域和场景。
这里的地域指的就是在国内或者气象条件不同场景下使用,包括在高温高湿环境,包括在相应比较友好的一些环境下。同时全场景包括了新建场景跟改造场景,不同场景对整个产品需求也是不一样的。全域方案特点是一个统一的认识,在整个方案跟客户交流过程中发生了一些不一样的想法,我们认为早期的时候,风冷系统本身能效问题中还有一块在此前一直没有得到提及就是风冷系统的控制。大多数风冷冷却系统的控制它其实是一个自控形式,它可能只是设置一个温度,好的时候可能是上位机或者DCIM给一个相应的温度,告诉它需达到什么样的温度,整个机房内部均需要达到这样一个问题,这个时候会导致一个问题,颗粒度过大。这样大颗粒度实际上是对能源的浪费,如何将整体颗粒度变得更小,液冷阶段其实可以做一些改进的。但是这个改进首先就是需要有一个统一控制系统,对整个液冷的风液混合系统做个整体控制,包括后期可能是浸没式系统做一个控制。这个控制核心一定要跟DCIM包括IT模块核心器件温度结合起来才能往下进行。
最后中兴通讯做的一个方案是模块化的结构,能够做一个快速推广。
总体来说,首先,这个方案本体是采用风冷背门的形成,作为风冷辅助散热,为了防止在气象条件导致的高温可以在系统中增加冷水机组做相应的补冷。同时,正常外部冷源选择闭式冷却塔,有些地方会选用干冷器和闭式冷却塔结合的方式。一次侧的供水有两个支路,一个是给液冷二次侧,一个是给风冷背门,后面原理图中的架构也可以根据实际需求做一些位置上的修改,也可以做成氟泵或者是风墙、间蒸类产品改造,但都以目前的基础来做修改。
上图只是列了微模块列头柜的形式布置的CDU的形式。如果是后期有更大的布置还可以做扩展,将CDU放在整个机房外面去,做一个总的机房内整体布置,这一块需要适配更大CDU的规格同时机房规模比微模块大很多,在这里就没有单一列出来。
不同场景的方案需求是完全不一样的。但通用需求是比较明确的。首先是低PUE的要求,也是国家政策的要求,同时降低PUE也会使运维成本下降。
高可靠性的要求此前已有说明,此处不再赘述。
智能化控制,包括刚才提的一个一体化控制,一体化控制如何做到更加节能,怎么对液冷系统包括风液混合系统做一个整体控制,后面会有专门讲到这点。
最后是运维,现在大多数液冷系统它的运维其实是受一个时间限制的,其中一些核心部件包括泵,包括一些阀门阀件,它实际使用寿命大概在3~5年左右就需要更换或者是需要做一个检修,能不能使用更长的相应部件对延长系统整体的大型维护周期是面临的一个问题,比如考虑延长到5年甚至8年之内不需要进行大型的整体维护,或是在整个IT设备本身使用周期内只需要做简单的巡检是需要考虑的方向。
场景不同在项目中体现出来主要是两种:改造场景和新建场景,场景改造牵涉到在线,可能不一定是同一家的IT模块。IT模块这块比较简单,只是通用接头的问题。在线问题就比较复杂,这块牵涉到配电,建筑承重甚至还有场地尺寸,因此改造场景下适配方案的原则就体现到了两个方面,整体节能或在于利用降低的PUE数值带来的电量冗余获得更多的计算能力。
对于新建场景就显得比较简单,主要体现在标准化和系统群控上。
图中白色线条部分体现了目前的主要方案,是水冷备门加冷板式液冷,一次侧同样可以供水冷给风墙、氟泵空调,图中显示了各个组件不同的温度输入输出情况。在这里有一些进回风牵涉到高温,到40℃左右,正常机房没有这么高的温度。中兴通讯在南京这边做了一个相应的高温机房尝试,后面会讲到。因为高温对IT服务器本身是有很大影响,在整个使用过程中也是需要注意这个问题。同时也有间蒸类的产品,这都是作为单一架构上的外延或者做一个补充来做一个简单说明。
下图是中兴通讯在南京这边做的高温机房的尝试,这一块使用了一个风冷背门形式,风冷背门来水由外部冷却塔提供,这个试点主要包含整个数据中心配电、UPS包括电池包这一块所有的用电基本上都在里头,唯一区别有可能没有把变压器的损耗计进去。整体下来以后,使用在去年9、10月份南京地区做了一个大致测试,这个柜子本身是一个20kW柜体,中间放了一些相应的供IT模块和假负载。整个服务器柜体采用两部分:一部分是CDU插箱式的,放在整个柜体顶部,一部分是IT模块和发热模拟模块;中间柜体是整个服务器,右侧这个柜体是一次侧水力模块,冷塔不在这里,功用是对整个二次侧和水冷背门供液,服务器机柜内部设置有分液管,需要从后面看,这个图是正面所以看不到。服务器负载稳定运行后,机房温度控制在接近40℃。同时需要考虑一个问题是,在使用过程中40℃是否会导致IT本身模块发生故障,这一块我们后续做了短时间测试,长时间测试还没有完成。在整个高温条件下包括35℃包括40℃甚至45℃条件下,整个IT模块会发生什么样的问题,是做了相应测试的。
从服务器整体在相应环境条件下做的一些测试数据记录中可以看到,基本上它的PUE,大概在1.06左右,考虑到部分电力的损耗没有计入进去,因此最后我们认为最终整个项目下来,液冷冷板式+风冷背门的形式,不采用冷冻水的补水最后PUE能达到1.08,可在南方地区的使用。如果加了冷冻水以后,基本上也一定能够保证PUE在1.15以下,这主要是考虑到有的机房要求有一个低温条件,不能够使用太高温。
在IT模块高温测试中,我们现在用的中兴通讯自己的液冷IT模块做的相应测试,最高达到45℃,目前没有发生故障,但是这个可能需要更长时间,更多的数据支撑,在短期之内并不能够明确给出一个说明。但从现在角度看应该能耐受的,这也是中兴通讯使用风冷背门主要方向的一个依据。
整个群控架构,包括了冷板式液冷、风冷部分,把它们融合在一块。整个采用了485通讯和网络通讯形式。对整个液冷系统上面所有部件做一个监控以及数据采集,最终通过内置的控制策略对系统中各部件进行调节控制,达到最优节能效果。
这里需要说明一个问题,二次侧的控制本身其实是流量控制和温度控制两种方式,其中温度控制实际上是利用一次侧流量控制来实现的,因此出去冷源外所有二次侧的控制都可以看作是流量控制,但一次侧的流量控制对二次侧的影响存在延迟,需要根据不同的位置做不同的判断。
这两种流量控制如何搭配需要考虑机柜位置,核心器件温度,气象条件等各种因素,因此需积累长期运行数据。
两者之间的先后交替一定在核心器件温度、机柜总体功耗或室外气象条件综合考虑下存在一个阈值,这一块是需要做一个相应测试的。通过这些测试最终或者是在获得大量运行数据以后,采用AI的整体调优达到最终的控制策略目标,这是中兴通讯做整个控制系统本身的一个初衷。减小控制的颗粒度,提升控制精度,从而提升系统整体能效,这是现在的主体思路,也是群控原理最终落地点。同时通过长期试验包括相应实测数据,建立相应实验室利用采集的数据进行策略的调优及软件迭代,这是中兴通讯想做的一个后续工作,也是在整个全域液冷系统方案方面做的一个尝试。
声明:文章整理自演讲实录,仅代表演讲人个人观点
关注我们
更多专题
CCTC®
联系: 电话:16620430193
微信/邮箱:995201502@qq.com