AI数据中心的万卡集群,是如何运作的?

科技   2024-11-01 00:02   江苏  

2024年7月22号凌晨,Xai创始人马斯克在推特上正式宣布,在凌晨4:20正式启动了世界上最强的AI训练集群。

这个训练集群建设在美国田纳西州孟菲斯市,集合了10万个液冷H100芯片。然而,这在当地却引发了居民们的抗议和不满。

这样巨大的AI训练集群,每天会消耗100万加仑的水和150兆瓦的电力。 随着万卡集群,甚至10万卡集群成为科技巨头们训练AI大模型的标配,这样的巨型数据中心到底意味着什么?

消耗电力好理解,那为什么会消耗如此多的水呢?冷却系统与供电系统等关键基础设施是如何运作的?

目前,数据中心的主计算芯片开始从CPU转向GPU,可能大家对CPU、GPU这类计算芯片了解比较多,但是很少会关注配套的基础设施。

事实上,它们就像冰山藏在水下的部分一样,不仅是整个数据中心的支柱,还是至关重要的安全枢纽。

从物理结构上来看,数据中心会划分成三个系统:主机房、供电系统和冷却系统。

如果把数据中心类比成一支军队,主机房陈列的一排排机柜,像不像前线征战的士兵?他们承担着整个数据中心的核心功能——运算,而冷却与供电系统,则是军队后方的保障机构。

冷却系统负责保障士兵的健康与安全,供电系统负责粮草的运送与分配。此外,还有综合管理系统来维护兵器等等,就像数据中心的兵部尚书,虽然不在一线征战,却是起到了关键的作用。 如今一些数据中心开始由通用计算转向专用计算,其中以AI为主的数据中心,被称为智算数据中心,主力芯片从CPU变成了GPU。

这也将对所有基础设施带来巨大的挑战。

传统的CPU过去十多年的时间,一直在采用的X86的结构,CPU的功耗,包括服务器的功耗,都相对比较标准和恒定,在过去的近十多年的时间,数据中心的平均的机柜的功率密度,大概一直在3 - 5千瓦左右。

但是现在随着GPU的采用,AI模型的推理和训练需要集中大量的GPU来进行并行的浮点运算,需要通过集群的方式,通过软件互联通信,在非常小的空间里面,集中大量的GPU。

所以这使得GPU的服务器,包括单机柜的功率密度会迅速的提高。从过去的5千瓦,现在迅速的提升到了10千瓦、20千瓦、40千瓦,甚至80千瓦、100千瓦以上。 制算机柜功率密度的提升,对基础设施来说,主要有四大方面的挑战。

首先是功率密度提升之后,给散热能力带来的挑战,第二个方面,是给高效的能源供应带来的挑战,第三个是占地面积,第四是快速的部署。 GPU芯片的迅速更新迭代,给数据中心配套设施带来了挑战。那么,如何应对这个问题呢?

我们先来看一下冷却系统,为什么它会如此的耗水?

电子器件运行的时候会产生热量,而芯片对热量尤其敏感,如果过热,轻则触发芯片的自我保护机制,降低运行频率,重则导致服务器故障、业务中断,甚至烧毁邮件。

随着数据中心的功率密度越来越高,这时候如果冷却系统发生故障,留给维护人员的反应时间,可能就只有一两分钟了。

但是如果单机会到了10千万,按照过去的仿真经验,可能很快一两分钟就能到30多度,甚至40度,那就宕机了。因此芯片算力的升级,也直接带来了对数据中心冷却系统的升级需求。 随着功率密度的提升,厂商们开始转向夜冷方案,而恰恰是这个夜冷,导致了不少环保人士的抵制。

除了开头说的XAI训练集群之外,2023年,乌拉圭民众也联合抗议谷歌建设数据中心,还有新墨西哥州的农民抗议Mata数据中心的迁入,大家抵制的原因之一,就是这些数据中心耗水太多,甚至加剧了当地的干旱情况。

那为什么一冷会消耗如此多的水呢?

目前,冷却系统主要分为两个大类:风冷与液冷。

如果你进入过数据中心,那第一感觉就应该是太吵了,噪音就来自于机柜中用于给芯片降温的风扇。

风扇的作用,是将芯片的热量散发到空气中,但是如果热量全部都堆积在空气中,也会降低散热效果,所以还需要空调对空气降温。

显而易见的是空气的热交换效率较低,在功率密度不断提升的情况下,必须采用效率更高的散热介质,那就是液体。 液冷散热的原理就是通过水的蒸发吸热,来带走芯片的热量。

液冷散热也分为很多种,目前全球主流的两类是冷板液冷和浸没液冷。在国内还有一种喷淋液冷技术,喷淋也是一个比较创新的技术,但这个创新的技术,目前还是受到了一定的限制,所以用的不是很多。

冷板液冷是让冷板与芯片紧密贴合,让芯片热量传导至冷板中的冷却液,并且将冷却液中的热量运输至后端冷却。

而浸没液冷,是将整个主板都浸没在特定的液体当中。但对于目前主流的GPU设备来说,浸没液冷却不太实用,因为所有的GPU都还是按照冷板液冷这种规格来开发的,所以不太适配浸没冷却。 系统会分为一次测和二次测,一次测是将整体热量散走,并与二次测的冷却分发单元(简称CDU)来交换热量。

通常提到的液冷散热都是指二次测,由CDU将冷水分配到各个机柜中。而当前的液冷散热系统,一次测大部分也是水冷方式,最终在室外,通过水的显热交换和潜热交换,带走全部热量。

潜热交换,是水在加热或者冷却过程当中,会吸收或释放的热量,水的状态不变。而潜热交换就是水在相变过程中,如蒸发、凝结、融化、凝固的时候,吸收或释放的热量,而温度保持不变。

就像天气热的时候,如果给房间泼一盆冷水,水温慢慢升高,这就是显热交换,同时水会慢慢蒸发,这就是潜热交换,两种交换共同进行,使得水盆上方的空气温度降低。 环保人士抵制AI数据中心,就是因为万卡集群的AI数据中心浪费的水,实在是太多了。

这其实就回到规模效应了,如果说只是建一两个数据中心,比如说就是像20兆瓦,或甚至即使到100兆瓦都没事,但是如果进一步扩大,那耗水量是非常非常巨大的,可能会对当地的地下水资源有一定的影响。一定会存在数据中心和人抢水的这个问题。 那你可能想问了,就算水蒸发了,那不是还会变成雨降下来吗?为什么会被称为浪费呢?

首先,水蒸发之后变成云,飘到哪降落就不好说了,数据中心,就像个抽水机,把当地的水抽走之后,送到了其他地方,对于原本降雨量低的地区,加剧了干旱情况。

其次,数据中心对水的质量要求也不低,但高质量的水蒸发之后,如果降落在污染或者海面,这些水就很难再利用了。

同时,使用高质量的水,也意味着数据中心要和居民去抢水,可能会造成居民水不够的情况。 那问题又来了,为什么一定要用高质量的水呢?

水如果蒸发,它就会跟制冷设备的一些部件会有接触,水可能就是水雾,不管是水滴还是水雾,它到制冷设备上面,如果水质不太好,比如说酸碱度不太好,偏酸偏碱都可能会导致腐蚀。

如果钙镁离子含量比较多,就像咱们家里烧开水一样,可能水垢就会附着在表面上,一旦水垢附着在换热设备的表面,带来的影响就是换热设备的效率会下降。 有报道称,每个数据中心平均每天要消耗100万到500万加仑的水,XAI万卡集群,每天消耗100万加仑的水,可供3,000多户家庭使用一天。

而GPT3在训练期间消耗了700万吨水,后续的推理阶段,每回答20个问题,就相当于倒掉了一瓶500毫升的矿泉水。 NPJ的一份名为数据中心用水调查报告就显示数据中心耗水来源57%是饮用水,这其中还存在耗水不透明度的问题,长此以往,甚至会造成气候风险,所以难怪AI数据中心会遭到抵制了。 也有企业做过海底数据中心,如此一来,不就解决了耗水的问题吗?

但是很遗憾,这就涉及到了冷却系统里面面临的另外一个大挑战——经济账的问题。

海底数据中心,就是把服务器放置在壳体内,并且沉到海水里,因为海水的温度较低,可以直接为壳体降温,而且不需要额外补充机械能,听上去是一个既节能又环保的方案,对吧?

但是这将对技术提出更高的要求,因为沉到海水里边,对这个数据中心的壳体,还有整个部署,包括一些光缆还有电缆之类的,那他都要能下海,那其实提出了更高的要求,更高的技术要求,就意味着企业需要在研发上投入更多。 除了技术难题之外,冷却系统的用电也一直居高不下,有数据就显示,冷却系统通常占数据中心平均电力消耗的40%。

不少的巨头都在努力的降低冷却系统的能源消耗,但是搞不好反而会弄巧成拙。

有论文研究称,数据中心将送风温度提高1摄氏度,可以降低大约2% - 5%的制冷功率,因此数据中心开始呈现把冷却系统温度从75华氏度提高到85华氏度的趋势,连谷歌也采取了这样的做法。

但是这个做法是挺危险的,这相当于设置的温度距离数据中心能够承受最高温度的缓冲区间,缩窄了,反倒会导致系统性风险。

比如说021年,新加坡的一家数据中心运营商,为了节省冷却成本,将温度提高到了危险的临界水平,结果导致数据中心服务器大面积故障,这种情况持续了将近一周。

同时这篇论文也发出了警告,数据中心受到热攻击的原因之一,就是因为采用了激进的冷却策略,也就是系统温度设置的太高,减少了容易度。所以如何让冷却系统更加节能,成为了AI时代的挑战之一。 要降低冷却系统能耗,从节能角度来讲,其实可以分为三大方向,一个是从风侧来做自然冷来做节能,另外的话就是水侧自然冷,还有就是氟侧自然冷。

所谓的自然冷(free cooling),是指利用室外的低温冷源,来给室内降温,达到降低能耗的一种技术方法。 而风侧自然冷,就是在窗户边放一些风扇,向房间吹风,加速室外冷空气的进入。水侧自然冷和氟侧自然冷,则是将导体替换为了水和氟。

风侧自然冷,受地理条件限制比较大,它会把新风引到机房里来,对空气质量有一定的要求。就目前来讲,还是更专注于水侧自然冷和氟侧自然冷。 氟侧自然冷就是我们常规的风冷空调在温度相对来说比较低,以及冬季的时候,通过氟泵工作来利用室外自然冷源,就不需要开压缩机了。

压缩机的功耗是整个系统里边制冷功耗最大的部分,如果可以在一部分时间里边,把压缩机替换成氟泵,因为氟泵的功率是很低的,当然可以大大的节能耗。

水测自然冷做节能的话,它就是通过室外的一些蒸发之类的,把冷的能力,间接的带到室内来。 风侧自然冷,受到地理限制比较大,水侧自然冷,蒸发的水又太多,所以目前既省电又省水的方案,就是氟侧自然冷。

氟侧自然冷,就是一个无水的智能解决方案,天然的它就不需要水,它是靠氟泵靠冷媒来实现自然冷的,不需要靠水的蒸发。

但是这种方式对技术,提出了很大的挑战,需要长期的积累经验,才能够控制好整套系统,怎么才能更好的控制,然后让氟泵的工作时长更长一点点,然后让氟泵和压缩机的切换能够更加的稳定,更少的波动,然后让它更节能,它的难度,是比做水测自然冷需要更难的。 那除了节能环保之外,如今数据中心,还面临着芯片升级的挑战。

英伟达新出的Blackwal芯片,由于功耗上升,老旧的数据中心难以直接部署,一些公司由于业务转型,需要将以CPU为主的计算设备,升级到以GPU为主,那如何改造,就成为了当下的难题。 既然冷却系统可以升级,为什么还有一些企业,会选择花很多资金重建数据中心呢?这就不得不说到旧机房升级的瓶颈了。

制冷主要就是空间的问题,一般情况下,从当前的设计经验来看,制冷设备的空间往往可能是够的,因为原先的单机柜6千瓦,那现在单机柜40千瓦,那单机柜的功率密度提升了6倍还多,原先一个6个机柜解决问题,现在只需要一个机柜。

行业里边有一个说法是,数据中心的尽头其实是电力,所以在扩容的时候,往往首先要考虑的还是电力的问题。

那为什么电力是制约数据中心升级的因素,AI爆发,又给供电系统带来了哪些挑战呢? AI数据中心带来了大量的电能消耗,未来将给电网也会带来供应缺口。

其实不只是外部的电网,AI数据中心内部的供电,也面临着巨大的压力,其中很大的因素就是在于占地面积。

因为整个的功率密度提升,供配电和IT房的占比,出现很大的偏差,占地面积成为了一个很大的挑战。正因为这些难点,成为了老旧数据中心升级困难的原因,其中最为棘手的就是占地问题了。 由于服务器功耗增加,需要额外的供电设备,但是供电设备实在是太占地了。

从传统的数据中心监测来看,它会有传统的这个中压室、电力室,还有一些它的这个电池室等等,这些传统的产品,都会通过线来做连接,物理连接由于它是分散于各个厂家的产品,它的标准的制式、标准的体积都不是很融合。

另外一个,它们的整个的部署的物理距离,中间一般都是都会有一些间隙,所以有限的空间,成为了制约老旧数据中心升级的痛点,想发展AI,重建数据中心成为了更好的选择。 但是数据中心的设计寿命,有20 - 30年,GPU换代一般是3 - 5年,那总不能隔几年就重建一次吧?

对此,行业发展,提出了新的方向,那就是设备一体化。

我们针对整个占地面积,推出了交流、直流供配电一体化电力模组,就像我们传统的组装式的电脑现在变成了一体机是一样的。

我们通过将UPS、供配电变压器、补偿配电柜多个产品融合为一体,共提供了一个工程产品化的一个产品,这样可以将我们占地面积减少至少30%。 那除了缩小设备占地之外,供电系统的另一个趋势,是提升电能传输效率。

众所周知,每个设备都有电阻,电能在一层层设备的转换中,总会伴随着能量损失。

如此以来,为了满足服务器机柜的电能需求,前端的供配电设备需要留有更多的余度,占据更大的面积。而提升传输效率之后,不仅能够减少设备的数量,还能够降低数据中心的能耗,达到节能减排的效果。 如今全球的AI大战正打得火热,急剧增长的算力需求,促使着各大公司兴建AI数据中心,这就对整个行业提出了建设速度的要求。

毕竟AI数据中心早一天上线,就能够带来更多的经济效益。

大家也在纷纷尝试创新的解决方案,比如说木质数据中心,用木材作为关键结构部件来建设数据中心,那难道他们就不怕遇到地震、台风或者火灾啥的,把整个数据中心都弄没了吗? 尽管木质数据中心听上去是一个非常激进的概念,但是早在2019年,就有公司建成并且投入使用了。

而他们使用的,也并不是那种直接从树上锯下来的木板,而是名为正胶胶合木(cross laminated timber,简称CLT)的建筑材料。

这种材料具有极高的强度和均匀性,直接作为承重墙板或者楼板使用都没问题,同时它还有耐火的特性。

英国有栋名为STEFAS的9层楼公寓,采用了这种CLT材料建成。木质材料不仅能够满足环保的要求,还能够通过预制化,将整体的建设速度,加快40%到80%。 数据中心的建设,不光是外部的建筑,还有内部的基础设施需要去定制,而现在冷却系统与供电设备,也走向了预制化的道路。

现在目前的计算中心,客户的需要,可能是在6个月之内,要建设好这个计算中心,也是传统的建造方式所能够达成的。

但是这其中又会存在着匹配性的问题,不同的客户,有很大的需求上的差别,比如说政府和金融项目,金融客户他最在乎的就是高可靠性,对创新持稳健的态度,对绿色,也持稳健的态度。

但是对互联网公司来说,他在乎的是创新性、成本、部署速度。所以说在这两种客户之间,提供的是差异化的方案和服务。

不同的数据中心都有自己独特的需求,如果失去了定制的这个环节,是否就意味着预制化的设备难以大量的铺开呢?

所谓的预制化,其实是预制了各个部件的模块,在一个统一的平台下,可以将这些模块按需求来组装,这样就能满足不同的客户了。

虽然我们常说,AI的飞跃源自于芯片的积累,然而为芯片运行打下基石的,是基础设施的技术进步,它们如同无形的兵部尚书,在幕后默默的支持和调控着前线士兵的作战行动,让AI大模型训练顺利的推进。

随着更高能力、更多参数以及更大AI模型的投入训练,也许,我们会看到数据中心更快的升级迭代,有更多的创新技术,来支持AI大模型的技术大战。

AI光子社
专注于AIGC的技术发展和商业应用,在人工智能时代,致力于让新技术为更多的普通人赋能增效。
 最新文章