国产万卡液冷智算中心的设计要点

科技   2024-11-11 11:59   北京  

本文根据华信咨询设计研究院有限公司(中通服数字基建产业研究院)副主任工程师,中通服金牌内训师,天翼云高级解决方案架构师 俞佳炀老师在第十三届中国数据中心设计高峰论坛演讲内容进行整理。

11月20日,俞佳炀老师受邀,将莅临2024数据中心标准大会“智算中心液冷新动能”专场深入解读国产万卡液冷智算中心的设计精髓。

扫码报名参会

1

设计理念

今年,华信设计院完成了全国第一个国产公有云万卡液冷智算中心的设计,也就是天翼云京津冀节点,并在6月上线,总投资22亿元,建设国产化GPU液冷服务器1250台,可提供3750P的国产化算力,目前已经平稳运行了3个月。

设计建设万卡池之初,我们面向大模型的大算力、大功耗、复杂技术和供应受限等四大挑战,形成四项核心设计理念。第一个挑战,大模型参数不断地扩大,对于单集群算力要求越来越高。我们可以看到,参数量规模已经从GPT3的千亿快速发展到GPT4的万亿。因此我们坚持单集群万卡组网,打造满足千亿到万亿级参数智算集群。第二个挑战,智算服务器功耗高,相当于通算服务器的10倍,对于绿色低碳提出更高的要求。因此,我们充分融合液冷技术打造新一代的AIDC基础设施。第三个挑战,大模型技术栈复杂,不仅是简单GPU卡的堆叠,还包括RDMA无损网络等技术。针对这个挑战,我们天翼云全面升级算、存、网的能力,提供云智一体化服务。第四个挑战,国外高性能GPU芯片存在“卡脖子”风险。因此端到端全栈能力的自主可控,以及国产智算生态的培育,显得尤为重要。

为了实现真正的单集群万卡的组网,我们创新性地采用了网络中置、算力分层的“魔方型”布局。这种创新的布局一体化解决了万卡集群的设备组网、空间限制和工程实施三大难点。既实现了机房架构布局与算力组网布局高度兼容,也支持单集群在横、纵两个方向上的弹性扩容,总空间可支持最大3万卡,集群内任意一点到核心层的线缆长度最短,整体体现了我们在AIDC机房布局中的最优解决方案。

为了实现绿色低碳的目标,我们在液冷机房内采用端到端液冷技术,形成支持快速弹性扩容的AIDC解决方案。我们通过采用小母线实现了不同功率需求的弹性供电,采用多种冷源支持不同发热量的机架弹性供冷,通过优化机房供冷气流组织提升制冷效率,从而实现中国电信一直强调的“两弹一优”的建设模式。与此同时,我们基于AIDC液冷建设经验,沉淀形成“翼立方”DC舱建设模式。这是一种集成了液冷和风冷两种不同机柜的标准化模块,完美适配了智算集群中液冷服务器和风冷交换机的安装需求,并且具有根据不同组网规模灵活调整风液机柜配比的优势,可实现不同场景下的快速复制。基于“翼立方”的优势,让我们在去年英伟达芯片禁售之后,机房配套侧快速从英伟达H800方案切换到910B国产化方案,大大节省了机房改造的成本和时间。

智算集群的构建面临着复杂技术要求,不仅仅是GPU卡的简单堆叠,基于统一云底座,实现了算、存、网的全面升级。围绕大模型对于智算基础设施的要求,在算力方面,我们的万卡互联单集群算力达到3.75EFLOPS(FP16);在存储方面,我们具备自研的HPFS方案,构建了PB级高性能存储,可实现万亿参数模型10分钟完成加载;在网络方面,通过百Gb级高速组网,我们将上千台智算服务器互联在一起,同时实现通信时延低至微秒;基于以上的算、存、网的能力升级,我们可以为客户提供通算与智算一体化供给的体验,客户在使用万卡池的同时,还可以使用我们在同址同内网部署的云主机、对象存储、弹性裸金属等通算服务。

最后,智算池如何实现真正的自主可控,是一个算力基础设施发展中绕不开的话题。从去年美国商务部几次颁布禁令以来,不断对GPU的传输速度、性能密度等指标加以限制,很明显是为了扼制中国自研的大参数量基础大模型训练的进程。因此,在天翼云北京万卡池工程伊始,我们就从底层的硬件开始,一直到软件、平台层,全栈式地考虑了国产化自主可控。

从基础的硬件层来讲,我们采用国产化的硬件包括一体化DC舱、国产的智算服务器、国产化的roce交换机。

从国产化的软件层来说,我们设计是基于分布式的国产云平台TelceCloudOS4.0,部署我们国产化的操作系统CTyunOS。使用超大型的分布式数据库TeleDB,满足国测的一系列要求,具备全栈的XC能力。

从国产化平台来说,对于基础设施平台,我们要求是使用高效,具备高效的异构计算能力;对于一站式智算服务平台,我们希望可以大幅降低大模型生产应用门槛;对于算力调度平台,我们采用了天翼云的息壤,全国首个算力互联互通验证平台。

2

设计方案

我们本次万卡池目标是在更大的参数量,更多数据量,更短的训练时间的情况下,来构建更高能力的基础通用大模型,因此对于单集群算力规模会要求比较高。那么具体怎么样进行测算,其实这里有一个经验公式,我们的算力集群的大小,通常是跟模型的参数量,包括训练样本量成正比,那么跟训练时间成反比。
在构建训练集群的过程中,我们优先选取高效算力的GPU来减小整个集群的规模,因为我们知道集群规模越大,它发生故障的频率就越高。考虑单卡算力的同时,也需要充分考虑更高通信效率(显存带宽、卡间互联、机间互联)和生态兼容性有利于算力释放。由于目前来看,N卡生态和性能领先优势还是比较明显,因此国产卡更需要通过构建大规模集群弥补差距。

我们在万卡池里使用了三级存储,热、温、冷。总的存储容量按80:1进行设计,即每80Pflops配备1PB的存储,1PB存储里25%是热存储,30%的温存储,45%的冷存储。在这个存储方案的设计上我们融合了云智一体的概念,即把通算和智算融合在一体。海量文件存储和对象存储都是复用本身公有云的能力,不需要再单独建设,只有并行文件的存储是为并行计算提供的,是单独随智算集群重新建设。在建设并行文件存储的时候,我们也采用了两种方式,第一种方式使用的是HPFS加上磁盘阵列的方式,性能高,造价贵。第二种方式是并行文件存储+分布式快存储,分布式服务器方式来解决,造价压低一点,但是性能略低。

网络是智算中心的骨架,网络的设计决定了智算中心的终局容量。我们在网络设计的时候遵循三个原则,一个是无收敛、二是大容量、三是高效能。在RDMA网络里面有两种技术路线,一种是IB网络,英伟达的私有技术,造价高,性能好一点。一种是RoCE网络,相对来说是开源融合的网络,造价比较低。在万卡池里我们整体使用的是RoCE网络。

方案选完了,骨架该怎么搭?到底是二层组网还是三层组网,就是看最后的业务需求发展到什么级别,上图可以看出我们三层组网最大可以做到6.5万卡,二层组网最大是1.84万卡,最后我们选择二层组网盒式加上框式交换机的组合。智算中心虽然只建了1万卡,但是未来可以扩展到1.8万卡。

通过组网示例可以看到,整个智算万卡池在设备层上下都是200G的互联,LEAF层每个交换机端口是400G,但是可以一分二,一个LEAF交换机的口可以下联两个GPU服务器的口。spine层使用的华为CE16816交换机。当采用不同的框盒的二层组网,决定了本期的容量,也决定了终局容量,容量一旦设计好再扩容不是那么容易的,需要全盘把所有的线都拆了,骨架要重新搭,所以整个设计的时候一定要提前考虑终局的容量。

如果万卡池也不够用了,为了追上国外头部玩家的脚步,我们还有10万卡甚至超10万卡的方案给到大家,比如我们使用二层的组网,我们就使用框加框,都使用576口框式交换机,最大的组网规模可以达到14.7万卡。还有一个方案是在三层引用一个CORE层的概念:LEAF、SPINE、CORE层都使用128口的盒式交换机,最大的容量可以达到52万卡。我们在10万卡以上的计算集群里通常推荐方式二,因为框框组网对框式交换机性能要求比较高,三层盒式相对更稳定。如果涉及到10万卡的集群,真的放不下,可能要引入单模的线缆,LEAF-SPINE层、SPINE-CORE层间采用单模线缆代替原多模线缆,布放距离可从80米延长至2公里,建设成本少量上浮1.5%。

万卡池不一定够用,超万卡以上的空间怎么布局?一般来说按照现在的模块化组网,一个DC舱可以容纳1024卡,万卡池就是10个液冷DC舱,需要2-3个机房,万卡集群在一层楼之间可以搞定。这样的组网里,我们会倾向把核心的网络设备放在中轴的区域,但是如果涉及到万卡以上很大概率就搞不定了,还是采用魔方式的组网,把CORE这一层放在中置区,算力分上下两层,这样你的算力延展的时候也比较方便,可以上下左右四个方向多维度进行扩展,扩展性非常好。

制冷方案如何考虑?因为我们采用的是风液混合的布局,70%的热量由液冷带走,但是服务器里面有一些CPU、内存、磁盘,以及核心交换机产生的剩下30%的热量由列间空调进行补冷带走。制冷方案在液冷里面采用的工作流体作为热传导的媒介,通过闭式冷却塔、冷冻水联合供冷,风冷补冷采用列间空调+封闭热通道的气流组织形式。根据测算,如果智算池超过千卡,使用液冷的TCO成本就开始比风冷有所下降,此时我们希望尽量采用液冷方式,以降低成本、提升PUE。

大量的液冷机房由于工期要求紧张,对原来的IDC进行了改造,所以弹性供电也可以有两种方案,一是改造的时候还是按列头柜+UPS重新扩容的方式进行改造,第二种也可以采用小母线的方式进行改造。最后综合考虑成本、改造难度和交付工期,我们倾向于小母线弹性供电的方式,整体的TCO成本对我们来说是比较有利的。经过测算,630A的小母线相对更具成本优势,弹性供电的液冷机柜最高能够达到48kW,风冷的机柜是20kW,这是现在的供电规格。

3

工程交付经验

液冷智算工程实践,提炼出“1+1+1”智算交付体系,保障万卡集群高质量交付。我们积攒了一套标准化智算建设流程和规范指引,未来可以在全国液冷智算交付时快速复制;我们使用一体化快速、可靠的智算交付工具包;我们组建和锻炼了一支覆盖智算、暖通、配套等多专业设计联合团队,沉淀了液冷智算大量实操经验。效果显而易见,北京智算万卡池,我们仅用2个月就交付上线,设计设备2000余台,设计线缆三万余条,涉及端到端交付团队200多人。通过这个项目,天翼云积累了丰富的国产万卡智算资源交付的工程化能力。 

第二个工程交付经验,京津冀是一个真万卡池,是一个大模型可以放到单集群进行训练的万卡池,而有些万卡池其实是有收敛比的,不能实现单集群训练的目的。为了实现真万卡池,本工程内首次在智算场景里使用了华为CE16816核心交换机,无论是软硬件调测、40kW的热仿真、线缆的布局都是重新规划设计的,使用CE16816之后不仅突破了万卡,而且未来最高可以扩容到18400卡。

算力集群的设计决定了机柜不同的风液比,机柜的风液比又会影响到机房内的布局,包括空调的布局、CDU的布局、整个机房模块式DC舱怎么插入等等一系列问题。我们在设计DC舱的时候,提供了多种不同风液比的热平衡的模式,整个弹性供电单列可以支持0-366kW,液冷单机柜是0-48kW,风冷单机柜是0-20kW。

最后是全方位加快工程效率。第一是专业协同,智算开始建设的时候就要考虑空间的终局容量,专业上就需要智算IT专业、土建专业、暖通专业、配套专业紧密协同。第二是工序上的协同,IDC一次侧、二次侧等配套都是同步进场,分区实施的,考虑到环保的要求,包括清洁度的指标,需要一整套统筹规划,人员怎么分批协作,怎么工序上的衔接,决定了最后的工程效率。如果等配套做完IT再进场,一百天是肯定来不及的。最后是分工协同,IT建设需要设计、监理、集成、施工等多个服务商角色相互协同。

4

探索思考

建好万卡智算池是否就高枕无忧了?智算不断的发展,留下很多的疑问和思考。第一是基于碎片化算力的高效利用,国内有这么多单位都在做智算池,未来算力在各主体之间也是碎片化的,怎么把智算池的算力汇集使用在一起,怎么加强合作?这里提出两点设想,一是RDMA拉远,中国电信试验了一个RDMA拉远,京津冀三个地区的三个智算池,100KM以内,通过一些800G的波分设备互联在一起,最后在3D并联上做了一些策略的调整,使效率训练达到90%左右,初步验证了RDMA拉远组网的可行性,把不同地区的空间上的算力汇聚在一起。第二是异构芯片的混训平台,GPU在训练的时候,算的快的GPU会等算的慢的,造成资源浪费。我们可以通过一些关键技术的突破来实现调整芯片的混训,使它们更好的协同,把任务合理分配到不同的GPU上。

接下来是算力、与水、电的协同。智算的功耗是通算大的10倍以上。一个10万卡的智算中心一年的耗水量可以超过一个50万人的城市十天的用水量。电力、算力和水,三个资源怎么进行平衡和协同,是一个非常重要的课题。我们给出一些思考,首先可以在布局上进行考虑,跟随我国“东数西算”的脚步。其次可以推广使用液冷等高效节能措施,加强资源再利用的一些方式。最后强化整个节能降碳的改造,可以使用一些可再生绿电、风水电资源。

最后是国产生态困境。英伟达以其芯片的高性能和CUDA平台超宽的护城河,在人工智能领域形成了强大的壁垒。国内在模型层百花齐放,已备案约140个,但主要基于英伟达芯片训练。芯片层也有多家自研芯片,但芯片和模型两头分散,在中间层需要M种模型与N钟芯片进行适配,工作量大难度高,因为的国内中间层薄弱生态割裂,使得模型侧和芯片侧无法形成合力,各自独立发展。

现在为了使用国产化算力,只能堆算力,堆完算力之后才能跟英伟达抗衡。现在有一些服务商,他们在做中间这一层,专门向上提前适配大模型,向下适配各个芯片厂商的算子库,希望把上下两层协同起来。希望能够通过多方面的力量,把国产化的生态做起来,解决国产化困境,希望有一天国产卡也能崛起,无论是从性能硬实力,还是生态上都能够对标英伟达,甚至超过英伟达。

关注我们获取更多精彩内容


往期推荐

● 数据中心标准大会主旨论坛:七大维度解读“AI之光,照耀未来”

● 探寻奇点:柴发机组的机遇和挑战

● 风生水起 智算中心液冷新动能

● 加速蜕变 智算中心电气与制冷新趋势

● 飞驰快车道——多维解构智算中心未来发展

CDCC
数据中心标准、技术沟通交流平台
 最新文章