最佳演讲人气王 | 吉利智算张国林:大模型时代传统数据中心应对多样化算力场景的成功实践

科技   2024-12-31 12:02   北京  

在通用计算仍然占据主流的今天,要满足大模型时代不同算力的部署需求,传统数据中心面临的挑战很多,诸如如何有效适配算力资源相关设备功率的上升趋势,在快速改造过程中需要注意哪些事项、成本控制如何实现,后期液冷的运营和维护也十分关键。


11月20日,在以“AI之光,照耀未来”为主题的2024第十二届数据中心标准大会(CDDC 2024) 的“大算力 智未来”专场上,CDCC专家技术组委员、浙江吉利智算信息科技有限公司副总经理张国林,以“大模型时代:数据中心如何满足多样化算力场景的实践”为题发表主旨演讲介绍了公司过去两年时间内从通用计算转向液冷,部署高密度的算力过程中的经验和体会。现根据演讲内容整理如下,供读者参考学习。


算力资源功耗不断增长与应对措施

数据总量的迅速增长和数据分析应用的需求不断提升,促进网络通信、计算和存储设备性能不断提升。通常情况下,产品每演进一代,其功率密度也会提升30%-50%。英特尔第六代至强处理器单颗CPU功耗超过500W,芯片密度也超过了120W/平方厘米。
当功率密度持续升高的芯片集中在服务器、机柜部署时,有效散热就成为急需解决的问题。与通用计算业务很少超过5kW的情况相比,如今在满配情况下超过30kW的机柜比比皆是,超算甚至已经超过100kW

自2022年起,AI业务的迅速崛起对数据中心提出了新的挑战。GPU服务器的快速部署,尤其是英伟达A100和H100系列,其单卡功耗分别达到400w和700w,算力与功耗基本成正比。大模型训练往往需要千卡以上的集群。

所有这些,都对传统数据中心的供电和散热提出了更高要求。由于新建智算中心是一个漫长而复杂的过程,从工程可行性研究、项目立项、设计到施工实施,整个EPC过程大约需要18至24个月的时间。即便在拥有专业设计团队、快速设备招标和专业施工团队的情况下,从土建工程开始到项目完工并具备交付条件,通常也需要大约一年的时间。这一周期对于需要迅速响应市场变化的AI业务来说,显得过于漫长。

因此,传统数据中心大都将重点放在改造升级上。

在改造升级过程中,考虑到通讯性能、网络、空间等各方面成本因素,企业在部署时会尽量堆放多台设备,造成堆叠过密现象。尽管供电问题可以较好解决,但散热成为很大的挑战:当热量集中在某些区域,过多热量的堆积就会有导致服务器宕机的潜在风险。

再加上国家政策对数据中心PUE值的规范要求,当传统数据中心无法满足算力带来的单机柜功耗散热要求的情况下,与液冷相结合或者直接采用纯液冷就已经成为必然。
目前主流的液冷有间接制冷和直接制冷两大方案,间接制冷包括冷板式、背板式,以及冷板加背板方式,直接制冷以喷淋式和浸没式、电子氟化液居多。
调查显示,近两年来液冷被广泛接受,但液冷服务器的渗透率并不高,冷板式液冷占据主流,通算加智算不超过10%。据今年上半年发布的《液冷数据中心市场调研报告》预测,未来三到五年内液冷市场占比将达到40%,冷板式液冷将占据整个液冷市场的93%-95%。

吉利智算传统数据中心改造的若干举措与成果

当前,数据中心运营主体分为两大类:一类是自用,主要是银行、金融、车企主机厂等行业,另一类是单纯作为运营,建成以后对外租赁。

对数据中心进行液冷改造时,自用数据中心不仅兼顾基础设施的整体运营投资成本,还重点考虑运营的安全性、改造的周期以及服务器的采购价格等,而对外运营数据中心操作比较简单,按照客户要求完成改造即可。

在吉利长兴液冷示范区(吉利科技(长兴)数据中心),目前已经建成4万核,2024年12月投入新增扩容1.5万核,其计算集群的功耗和管控集群、传输设备各不相同。

其中,智算部分专注于部署GPU集群以支持大模型训练,主要设备包括A100、A800、H800等高性能GPU,目前改造已完成,成功上架3000余卡;HPC超算部分则采用了冷板式液冷机柜,为HPC计算集群提供高效的散热解决方案,现已稳定运行超过18个月。

在上述改造过程中,吉利智算引入水冷型列间空调,确保了高功率机柜的冷量供应,同时拆除了部分房间级精密空调,并对地板下的静压腔进行了调整,以维持正常风压并作为备用冷源。
在设计上,充分考虑了GPU计算集群在2n拓扑下的高效率,单条通道配置了8个高功率机柜和2个5kW标准机柜,优化了交换组网的布局。HPC计算集群则通过冷却水主管开孔建立一次侧循环,并采用去离子水循环和CDU换热模式,进一步提高了能效。

网络设备特别是接收层、汇聚层的交换机,由于功率密度相对偏低,即使整个机柜满堆也不会超过5kW,无需进行改造。但是,改造过程也需要兼顾网络传输低延时以及管理的便捷性,模块区域计算节点需要集中布置,网络汇聚与管控节点尽量设置在风冷区域,保证x86服务器、网络设备有效安全散热,最大程度减少传输距离,提升网络传输的效率。

为了高效管理的便利性,在供电充分的前提下,吉利智算在部署液冷计算节点的过程中将机房模块部署在同一片区域内,中间采用玻璃隔离进行区分。在完全拆除风冷机房后,重新建设和部署以后整个过程花了一个月的时间,预计12月初基础设施将全部改好,农历2025年春节前将投入运营。

吉利智算的改造工程以时间短、不破坏原建筑结构、节能和低成本为特点,体现了高效和经济的改造理念。吉利科技(长兴)数据中心的改造成果包括7kW标准机柜、25kW高电机柜、70kW超高电机柜以及浸没式液冷机柜等多样化产品,不仅满足了当前AI算力的基础设施需求,也标志着数据中心从传统向智算的成功转变。

液冷改造和运营过程中的感受与体会

属于自用的吉利数据中心在改造过程中面临哪些问题?张国林表示,主要有四个方面。

一是服务器及相关设备的选择引发的成本问题。

业内很多运营商都是先期改造成液冷,以此为未来业务或者是招揽客户做准备,这种操作思路并不理想。虽然液冷改造的成本占比小,但当改造完成后,因服务器与液冷系统兼容性不佳,可选择的服务器厂商就大大受限,导致系统整体性能打折且运维成本大幅度上升。

吉利智算在实践中深刻认识到,服务器选型应前置且综合考量多方面因素。不仅要关注服务器的计算性能、能耗比,更要确保其与液冷技术的无缝对接。例如,在评估 GPU 服务器时,需对其与不同液冷方式下的散热效率、长期稳定性进行模拟测试。
通过与多家服务器厂商紧密合作,参与前期研发与测试环节,吉利智算逐渐摸索出一套适合自身的选型策略,在成本可控的前提下,保障了设备性能与系统稳定性,为智算中心高效运行筑牢根基。
二是液冷方式的选择。液冷方式的抉择是智算中心改造的关键环节。目前采用较多的是冷板式、单相浸没和相变浸没方式,每种方式都优劣并存。

冷板式需要考虑取水的选择,大部分数据中心改造后复用之前的冷却系统,涉及到楼板贯通、管路布置以及楼顶冷却塔运算位置等影响因素。
很多服务器采用铜管或者合金管,浸泡在丙二醇等介质中可能会产生氧化反应,逐渐腐蚀,所以CDU选型尽量与服务器供应厂家匹配、作为服务器的一部分来选择。
一次侧和二次侧的控制逻辑曾多次被疏忽,液冷提供方只关注自己的控制逻辑,与数据中心原来建设的水冷系统的控制逻辑产生矛盾,联动的时候会导致控制逻辑的不明确或混乱,例如莫名其妙的温度升高或宕机。

在液冷改造过程中值得注意的是,原有冷却侧泄水方式,阀门关闭后会因为压力把水吸住在管道上层,造成大面积的泄水事故,所以一定要计算好管道中的水量总数据,泄水时做好监测。

相变浸没效率最高,但氟化液价格较高,加上冷却液还需要检测和更换,导致整体经济性变差。单相浸没推广应用比较多,但因为不同厂商的使用不同的冷却液,所以服务器液冷介质的适配非常重要,若不经测试,很可能导致维保运营纠纷。虽然浸没式液冷的部署密度并不高,但运营的效率要求很高,毕竟服务器不像通用机柜那样可以插拔,因此维护工具很重要,需要预留充足的通道。

吉利智算在部署前对多种冷却液进行严格测试,与服务器厂商共同制定适配标准,同时预留充足维护通道,配备专用维护工具,保障浸没式液冷系统可靠运行,提升整体运营效率。在控制逻辑方面,通过投入大量精力构建统一且明晰的控制架构,确保液冷系统与原有水冷系统协同无误,通过实时监控与智能调控,有效预防温度异常与宕机。
三是标准的缺失。

虽然液冷相关产品丰富,但维护方面缺乏标准,且仅有的标准也是从服务器本身出发,并没有考虑基础设施一次侧二次侧的维护,远远无法满足实际运维需求。此外,二次侧补液方式比较简单、过程也可能较为随意。而CDU为保护服务器不受损害,更多的只是保证合适的温度和避免流量不均。

因此,要防止水温过低或过高,首先是液冷控制逻辑的设定必须特别明确,否则就会造成混乱,其次,需要定期检测二次侧的水质,包括离子浓度,防止服务器内部受到腐蚀,第三,针对变频水泵的广泛使用,需要特别关注水泵输出是否与CDU水流量匹配,杜绝因为变频器故障导致的水泵空转现象。
总体而言,只要有水流动,大部分热量还是可以带走的。

四是分区隔离还是维持性投资?这往往取决于实际需求。
分区隔离与维持性投资决策在吉利智算中心改造中至关重要。多数企业因计算设备更新换代快(通常五年内)及风液共存难题而倾向分区建设。不少传统数据中心在风液混合改造时,因未妥善处理不同类型服务器散热问题,导致系统稳定性下降。

多数企业单位选择分区建设,究其原因,一是计算设备生命周期较短,通常五年以内更新换代,二是在风液并存的时间段,通用服务器与高效服务器之间仍难以实现风液共存。
如果风液比计算节点达到0:10,部署和改造就很简单,如果风液比是二八比,做好这20%计算节点的散热工作,同时兼顾整体的美观度和高效稳定运营就是一个令人头疼的问题。表面上看,20%的计算节点不多,但相当于100个机柜中20多个机柜的散热。期待各界专家共同关注、讨论和优化。

吉利智算深入分析自身业务需求与设备布局,精准计算风液比。在分区隔离与维持性投资间找到平衡,确保资源高效利用,为智算中心可持续发展奠定基础,也为同行在类似决策中提供了有益借鉴。

结语

数据中心的转型是应对AI算力需求的必然之路。通过快速改造和技术创新,传统数据中心能够焕发新生,满足AI时代的需求。吉利智算的实践,为行业提供了宝贵的经验和启示。
展望未来,吉利智算将持续深化技术创新与管理优化,积极参与行业标准制定与技术交流,助力数据中心行业在 AI 时代稳健前行,推动传统数据中心加速向智能化、高效化转型,在全球数字经济竞争中抢占技术高地,实现可持续发展与价值共创。

关注我们获取更多精彩内容


往期推荐

● 最佳演讲人气王 | 抖音井汤博 数据中心技术矩阵和产品套餐化研发策略

● 最佳演讲人气王 | 阿里云任华华 一册在手 液冷不愁——《数据中心液冷系统技术规程》内容解析

● 最佳演讲人气王 | 康普吴健:关键网络决定智算效率

● 最佳演讲人气王 | 世纪互联刘学潮:数据中心国产柴发的机遇和挑战

CDCC
数据中心标准、技术沟通交流平台
 最新文章