谁是智算中心安全可靠运行的幕后功臣?

科技   2024-09-23 19:50   河南  

“到2025年,AI在全球数据中心用电量中的占比将从2%增加到10%。”来自Uptime Institute的报告,揭示出AI计算需求的急剧增长,并带来能源消耗的快速攀升。


从通用算力走向智能算力,AI计算依赖于高性能的GPU、TPU等芯片加速器,一个GPU的功耗可能是数百瓦甚至更高,从计算卡到服务器再到整机柜,功率层层激增,加上AI算力的集群化部署特点,导致AI算力中心对电力消耗的需要越来越大。


国际能源署(IEA)发布的报告显示,在2022年全球消耗约460TWh之后,数据中心的总用电量到2026年可能达到1000TWh以上。全球数据中心电力需求翻倍的背后,是智算中心超大集群建设,带来的高功率和高能耗挑战。


伴随计算密度的增加,进一步地,智算中心对供电和制冷提出更高要求。供电系统作为动力心脏,任何电力波动都可能导致关键任务中断;AI任务带来的高发热量使得制冷系统的负担加重,作为重要保障,制冷系统要对其进行高效散热,确保设备稳定运行。


01

“电+冷”,为智算中心打造双重生命线


同样来自Uptime Institute的报告数据显示,数据中心发生故障的最常见原因是供配电电源问题,故障占比52%,另有19%的故障源于数据中心的冷却问题,它们形成数据中心事故或中断的两大主因。


不难理解,更高的算力意味着更高的功耗,而更高的功耗意味着更大的热量产生,进而需要更强大的制冷系统。反过来说,如果制冷系统运行不佳,设备温度升高,功耗会进一步增加,甚至设备可能因为过热而停机。此外,对于供电面临的挑战而言,不仅仅要提供足够的电力,还包括如何做到高效、稳定,避免电力波动导致故障宕机。


尤其对于AI计算任务来说,训练中断导致回退乃至训练重启,将带来更大的时间、资源浪费和经济损失。


因此,供电和制冷系统的高可靠性成为关键。“智算时代,‘安全可靠’是数据中心基础设施的最核心竞争力。”在华为全联接大会2024首日召开的数据中心基础设施峰会上,华为数字能源副总裁、华为数据中心能源及关键供电产品线总裁何波直言。



安全可靠始终是数据中心的最本质需求,步入智算时代,并行计算故障域扩大,波动负载更明显,面向通算设计的供电和制冷架构越来越不匹配。


如何做到真正的安全可靠?显然,供电和制冷不能有任何短板。在何波看来,“全链路的安全可靠,才是真正意义上的安全可靠”。这需要从规划、建设到维护,构建端到端全链保障机制,应对不断攀升的电力需求,处理陡增波动的功率跳变与热量,例如将智算制冷故障的应急响应时间由2分钟缩短至30秒,保障智算中心稳定运转。


02

全链路安全可靠,构建智算中心坚实后盾


隔离式储能、分布式架构、连续性制冷、高质量产品、专业化服务、智能化管理……为确保智算中心的全链路安全可靠,华为重塑了供电与制冷系统,全生命周期筑牢了产品设备的高可靠性。


  • 安全始于“规划”,可靠贯穿“设计”


首先,在架构安全方面,相比于多数大型数据中心采用集中式冷冻站供冷系统、数据中心传统供配电系统多为攒机方案带来的故障点多、故障域大、结构复杂等弊端,供电与制冷的分布式架构实现一箱一路电,一箱一制冷,单台故障不扩散,带来更高的架构解耦灵活性和可靠性,使得业务不断电、温度零波动,是智算数据中心故障域最小化的有效手段。


其次,在备电方案方面,锂电在数据中心的应用越来越普及,尤其在智算时代,锂电能量密度高、占地小、寿命长,是智算中心备电首选。同时,安全是一切的前提,除了选择安全可靠的电芯,还要考虑拉远部署锂电,才能最大化保护GPU等核心算力资产。


第三,在制冷的连续性方面,在智算高密场景下,制冷中断超过30秒将导致IT设备温升超标。这要求智算制冷架构需具备制冷不中断、异常恢复快两大必备能力。华为通过创新架构实现连续制冷,主备电源切换时制冷系统零中断,大幅提升了数据中心可靠性。


  • 高质量产品是“基础”,专业化服务是“保障”


为了确保数据中心具备高可靠性、高安全性,需要从产品本源安全可靠出发到专业化团队设计运维,构建端到端全链保障机制,才能确保数据中心的整体安全可靠。


一方面,在产品设计、生产等环节贯穿全链安全理念,华为从设计、生产制造源头保障了产品的安全可靠,以锂电池产品为例,华为进行了5级可靠性设计和10层多防护设计,不断提升备电系统的安全等级;另一方面,在交付服务上,将安全贯穿数据中心的“规划设计、安装交付、运维保障、优化提升”全生命周期,例如提供标准化、品质化交付,预防、预测性维护等,端到端构筑安全能力。


  • AI反哺数据中心,助力智能化安全保障


得益于GPU等算力驱动和智算中心的发展,AI应用快速面世和普及,反过来,AI也将反哺数据中心,助力智能化安全保障。例如,利用人工智能算法对锂电池的电、热、化学信号等进行实时监测和分析,识别异常电芯,进行铜排异常检测等,从而做到起火预防;以及进行掉电预防、高温预防等,提前预测和诊断故障。


03

安全可靠、弹性演进、绿色低碳,引领AI DC新时代


在智算场景高功率密度和高热量产生并存的局面下,看得出,华为将安全可靠做到了极致,打造高可靠制冷与供电,守护智算中心双重生命线。


此外,随着智算芯片演进节奏步入“一年一代”,以及数据中心耗电量的激增,数据中心的弹性演进、绿色低碳同样成为行业用户的两大需求痛点。华为智算供电与智算制冷解决方案亦体现出了这两大特色,举例来说,华为室外电力模块通过架构全解耦、全模块化设计,实现一箱一路电,室外拉远部署,既不占用机房空间,部署快、易扩容,还有效保障锂电在数据中心的安全应用,是智算时代灵活供电首选方案。华为风液融合方案可以根据智算业务实际需求,动态调整风冷和液冷的比例,从而实现最佳的制冷效率,使得系统节能性大幅提升。


整体而言,面对安全性挑战、高功率挑战、高能耗挑战,以及竞争加剧、代际迭代快的不确定性挑战,华为以安全可靠、弹性演进、绿色低碳三大原则为核心,构筑智算时代新基石。


AI带来了前所未有的算力革命,未来的数据中心将不仅具备更强大的算力,还会在供电和制冷方面更加节能、高效、可靠,成为推动数字经济发展的绿色引擎,让数字世界坚定运行。

智会社

本文作者:陈广成,「智会社」主笔,前至顶网(ZDNet)基础设施群组主编,十余年科技媒体从业经历,长期观察IT产业发展的生态演变。

我们发现智慧世界的点滴与浩瀚,关注面向数智时代的创新产品、方案、技术与商业实践,交流请加微信:toyefei


好看的人都在看~

智会社
解构数智生态 发现智慧世界
 最新文章