智算时代:安全可靠、弹性演进、绿色低碳的数据中心是怎样炼成的?

科技   2025-01-14 20:35   北京  

“AI的尽头是电力”,真不是一句玩笑话。


来自Gartner的报告显示,“到2027年,40%的AI数据中心将因电力供应不足而导致运营受限。”国际能源署(IEA)发布的报告指出,“越来越普遍的超大规模数据中心的电力需求达到100MW(兆瓦)甚至更高,每年的用电量相当于约35万至40万辆电动汽车的电力需求。”



与一个传统数据中心几MW到几十MW的用电量相比,大型智算中心的涌现,导致用电量的飙升是显著的,用电和能耗越来越成为AI时代数据中心运营面临的巨大挑战。


大模型热潮推动通用算力向AI算力过渡,在这种算力革命中,蕴含了数据中心的跨越式巨变。


01

AI时代的数据中心跨越式巨变与挑战


在华为数据中心能源领域总裁尧权看来,相比传统计算,AI时代主要有2个变化:第一是从摩尔定律到后摩尔时代,性能和功率大幅上涨;第二是从“异步”到“同步”计算方式的变化,AI设备集群化趋势明显。前者以功耗换性能,从CPU到GPU,服务器、机柜等功率提升至少10倍;后者推动AI设备集群化部署以达到更高的算效比,并带来十倍的负载波动率扩大,超频或异常情况下甚至出现毫秒级320%过载的极端情况。


华为数据中心能源领域总裁尧权


这样的变化进而为DC基础设施的建设带来了新的挑战。


以上提及的电力需求大的挑战是最为直观的,IDC预测,AI数据中心的能耗将以44.7%的复合年增长率增长,到2027年达到146.2TWh(太瓦时)。随着1GW数据中心正在成为现实,亟需解决获取电力难、绝对耗电量增加等难题。


与此同时,AI的快速发展也带来了数据中心安全性、高功率和不确定性挑战。


例如,集群计算带来了故障域的增加,一个环节的故障可能会影响整个集群系统,导致大模型训练任务中断等业务影响和巨大的经济损失;伴随着功率密度提高,配电间占地激增,同时制冷系统一旦出现故障,故障响应时间由5kW/柜的5~10分钟缩短至100kW/柜的10s级,否则将出现高温宕机;另外,随着AI芯片的功耗密度跨越从三年一代,加速到一年一代,这时面临不确定挑战,即今天新建的数据中心能不能满足2年后的需求?


一系列挑战需要新的数据中心架构、技术、产品进化去应对,日前举办的华为数据中心能源十大趋势发布会,为行业提供了洞见与思考。


02

安全、弹性与绿色的数据中心进化之路


发布会上,华为尧权分享了数据中心基础设施建设的十大趋势,面向智算时代的数据中心进化之路指向了三个核心原则:安全可靠、弹性演进、绿色低碳。



➢ 安全可靠是智算DC的第一核心诉求


根据Uptime Institute 2023年全球数据中心调查,55%的数据中心运营商因电力、冷却、软硬件及网络问题等,在过去三年内遭受过停机故障,尽管故障频率在下降。但重大故障造成的损失仍然很大,54%的受访者表示最近一次重大故障造成的损失超过10万美元,16%的受访者表示一次中断损失超过100万美元。


以往建设数据中心很关注成本,因为过去数据中心L1建设费用占比在15%左右,而智算数据中心服务器价值激增,同时L1基础设施占比只有3%左右,因此安全可靠成了L1基础设施的最重要要素。


所以,数据中心坏不起,尤其面向智算时代,IT设备的价值更高,安全故障的代价更大。


华为发布的数据中心基础设施建设十大趋势首要便指出,安全可靠已成为建设DC基础设施的第一核心诉求。如何做到真正的安全可靠?显然不能局限于单点或局部。华为认为从规划、建设到维护,以高可靠的器件、产品、架构,以及智能化管理、专业化服务等全生命周期的安全可靠,才是真正意义上的安全可靠。并且,安全可靠的数据中心降低故障发生的风险和损失,这也意味着全生命周期的安全可靠才是真正的低成本。


其次,随着智算DC的功率密度增加,机电设备有着高电压、大电流的特征,这些设备的应用安全性是不得不考虑的因素,隔离式架构是保障算力设施安全的最优选择。一方面,强电优选进行拉远化部署,确保故障域风险最小化;另一方面,在条件不具备的情况下,强电与IT机房室内独立隔离部署,并做到对应的锂离子电池室规范化部署。


再者,在智算功率密度激增环境下,正如上文所言,故障响应时间缩短到10s级,连续式制冷是智算高密场景的必要能力。其一要确保正常运行制冷不中断,如何保证供电连续、无感切换、规避器件单点故障是实现连续制冷的关键;其二要实现极端异常场景下的快速恢复,一键最大制冷输出、设备中断后快速重启、液冷系统快速补液等逃生通道尤为重要。


继而,预测性维护又是保障安全可靠的又一道重要防线,面对数据中心的三大主要故障:掉电、起火和高温,AI将显著提升DC运维主动安全。例如,AI通过拟合电池充放电曲线,精准预测备电时间,避免因放电不足导致掉电;针对锂电池,AI能通过电、热、化学信号识别潜在风险,防止热失控;此外,AI还能预测空调冷量衰减,并分析液冷管路的渗漏风险,防止机房高温故障。所以,从故障的被动响应到主动预防,AI能够发挥重要作用。


最后,3分靠设备,7分靠维护,专业化服务是DC可靠运行的坚实保障。在部署环节,从交付前到交付后,包括环境/施工/验证等,依靠工具进行E2E全流程管控;在维护环节,通过定期巡检和工具监测服务,提前发现潜在风险。总之,包括专业的工程师、软硬件平台,以及专业的流程和标准在内的专业化服务是确保数据中心全生命周期安全可靠的关键因素。


➢ 弹性演进构建应对不确定性的基础设施架构


弹性演进是华为发布的数据中心基础设施建设十大趋势呈现出的第二个核心原则。


在芯片迭代加速和AI正面临圈地激烈竞争环境下,企业要赢在起跑线,数据中心建设速度快、交付快,基础设施构建应对不确定性的架构,尤为关键。


华为指出,模块化架构是应对AI DC需求不确定性的关键。模块化架构通过机房标准化、功能模块化和机电解耦化,实现核心子系统按需部署和弹性扩容,灵活适应未来业务演进。


另外,子系统预制化是AI DC快速交付的有效手段。一方面,预制化带来更高的生产效率,让DC产品更快地完成现场交付;另一方面,子系统预制化不是全预制,也不是部件预制,而是将解决方案产品化,需要经过专业的设计、仿真、测试和自动化工装等方式,实现匹配弹性需求的各子系统相互独立且预制化,为AI数据中心快速且高质量交付提供保障。


➢ 绿色低碳破解智算集群电力获取难、高能耗难题


绿色低碳是华为发布的数据中心基础设施建设十大趋势呈现出的第三个核心原则。


正如我们上文指出,AI的尽头或者说算力的尽头是电力,智算的电力需求大是严峻挑战,对此带来的是成本的高企。推动数据中心绿色节能有着巨大的经济收益,例如对于一个500MW的数据中心来说,PUE降低0.1,每年就能节省超过2亿的电费。如何实现绿色低碳?


首先,在以液冷为趋势的场景下,和风冷追求温控效率不同,供电高效在AI DC的价值日益凸显。在此过程中,供电效率从模块高效走向系统高效变得越来越必要,即追求数据中心UPS的极致能效。S-ECO(智能在线模式)突破供电效率瓶颈,是提升整体系统效率的理想选择,并解决了切换时延和均流问题。


其次,AI将赋能DC综合能效提升。在供电方面,尤其是S-ECO模式下,需要AI来对供电设备进行轮巡控制,根据电力模块负载情况灵活调控,赋能供电能效提升;在制冷方面,尤其是风液共存的制冷方案下,调参的复杂度较大,AI能力能更精细地根据设备环境情况来调整制冷能效,赋能制冷能效提升。


第三,算电协同将成为DC建设的新模式。一系列权威报告已经说明,未来AI数据中心因电力供应不足导致运营受限是现实问题。破解之策在于,采用绿电直供,如在数据中心周围建设光伏,满足DC电力容量需求。与此同时,电网协同也能更好地做到调频调峰,实现更高的出电率。另外,数据中心还可以根据自身训练、推理的需求,按需调度负载,实现综合效率最优。



03

筑牢AI基石,让数字世界坚定运行


总体来说,安全可靠、弹性演进、绿色低碳指明了通用算力向AI算力过渡中,数据中心基础设施建设的演进之路与趋势。


据Gartner预测,到2026年,超过80%的企业将使用生成式人工智能API,或部署生成式人工智能的应用程序。毋庸置疑,AI浪潮已呼啸而来,在此背后,智算基础设施是促进各领域产业智能化升级的底座和发动机。


在AI推动的算力革命中,筑牢算力新时代的基石至关重要,安全可靠、弹性演进、绿色低碳的数据中心让数字世界坚定运行。


智会社

本文作者:陈广成,「智会社」主笔,前至顶网(ZDNet)基础设施群组主编,十余年科技媒体从业经历,长期观察IT产业发展的生态演变。

我们发现智慧世界的点滴与浩瀚,关注面向数智时代的创新产品、方案、技术与商业实践,交流请加微信:toyefei

好看的人都在看~

智会社
解构数智生态 发现智慧世界
 最新文章