引言
随着人工智能等数字技术的迅猛发展,数据中心成为现代信息社会的神经中枢,承载着大量关键数据的存储、处理和分发。这意味着数据中心的稳定性和可靠性是确保关键业务连续性的重要基础。然而,在服务器运行时,众多精密芯片持续高负荷工作,功耗巨大,热量积聚极易引发故障或低效能。Uptime Institute调查数据显示[1],冷却系统问题造成是数据中心发生故障的主要原因之一。USENIX NSDI 2024录用的来自上海AI Lab团队等的研究也发现,温度上升会导致大模型训练故障率明显增加,并且这些故障在最热月份中发生的最为频繁[2]。
事实上,近年来数据中心因热管理失效而引发的事故屡见不鲜。从微软、华为机房温度过高导致服务器失效数小时,到网易游戏机房的大规模服务器宕机事件,再到高温天气导致谷歌云、甲骨文、推特等数据中心均出现故障等等。这些案例无不警示着我们数据中心热失效的严重性。每次热失效事故都可能导致服务中断、数据丢失并带来高额的经济损失和广泛的社会影响。
当前智能计算快速发展,服务器芯片计算负荷和电子封装度不断增加,数据中心散热需求愈发迫切,甚至成为制约算力提升的瓶颈。本文通过分析当前高密算力背景下数据中心热失效事故原因及热管理领域的挑战,呼吁产业各方重视并强化信息通信热管理研究,以降低热失控危害的发生,构建更安全、高效、稳定的算力基础设施,保障数据中心的平稳运行与业务的持续开展。
一、数据中心热失效事故分析
图1 数据中心热失效事故
在数据中心服务器的运行环境里,服务器内高密度的电子元件在持续工作时会产生热量,当散热措施无法有效散发热量时,热失效现象便会出现。如在夏季用电高峰时段,部分数据中心电力分配紧张,散热设备不能全力运转,服务器内部温度开始上升。起初,高温只是让服务器运算速度减慢,但随着热量的不断累积,电子元件的工作稳定性被严重破坏。研究表明,当芯片的工作温度接近70-80℃时,温度每升高10℃,芯片性能会降低约50%[3]。过高的温度使得芯片的工作性能大幅衰减,内存数据读取错误率增加,最终导致服务器无法正常处理数据而宕机。
图1盘点了一系列数据中心的热失效事故概况。诸如微软、谷歌、华为、推特等行业巨头所运营的大型数据中心无不因散热问题出现过服务器宕机、服务中断等事故。总体上,散热能力不足或冷却装置突发离线,是诱发数据中心热失效事故的主要原因。这些案例表明,此类事故会造成多方面负面影响。一方面,热失效事故对数据中心所支撑的各类线上业务的连贯性构成了严重威胁,致使业务流程被迫中断,用户体验大打折扣;另一方面,其潜在危害更涉及数据资产的完整性与安全性,可能导致珍贵数据的丢失或损坏,进而引发难以预估的经济损失,客户亦可能因频繁遭遇此类故障而选择放弃合作,造成客户资源的大量流失。此外,热失效事故会暴露系统脆弱性,增加数据泄露的风险,网络攻击可能趁虚而入。因此发展新型高效的散热技术成为数据中心稳定运行的迫切需求。
二、数据中心热管理面临的挑战
热管理是提高数据中心可靠性和总体性能的关键技术。然而随着人工智能等高算力业务激增,芯片制程微缩至3nm,3D堆叠封装等先进封装技术不断发展,热流密度和热复杂性均持续增加,数据中心热管理面临着严峻挑战。
(1)热流密度增加
热流密度是指单位面积上的热量。根据“摩尔定律”,集成电路上可以容纳的晶体管数目始终保持每经过18个月到24个月便会增加一倍的规律增长。
近日,英伟达在GTC2024大会上发布的B200芯片的晶体管数量已达2080亿个,是H100的800亿个晶体管两倍多。图2展示了最近20多年电子芯片的晶体管数量、热通量和最大功耗的逐年变化,目前最大热通量已经达到200W/cm2,未来很快可能突破500 W/cm2且局部热通量将达到1000W/cm2[4]。
图2 电子芯片的晶体管数量、热流密度和最大功耗的逐年变化[4]
此外,在数据中心情形下,热量由IT设备内部的电子元件产生,经IT设备散至机架,再由机架传至机房。当前,在大模型训练和推理下的高算力需求下,如图3和图4所示,数据中心从GPU芯片到机柜的各个层级的功耗都呈现出显著的增长趋势,其产生的热量也随之增加。
图3 GPU芯片、智算服务器和单机柜的功率密度演进
(2)热复杂性增加
热复杂性是指热量的积聚和扩散路径的复杂性。除了“摩尔定律”外,“超越摩尔定律”是集成电路发展的另一技术路线,即以多样化的封装方式提升系统性能。2015年以后,集成电路发展进入“后摩尔时代”,芯片特征尺寸已接近物理尺寸极限。
因此,为满足AI加速器等高计算需求,支持多芯片异构集成的先进封装技术成为发展趋势,例如台积电的CoWoS技术、英特尔的Foveros技术、苹果的UltraFusion技术。先进封装工艺通过紧密地堆叠各种组件,实现在相同封装尺寸内集成更多功能和特性。然而当一个封装中集成了多个异构芯片时,电源路径的长度和宽度会发生变化、不同芯片类型的热特性也存在差异,特别是叠加动态变化的工作负载,更易导致热量分布不均匀现象,出现局部热点,从而使传统散热策略失效。
此外,多芯片异构封装中的各个芯片之间存在热耦合现象,一个芯片的温度变化会影响到周围芯片的温度,使得温度分布更加难以预测,芯片的热复杂性显著增加。在热复杂性增加的趋势下,热管理将必须考虑芯片的功耗差异、热量分布情况等更多的因素。
三、数据中心全链路热管理展望
人工智能革命正将数据中心热管理推向极限。事实上,在数据中心系统中,从芯片层到服务器/机柜层、再到系统层,热量的逐级传递形成了一个层级结构,见图4[5]。这种逐级传递的过程要求各个层次之间的协同工作。但是目前,不同层次热管理系统的控制较为独立,且运行时边界参数取定值,这就导致各层次和整体热管理在冷却效果和能效上无法达到最优,同时各层次冷却需求和给很容易不平衡,由上及下存在供冷不足或者过度供冷的情况[6]。因此,为突破散热瓶颈,需要考虑由孤立的单一层级散热向跨层协同的全链路热管理转变。图5展示了全链路热管理的概念。
图4 数据中心热管理的不同等级[5]
图5 全链路热管理概念[7]
首先,开展从芯片到服务器,最终到数据中心的多尺度热管理仿真和建模研究势在必行[8]。一些研究建议首先在每个尺度上开发仿真模型,然后通过在相邻尺度之间转移边界条件来实现它们之间的互联,从而实现对整个数据中心热管理系统的仿真。
其次,基于多尺度模型,可以开展热管理系统在不同尺度上的协同和综合控制研究。为了实现多层次协同控制,拉通不同层次热管理的控制参数是一项关键任务,比如利用芯片负载和温度识别机房热点、辅助调控机房冷却系统,或通过机房热环境分布参数调整服务器风扇转速和芯片负载等。然后,数据中心是一个芯片集群,可以通过宏观负载调度,与微观芯片散热协同调整,进而影响机房热环境分布[9]。
最后,还可以利用先进的热传感器和监控技术获取芯片温度信息和宏观热环境温度分布信息,基于智能化AI的热管理控制系统,结合数字孪生技术等综合实现芯片集群安全、稳定、高效、绿色运行[10]。
结论
“算力的尽头是电力,电力的尽头是热力”。热管理是高密背景下数据中心的高效安全运营的重要防线。加强热管理,并不是指简单地放置过量的冷却装置,而是通过更加精密合理的散热系统设计将热量更高效地散出。考虑到数据中心系统的复杂性和相互依赖性,每个层次的热管理都直接关系到整体的数据中心性能和效率。微观层面的芯片热问题最终会影响宏观层的系统性能,而优化系统性能对于确保底层芯片长期稳定运行至关重要[11]。因此,未来信息通信热产业发展应重视从系统性视角去考虑对数据中心全链路热管理的综合优化。
参考文献
[1]Uptime Institute.《Annual Outage Analysis 2024》
[2]Hu Q, Ye Z, Wang Z, et al. Characterization of large language model development in the datacenter[C]. 21st USENIX Symposium on Networked Systems Design and Implementation (NSDI 24). 2024: 709-729.
[3]刘 芳,杨志鹏,袁卫星等.电子芯片散热技术的研究现状及发展前景[J].科学技术与工程,2018,18(23) : 163-169.
[4]ZHU X, CHEN C, ZHANG J, et al. Development and Prospects of Manifold Microchannel Heat Sink Research[J]. Journal of Refrigeration, 2023, 44(04): 15-33.
[5]TONG X C. Thermal Management Fundamentals and Design Guides in Electronic Packaging[M/OL]//TONG X C. Advanced Materials for Thermal Management of Electronic Packaging: Vol. 30. New York, NY: Springer, 2011: 1-58[2024-02-07].
[6]CUI D, ZHOU C, LUO Y, et al. Multi-scale modeling and fast inference for thermal environment analysis of air-cooled data center[J/OL]. Journal of Building Engineering, 2023, 78: 107722.
[7]CAO K, LI Z, LUO H, et al. Comprehensive review and future prospects of multi-level fan control strategies in data centers for joint optimization of thermal management systems[J/OL]. Journal of Building Engineering, 2024, 94: 110021.
[8]RAMBO J D, JOSHI Y K. Multi-Scale Modeling of High Power Density Data Centers[J/OL]. ASME 2003 International Electronic Packaging Technical Conference and Exhibition, 2003: 521-527.
[9]RONG H, ZHANG H, XIAO S, et al. Optimizing energy consumption for data centers[J/OL]. Renewable and Sustainable Energy Reviews, 2016, 58: 674-691.
[10]OMORI M, NAKAJO Y, YODA M, et al. Energy-Efficient Task Distribution Using Neural Network Temperature Prediction in a Data Center[C/OL]//2019 IEEE 17th International Conference on Industrial Informatics (INDIN). 2019: 1429-1434.
[11]SMOYER J L, NORRIS P M. Brief Historical Perspective in Thermal Management and the Shift Toward Management at the Nanoscale[J/OL]. Heat Transfer Engineering, 2019, 40(3-4): 269-282.
本文力求所述信息准确客观,但受信源、水平、时间等限制,不足与疏漏之处,请各位读者与同仁批评指正。本文部分信息来源于公开资料,如有侵权请告知删除。
本文作者
李雅婷
中国移动设计院算力设施工程研究中心信息建筑业务部(智算中心研究所)研究专员,博士
李自勇
中国移动设计院算力设施工程研究中心信息建筑业务部(智算中心研究所)助理咨询设计师
石玉琦
中国移动设计院算力设施工程研究中心信息建筑业务部(智算中心研究所)高级研究专员,博士
齐梓晗
中国移动设计院算力设施工程研究中心信息建筑业务部(智算中心研究所)助理研究专员