21世纪经济报道 | 智能计算需求飙升,液体冷却迎爆发前夜

文摘   2024-11-01 12:00   新加坡  



编者按:中国产业链当下能从服务器产品到液冷数据中心基础设施建设等领域积累丰富经验,必将在整个液冷市场中发挥重要作用。

从2022年末ChatGPT发布至今,AI大模型的模型参数及技术架构持续演进,由此对智能算力的需求也在飙升,相关基础设施产业链都在面临新的变化。
近日举行的“2024智算时代数据中心技术引领与变革论坛”上,中国信通院云大所总工程师郭亮在演讲中指出,算力中心发展经历了三个阶段:在2000-2010年间,数据中心由三大通信运营商为主导;2010-2020年间,随着数据中心需要更多专业技术能力加持,开始有第三方数据中心服务商加入;到现在的智算中心时代,数据中心主体开始呈现百花齐放的发展态势,但同时也面临寻找正确的发展路径命题
这不同于此前以CPU为主导的发展时代,在GPU为主导时代,包括底层芯片、基础设施、网络架构、应用生态等方面发生了较大变化,产业链厂商亟需密切联合,探路新技术路线下的演进方向。
秦淮数据张炳华对21世纪经济报道记者表示目前国内第三方数据中心服务商主要有两种运营模式:超大规模定制模式和传统通用零售模式。随着AI大模型快速发展,对数据中心的需求走向更大规模AI集群,超大规模定制模式的优势凸显。对此,秦淮数据升级发布“智算中心全栈解决方案2.0”,并联合生态伙伴,共同启动相关行业标准立项。
业内认为,伴随国内智能计算生态的能力演进,并在此过程中推动产业走向标准化,将有望更好抢占AI浪潮下的新发展机遇。









需求激增










中国信息通信研究院发布的《算力中心冷板式液冷发展研究报告(2024年)》(下称“报告”)显示,截至2023年底,我国在用算力服务机架数已达到810万标准机架,算力总规模达230EFLOPS。大型以上算力中心机架数量占算力中心总机架规模比重逐年上涨,部分超大型算力中心的平均单机柜功率已达20kW。由此可见,高功率密度、高算力的大型、超大型算力中心将是未来建设的重点。
这也意味着面对GPU为核心的智算中心基础设施生态需要快速应变。
郭亮指出,目前智算中心的生态发展以英伟达CUDA生态一枝独秀,在早期以CPU为核心的X86时代,虽然主导厂商数量也少,但芯片和应用、基础设施之间没有过强的耦合关系;到了AI时代,从底层芯片到网络、框架、应用、基础设施,彼此之间耦合度极高,由此导致一家厂商占据了80%~90%的极高份额因此,行业企业如何找到自己的定位、围绕算力基础设施做更多开创性工作成为重要话题。
从基础设施、网络、计算、运营多个方面带来机会同时也有挑战:如何将网络与计算融合是当前被高度关注的话题;基础设施主要包括电和冷,近期微软、甲骨文相继宣布要重启关闭多年的核电站,就是基于电力紧俏而做出应对,冷即散热方式从风冷转向液冷;运营主要指目前政策层面推进的算力调度平台建设。
技术和生态面临较多转向、需要产业链协同解决问题比较多,其中一个重点就包括散热方式。
张炳华分析,在通用计算发展时期,CPU芯片功耗从2010年到2019近十年仅增长了一倍左右,单机柜功率从几千瓦提升到十千瓦;但在智能计算发展时期,GPU卡的功耗持续翻倍,GPU服务器单机柜功率密度从原来的近十千瓦左右,提升到现在的一百三十多千瓦,提升了十几倍。这让功率密度、消耗电量等方面大幅提高,由此带来新的散热命题。
“在我们看来,数据中心在同样条件下,如何保证芯片、服务器和网络安全稳定运行,根本问题是解决供电、制冷、遭遇故障后冗余等方面问题。”他续称,这就需要从基础设施系统架构、设计方案,到产品化、预制化等方向推进,由此进行标准化落地,也更容易实现规模效益。
中国液冷服务器市场规模和预测,图源:IDC中国)
前述会议上,秦淮数据推出“磐石”模块数据中心框架,包括高弹性建筑模型、“玄铁”极简供电架构、“玄冰”极致冷却架构和“玄智”智能运维系统,以支持高密及超高密智算场景。
其中,高弹性建筑模型的模块架构可灵活配置、分期预制,同时兼容CPU和GPU不同算力场景;“玄铁”架构将传统配电全链路的10余个环节设备融合成变电站、柴发、中压、低压、电池、IT六大机电模块,可分阶段部署和弹性扩容;“玄冰”架构包括风冷、液冷、风液兼容等模块,以解决8kW-150kW区间所有功率密度的机柜冷却难题。
张炳华对21世纪经济报道记者表示采取通用方案来建设机房的基础设施,从建筑封顶到正式投入运营期间会有3-6个月的准备期,用来安装供电、冷却等系统。目前采用液冷方案需要更长的建设周期、更长的服务器研发周期,为了尽快上线大模型,获得比竞对更高的算力,客户会优先选择能够更快部署的风冷方案。所以在风冷向液冷方案转换的初期,鉴于风冷散热方案成熟且通用,以及企业对采用新技术路线可能带来的风险存在担忧,大部分客户缺乏积极主动选择液冷方案的动力。
“目前颇受关注的冷板液冷方案也面临如水质、冷却液泄露、微通道拥堵甚至腐蚀等问题,一旦设计方案不合理、建设质量没有保证、运维管理不当等,对业务运行来说会面临更高的故障风险。但风冷散热能力已达极限,无法适应未来高密度机柜的冷却需求,因此,当下阶段液冷小规模的尝试和验证一定要做,这是未来通向大规模使用场景的必经阶段。”他续称。
需求驱动下,当前液冷技术已经在快速渗透。调研机构IDC统计显示,中国液冷服务器市场在2024上半年继续保持快速增长,市场规模达12.6亿美元,同比增长98.3%,其中液冷解决方案仍以冷板式为主,占95%以上。根据调研机构IDC的统计和预测,2023-2028年,中国液冷服务器市场年复合增长率将达到47.6%,2028年市场规模将达到102亿美元。









液冷加速









张炳华对21世纪经济报道记者分析,从传统风冷向液冷转换过程中,面临的本质上并不是单一商业逻辑难题,更多源于当前液冷散热生态不够成熟。
例如服务器在液体中运行时,遇到一些液体会产生化学反应,这在过去行业并没有积累足够的应对经验,需要较长时间来对主要液体材料的兼容性和稳定性进行验证。但考虑到GPU成本偏高,且并不对浸没式液冷方案承诺质保,令厂商尝试浸没式液冷时有更多顾虑。
这与新技术在发展早期面临的标准化、兼容性不足有关。但产业界已经在驱动解决这一现状。
前述《报告》分析,当前我国针对液冷技术的研究仍处于起步阶段,液冷服务器的设计、运维、安防等方面的行业标准较为空缺,业内尚未形成统一的技术标准,增高了产业发展壁垒。得益于政策支持与引导,液冷产业标准规范化迎来了快速发展。特别是冷板式液冷技术标准制定逐步朝向常态化、规范化迈进。特别是冷板式液冷技术标准制定逐步朝向常态化、规范化迈进。
目前市场上的液冷方案主要包括三类:冷板式液冷、浸没式液冷、喷淋式液冷。张炳华认为,在多个液冷散热方案中,冷板液冷相对更成熟、对现有服务器生态的改变更少,因此业界目前更侧重于推进冷板液冷方案完善。
“如果要采用浸没式液冷方案,对服务器网络、电源等生态都要有较大改变。在液冷方案发展初期会不太具备规模效益。但冷板液冷方案可以同时适配GPU、CPU等主计算单元的能力和生态。相比之下,从风冷方案改为冷板液冷方案的难度更小。”他进一步指出。
IDC中国服务器市场研究经理辛一认为,从全球范围看,液冷方案目前在海外的应用尚不广泛,只在一些头部CSP(云服务商)的集群节点中有所应用。英伟达最新的Blackwell平台预计在今年末或2025年初在全球范围大量出货,新平台自身功耗较高,自然对液冷方案的应用起到促进作用。
“如果中国在此时机下,不论是服务器产品设计、制造、销售和维护方面,还是液冷数据中心基础设施建设等领域积累丰富经验,必将在整个液冷市场中发挥重要作用。同时,还需要产业相关组织、机构、企业及合作伙伴,在液冷方案实际应用过程中精诚合作,共同制定适合液冷发展的行业或组织标准,加快促进产学研的高效融合。”他续称。
前述论坛上,“冷板液冷系统全生命周期质量控制规范系列行业标准”启动立项,专家组同期成立。该系列标准将由中国信通院和秦淮数据牵头,联合数十家行业头部企业共同编制。
张炳华告诉记者,目前国际上对于液冷散热技术虽然没有形成完整统一的标准,但并不意味着对液冷方案没有技术要求。在这些要求逐渐完善后,才会形成标准定式。
此前对数据中心制定标准主要由互联网厂商牵头,但在智能计算发展需求下,服务器硬盘布局进行了重新设计,改变了既有生态模式。因此,现在需要产业链厂商共同参与完善标准制定,根据各自在产业链中的位置协同开发,对市场发展也更具有引导作用。
“我们在制定标准指导规范时,既借鉴行业的基本原则,也参考了ODCC(开放数据中心委员会)的技术要求等方面考虑。”他续称,秦淮数据希望通过参与ODCC、拉通更多产业链生态等方式,让更多元的行业用户共同参与完善早期标准定义过程。
集邦咨询认为,随着全球政府及监管机构对于ESG(环境、社会和公司治理)意识逐渐提升下,将加速带动散热方案由气冷转液冷形式发展,预期液冷方案渗透率逐年攀升,这将促使电源供应厂商、散热业者及系统整合厂等竞相投入AI液冷市场,形成新的产业竞争与合作态势。
(作者:骆轶琪 编辑:张伟贤)


点击左下角「阅读原文」


End


识别下方二维码,了解更多秦淮数据集团资讯



CD秦淮数据集团
秦淮数据集团(Chindata Group)是全球泛亚洲新兴市场作为业务发展核心区域的超大规模数字地产运营商,同时也是专注信息技术产业生态基础设施规划、投资、设计、建造和运营的综合服务提供商。
 最新文章