本文共4800字。
付费部分含8张图表,内容主要包括:
1.《42个中国液冷智算中心项目完整表单》(项目名称、地址、运营主体等)
2.中国42个中国液冷智算中心项目专业分析(含运营主体、液冷技术路线以及机柜功率分析)
3.《野村液冷大报告》精选内容分享(独家)
—————————————————————————————————————
本期主要分析2024年以来中国液冷智算中心建设布局情况,截止2024年11月8日,据中国IDC圈不完全统计,共收集液冷智算中心项目动态42个,其中2024年新增液冷智算中心项目动态35个,对比2023年以前液冷智算中心数量有显著增加。
当前液冷数据中心建设数量不断增加的背后是AI服务器的风冷散热方式逐渐逼近其容量极限的真实反馈,这一点从近期NVIDIA产品路线图调整就可以看出一个清晰的趋势。据悉,当前百度已经开始研究单向浸没(Single-Phase Immersion)液冷应用方案。
以英伟达的芯片服务器为例,每机架功耗从A100 DGX / H100 DGX(每机架4个DGX系统,每系统8个GPU)的25-40kW,增加到GB200 NVL36/72的60-140kW。其中,NVL36(每机架66-80kW)需要液冷与风冷的混合方案(L2A),而NVL72(每机架132-160kW)则需要纯液冷方案(L2L),也就是说到了GB200 NVL72液冷已经是必然选择。
野村最新发布的液冷报告更是给出了非常乐观的预期:“液冷技术在NVIDIA AI服务器中的渗透率将从2024年的8%提升至2025年的43%,并在2026年达到47%。”
为什么液冷将成为必然选择?
随着芯片的热设计功耗(Thermal Design Power,TDP)随计算能力的提高而不断增加,空气冷却已逼近物理极限。通常,对于高度为1U/2U的服务器(1U约等于1.75英寸,约44.45毫米),空气冷却可以支持每个芯片功耗达到350W/500W。考虑到成本因素,当芯片的TDP低于500W时,通常不会采用液冷。而另一个更重要的经验法则是,每个芯片1000W的TDP是空气冷却的极限。根据Vertiv/Omdia 的数据,每个服务器机架的功率密度呈现明显上升趋势。
考虑到有限的空间(1-2U)和高TDP,GB200 将需要采用液冷。GB200的TDP将达到2700W(1个CPU 300W + 2个B200各1200W=2700W),而H100 每芯片最高700W。虽然每台服务器的总TDP(GB200的2×2700W与H100 HGX/DGX的8×700W)可能相近,但GB200 服务器有限的空间(高度仅 1-2U,相比H100 HGX/DGX的6-8U)对散热能力提出了更高的挑战。
值得关注的是,由于液冷的高成本和一些尚未解决的问题(如漏液风险),当前AI服务器(如H100采用了 3D VC(Vapor Chamber)解决方案。3D VC可以处理高达700-800W的TDP,但需要更大的空间。比如,用于H100(单芯片TDP高达700W)的3D VC 通常高度超过4U,于是整个服务器(包括通用底板UBB和主板MB)的高度就达到了5U至8U之间。
此外,在液体-空气冷却中,机架底部(或旁挂柜中)的冷却液分配单元(CDU)通过冷回路泵送冷却液,围绕处理器循环以冷却每个节点,处理器产生的热量被吸收到进入热回路的液体中。然后,热液体进入后门热交换器进行散热,风扇将热量从机架中抽出。最后,冷却后的冷却液重新进入 CDU,循环往复。
据野村证券最新发布的《ANCHOR REPORT》显示,当前一些客户更倾向于使用液冷旁挂柜(独立机架,用于液体-空气冷却),而非机架内 CDU,因为它更易于部署,且无需更改现有数据中心基础设施(只需用一两个液冷旁挂柜替换一个服务器机架)。
液冷正带来高成本问题
从近期海外厂商情况来看,尽管对H100/H200 HGX来说液冷并不是必然选择,但很多厂商依然选择配置了纯液冷方案,主要原因是出于节能角度的中长期成本层面考虑。例如,特斯拉和X公司向Supermicro和戴尔下达了采用液液冷却的 H100/H200 订单。虽然液冷的初始成本较高,但运营中的节能效果可在较短时间内收回前期投入。
液冷的初始成本高在了哪里呢?上文中提到的3D VC是目前主要的解决方案,具备更好的散热能力,但问题就是成本更高。3D VC是热管和蒸汽室的组合,底部是一个顶部带孔的蒸汽室,可焊接开放式热管。由于蒸汽空间更大,实现了500-1000W的散热能力,优于热管和传统VC的<500W。然而,由于制造复杂,3D VC的价格至少是传统 VC 的两倍,也因此,当前3D VC被认为只是主流AI服务器的过渡性产品。
当前液冷系统的成本结构分析显示,风冷系统每千瓦的成本约为6000元,包含水泵、冷塔、冷机、管路、阀门和精密空调等设备。而冷板系统的成本已降低至每千瓦7000至8000元之间。相比之下,单相浸没液冷的成本为每千瓦10000元,双相浸没液冷则高达每千瓦13000元。
当前随着AI市场需求增加刺激液冷数据中心建设数量的不断增多,原有传统数据中心改造需求也在不断增加。据不完全统计,过去20年数据中心存量约有5000万台。从政策要求来看大概有80%的改造市场,因为不改造就会面临电费上涨,将推动液冷数据中心改造的大规模启动。即将于2024年12月19日-20日在北京举办的第十九届中国IDC产业年度大典(IDCC2024)将探讨算力与液冷产业的未来发展方向、技术创新、商业模式变革。扫描以下二维码即可报名。
中国42个液冷智算中心项目分析
通过对42个数据中心项目的系统分析,从运营主体情况来看, 42个项目分布在超过15个省份。
从运营主体来看,可分为8大类,其中三大运营商占据最大份额,共11个项目;政府及国企位列第二,9个项目;龙头企业位居第三,7个项目;科技公司有6个项目;上市公司共4个项目;其他类型共5个项目,其中包含两个IDC厂商主导的液冷项目。从技术应用的整体格局来看,当前市场主要形成了三种主要的液冷技术路线:浸没式液冷技术、冷板式液冷技术以及混合冷却方案。
中国42个液冷智算中心项目完整名单及具体分析如下: