总结
1、芯片的热设计功耗TDP持续增加,AI服务器对散热的要求提升,风冷已近能力极限。针对1U/2U高度的服务器,风冷对单芯片的散热能力为350W/500W。液冷因低能耗、高散热、低噪声等优势,成为兼具性价比和高效的温控散热手段。在未来的大算力及AI数据中心中,液冷成为普遍选择,在超高性能、更高功耗的AI服务器领域有望从选配变为标配。预测NVL36将采用液冷到风冷(L2A)解决方案,NVL72或开始采用液冷到液冷(L2L)解决方案。
2、目前技术路径包括冷板式、浸没式、喷淋式液冷三大类。冷板避免了与电子元件的直接接触,冷却液通过通道流动,与热源表面发生热交换吸收热量。冷板式改造成本低、技术成熟,是目前的主流技术路线。冷板式液冷当前造价约3-5元/W,单台NVL72服务器造价约300万美元,其中液冷的产品需求约7.5-8.2万美元。液冷在NVL72单机柜的总造价中占比约2.5%-2.7%。
3、浸没式液冷通过浸没发热器件,使得器件与液体直接接触而进行热交换。制冷效率更高,若未来数据中心对制冷要求进一步提高,则浸没式有望对冷板式进行替代成为未来趋势,当前造价约8-9元/W。据曙光数创,单机柜功率在10kW-100kW以内可采用冷板液冷;单机柜功率超过100kW则更适合相变浸没液冷。目前制约浸没式液冷放量的因素包括冷却液壁垒高、基础设施改造成本高、客户接受度低等。
4、液冷产业链结构:上游为零部件,包括冷板、冷却液、冷却分配单元CDU、接头、电磁阀、TANK、分歧管Manifold等;中游为液冷服务器、基础设施服务商及系统集成方;下游为终端客户。
5、L2A:风冷辅助液冷,在2’x4’x6.5’空间中提供约60kw的冷却能力,适用于传统风冷数据中心,不需要额外的液冷基础设施,为过渡性解决方案,冷却能力相对有限。主要分为三部分,包括数据中心端、Condenser Water System(CWS)以及设施用水端Facility Water System(FWS)。CWS通常包含冷却塔Cooling Tower与干式冷却器Dry cooler,FWS包含风冷式冷水机Air Cooled Chiller、水冷式冷水机Water Cooled Chiller及节水器Economizer。
6、L2L:适用于高密度机架,在4’x4’x6.5’空间中提供约2MW的冷却能力,基于CDU冷却IT热量,需要额外的液冷基础设施。
7、野村预测,液冷在英伟达AI服务器的渗透率从24年的8%升至25年的43%和26年的47%。B200 HGX或B200A HGX或GB200A Ultra仍可能采用风冷,即3D VC或2.5D VC。部分中小客户不要求顶配的AI性能,同时可能缺乏液冷相关基础设施。
8、热管理系统架构分为室外侧和机房侧,机房侧又进一步拆解成服务器侧和机房内。室外侧作为外部冷源,冷却方案主要通过冷冻水水温升降来转移来自机房侧的热量,应用较为成熟。机房侧则主要由冷却液流经供液环路和服务器内部流道来实现热量转移,并通过 CDU中的板式换热器将热量传导至室外侧。
9、冷板约占机架thermal content value的35-45%,通常2、3或更多冷板组成冷板模块。每片冷板的价格可能在150-300美元(GPU冷板的ASP更高)。由于冷板模块直接放置在GPU/CPU顶部,冷板供应商需要对漏液负责,高定价缓冲风险。冷板市场竞争激烈。
10、CDU是最高ASP的组件,在服务器机架或侧柜内的闭环系统中循环和泵送冷却剂,负责流量、压力及泄露监控。CDM冷却剂分配歧管悬挂在机架后的冷却剂通道,一部分用于热液输出,另一部分用于冷液输入,焊接技术是关键。UQD通用快速断开接头是为实现数据中心液冷系统接头的无漏快速切换而开发的一种全球性开放标准,成本通常包含在冷板和歧管中。
11、基于野村对GB200出货量的预测,液冷市场规模(仅含冷板、歧管和CDU)将从23/24年的17亿新台币(3.8亿人民币)/121亿新台币(27亿人民币)增长至25/26年的1229亿新台币(272亿人民币)/1292亿新台币(286亿人民币)。预测冷板将在24-26年的液冷市场中占据40-50%的价值份额,CDU的占比30-40%,歧管占比15%-20%。数据中心建设中,电气与冷却系统部署成本最高,分别占总成本的40%-45%/15%-20%。
12、由于英伟达定义了GB200 Oberon的大部分关键规格,ODM没有太多空间区分设计和提高附加值,因此液冷成为了差异化竞争的关键。CDU设计更易被ODM控制,组件供应商或在冷板、歧管或其他部件方面具备优势。诸多相关供应商(如AVC、Auras、Nidec、Delta、CoolIT等)正开发全面的液冷解决方案,以提供一站式采用。
1.风冷已近极限
伴随服务器功耗增加以及GPU、CPU计算能力的升级,芯片的热设计功耗thermal design power(TDP)持续增加,AI服务器对散热的要求提升,风冷已接近能力极限,液冷的重要性愈加明显。一般情况下,针对1U/2U(U机架单元,大约1.75英寸)高度的服务器,风冷对单芯片的散热能力可达350W/500W。因此,考虑成本及漏液损坏组件等因素,对于TDP低于500W的芯片,通常不会采用液冷。服务器层面,风冷的极限为单芯片TDP 1000W。
算力井喷之下,液冷因低能耗、高散热、低噪声等优势,成为兼具性价比和高效的温控散热手段,能有效解决数据中心芯片散热、能耗问题。在未来的大算力数及AI数据中心中,液冷成为普遍选择,在超高性能、更高功耗的AI服务器领域有望从选配变为标配。
图表. 液冷及风冷散热的对比
数据来源:维谛
如以风冷普通服务器的单台服务器热容值Thermal Content Value为基准1x,风冷AI服务器为7.8x,8-GPU HGX液冷AI服务器为18.2x,4-GPU MGX液冷AI服务器为13.1x。如以风冷普通服务器的单机架热容值为基准1x,风冷AI服务器为1.3x,8-GPU HGX液冷AI服务器为17.5x,4-GPU MGX L2A液冷AI服务器为17.6x,4-GPU MGX L2L液冷AI服务器为24.1x。
图表. 风冷散热能力已接近限制
数据来源:Auras
产品进度:23年12月,intel发布第五代至强处理器,热功耗已超350W。浪潮、超聚变、宁畅等发布了基于液冷的新产品。英伟达GB200 NVL36架构初期或以气冷、液冷并行方案为主;NVL72因有更高散热能力需求,优先使用液冷方案。将于25Q2发布的英伟达下一代GB300 AI服务器散热需求更强,主机板风扇使用数量更少。
图表. 主要芯片的TDP路径图-已接近液冷阈值
图表. AI热潮下CPU与GPU功耗上升显著
数据来源:英伟达、华泰研究
图表. 风冷(左)与冷板(右)结构
数据来源:台达电、野村
3D VC是英伟达H100服务器的热解决方案,为主流AI服务器的过渡产品,新的GB200 Oberon架构将需要液冷,因为TDP高,GB200为2700W且空间有限,仅1-2U高度。鉴于不同的冷却性能要求,预测NVL36(单机架66-80kw)将采用液冷到风冷(L2A)解决方案,NVL72(单机架132-160kw)或开始采用液冷到液冷(L2L)解决方案。液冷有助于将PUE(能源使用效率)从1.5+优化到1.2或以下。近期,越来越多的CSP考虑使用液冷以实现提升能源效率。
图表. 3D VC
数据来源:Celsia
2.液冷技术路线与产业链
目前技术路径包括冷板式、浸没式、喷淋式液冷三大类。
图表. 不同液冷技术方案对比
数据来源:华泰研究
(1)冷板式液冷(间接液冷技术)
将冷却液导入冷板,冷板与服务器接触以带走热量。与浸没式相比,冷板避免了与电子元件的直接接触,冷却液通过冷板的冷却通道流动,与热源表面发生热交换,吸收热量。冷板式液冷改造成本低、技术成熟,在雷达、数据中心、服务器等领域已有广泛应用,是目前的主流技术路线。
图表. 液冷数据中心组成
数据来源:CT电新
图表. 冷板式液冷散热架构
数据来源:CT电新
冷板式液冷当前造价约3-5元/W。以NV的GB200 NVL72产品为例,单台NVL72服务器造价约300万美元(整柜发热量120kW),其中液冷的产品需求约55-60万人民币(单价约5000/kW),即约7.5-8.2万美元。液冷在NVL72单机柜的总造价中占比约2.5%-2.7%。未来的GB300产品中,液冷价值量的占比或进一步提高。
(2)浸没式液冷
通过浸没发热器件,使得器件与液体直接接触而进行热交换。全浸没式液冷式服务器制冷效率更高,若未来高算力数据中心对制冷要求进一步提高,则浸没式有望对冷板式进行替代,成为未来趋势。
浸没式液冷当前造价约8-9元/W,高于冷板式的价格。
图表. 浸没式液冷结构图
数据来源:CT电新
浸没式占比有望提升:冷板式液冷已在HPC、AI高密计算领域商用超8年,生态完善且产业链成熟度较高,此外由于传统数据中心对原有基础设施的改造成本和难度较大,考虑到冷板式对服务器芯片组件改动量小,从风冷过渡较为平滑,因此目前液冷方案仍以冷板为主。然而,冷板式仍需风冷设备辅助,PUE 也低于浸没式液冷。据曙光数创,单机柜功率在10kW-100kW以内可采用冷板液冷;单机柜功率超过100kW则更适合相变浸没液冷。综合考虑产业链成熟度、投资成本、客户接受度等因素,冷板式液冷作为短线方案或率先放量。未来随着处理密集型计算应用增长,机柜功率密度持续抬升与节能性要求下浸没式液冷有望加速推广。
目前制约浸没式液冷放量的主要因素包括冷却液壁垒高、基础设施改造成本高、客户接受度低等。
(3)喷淋式液冷
面向芯片级器件精准喷淋,因改造成本高,现阶段落地应用较少。
图表. 数据中心液冷行业产业链
数据来源:智研咨询、中国储能网、华泰研究
产业链结构
1)上游:液冷设备生产商
产业链上游为零部件,主要包括冷板、冷却液、冷却分配系统CDU、接头、电磁阀、TANK、分歧管Manifold等。
GB200机柜液冷散热供应链主要分冷板、CDU、歧管、快接头(Quick Disconnect, QD)和风扇背门(Rear Door Heat Exchanger, RDHx)等五大零部件。
2)中游: 液冷服务器、基础设施服务商以及系统集成方;
3)下游:终端用户,包括AI、政府相关单位、基础电信运营商、泛互联网厂商及能源、生物医药等相关领域企业。
3.英伟达L2A与L2L方案简介
(1) L2A解决方案
机架底部或侧车的冷却分配单元CDU通过冷管cold manifold泵送冷却剂,冷却剂在处理器周围循环并冷却每个节点。处理器产生的热量被抽到进入热管的液体中。热液体流向后门的散热器进行散热,通过风扇将机架中抽出的热量排除。最后,交换热量的冷却剂重新进入CDU,冷却循环重复。L2A是基于通道的空气/液体混合冷却,适用于高密度机架。空气辅助液体冷却,适用于传统风冷数据中心,不需要额外的液冷基础设施,为过渡性解决方案,冷却能力相对有限。
L2A主要分为三部分,包括数据中心端、Condenser Water System(CWS)以及设施用水端Facility Water System(FWS)。其中,CWS通常包含冷却塔Cooling Tower与干式冷却器Dry cooler,FWS包含风冷式冷水机Air Cooled Chiller、水冷式冷水机Water Cooled Chiller以及节水器Economizer。CWS与FWS的设施布局与风冷的系统布局基本一致。L2A在2’x4’x6.5’空间中提供约60kw的冷却能力,能耗约为nominal冷却能力的4%。
图表. L2A冷却技术示意图
数据来源:英伟达
图表. 维谛XDU070(L2A)前视图与后视图
数据来源:维谛
图表. 混合式数据中心(液冷+风冷)
数据来源:英伟达
图表. 数据中心冷却塔
数据来源:SPX官网、华泰研究
目前,客户更倾向使用液冷侧柜用于L2A,而不是机架内的CDU,主因为在不改变现有数据中心的基础设施情况下部署相对容易,仅需将一个服务器机架替换为一个或两个液冷侧柜。
图表. 侧柜配置示意
数据来源:英伟达
(2) L2L解决方案
风扇不再扮演关键角色,热液体需要流向额外的基建设施,如冷却器才能完成冷却。适用于高密度机架,基于CDU冷却IT热量,需要额外的液冷基础设施。
图表. L2L冷却技术示意图
数据来源:英伟达
L2A在4’x4’x6.5’空间中提供约2MW的冷却能力,能耗约为nominal冷却能力的1%。CDU机型:立式机柜(60kw-200kw)、中型排式(400kw-800kw)、大型排式(1000kw-2400kw)。基于机架的流体流量分配控制,能够为每个液冷机架制定压差控制。
图表. L2L布局示意图
数据来源:英伟达
图表. 维谛XDU450(L2L)示意
数据来源:维谛
图表. GB200服务器液冷布局
数据来源:英伟达
野村预测,液冷在英伟达AI服务器的渗透率从24年的8%升至25年的43%和26年的47%。25-/26年基于Oberon架构的NVL-72等效机架中,有27%/38%将采用风冷,73%/62%将采用液冷。同时,B200 HGX或B200A HGX或GB200A Ultra仍可能采用风冷,即3D VC或2.5D VC。部分中小客户不要求顶配的AI性能,同时可能缺乏液冷相关基础设施。
图表. 英伟达路线图
数据来源:野村
图表. HGX与GB200系列架构及计算托盘对比
数据来源:野村
图表. 主要AI芯片TDP、热管理方案以及空间汇总
数据来源:野村
4.液冷组件及市场整体价值量估算
图表. 液冷组件示意图
数据来源:Wiwynn、SMCI、Boyd、Parker、QCT、Nomura
热管理系统架构分为室外侧和机房侧两部分,机房侧又可进一步拆解成服务器侧和机房内。其中,室外侧包含冷却塔、 冷水机组、一次侧管网、一次侧冷却液等;机房侧包含CDU、液冷机柜、ICT设备、二次侧管网和二次侧冷却液等。
室外侧作为外部冷源,目前散热方案已实现了从风冷到液冷的转换,其冷却方案主要通过冷冻水水温升降来转移来自机房侧的热量,应用较为成熟。
机房侧液冷方案则主要由冷却液流经供液环路和服务器内部流道来实现热量转移,并通过 CDU中的板式换热器将热量传导至室外侧。目前市场上风冷方案向液冷方案的升级主要指机房侧机柜内的散热。
图表. 数据中心通用架构
数据来源:华泰研究
图表. 数据中心热管理架构示意图
数据来源:RefIndustry、华泰研究
预计冷板+CDU+歧管合计占单台GB200机架热价值量thermal content value的90%以上。核心组件信息:
(1)冷板-承担漏液风险:在液冷解决方案中约占机架内容价值的35-45%,通常2、3或更多冷板组成一个冷板模块。每片冷板的价格可能在150-300美元区间(GPU冷板的ASP更高)。由于冷板模块直接放置在GPU/CPU顶部,冷板供应商需要对漏液负责,如发生泄露,需要赔偿整个板的价值。因此,高ASP的定价来缓冲潜在的负债风险。部分技术诀窍在于出水口对齐、铜抗氧化处理和金属焊接。市场竞争激烈,英伟达RVL(参考供应商列表)/AVL(批准供应商列表)以及拥有良好客户资源、充足资本的供应商或脱颖而出。
图表. L2A(左)与L2L(右)热内容值占比
数据来源:野村估算
图表. 冷板市场规模预测
数据来源:野村估算
野村针对冷板的预测是基于GPU+CPU+NVSwitch ASIC出货量合计值,再叠加10-20%的液冷部件inflation。
图表. 英伟达GB200冷板出货量预测
数据来源:野村
(2)CDU冷却分配单元-具备最高ASP的组件:在服务器机架或侧柜内的闭环系统中循环和泵送冷却剂,负责流量、压力以及泄露监控。关键组件包括泵和热交换器单元,此外还有储液器、电源、控制板、传感器。
图表. 数据中心CDU示意图
数据来源:维谛
图表. 机架内CDU结构
数据来源:Kaori
图表. 机架内CDU内部拆分示意
数据来源:Boyd
图表. In-row CDU
数据来源:Kaori
(3)CDM(coolant distribution manifold冷却剂分配歧管):悬挂在机架后的冷却剂通道,一部分用于热液输出,另一部分用于冷液输入,焊接技术是关键。多数公司使用激光焊接或真空焊接,前者优势是成本低,制造时间短更灵活,但相较后者承担更高变形风险。后者初始成本高、变形风险低、外观优、生产耗时长。
图表. 歧管示意图
数据来源:Boyd、Kaori
(4)UQD(universal quick disconnect通用快速断开接头):是在OCP推动下,为实现数据中心液冷系统接头的无漏快速切换而开发的一种全球性开放标准。主要供应商有Parker Hannifin(美国)、CPC(美国)、 Staubli(瑞士)和CEJN(瑞典),Lotes、FIT、AVC等公司也正在进入。单机架所需的UQD数量巨大,单GB200 NVL72需要162套,单价为50-100美元,每套2个,合计价值约12150美元。UQD成本通常包含在冷板和歧管中,因为会被送到冷板和歧管供应商进行组装,再发货给ODM。
GB200 NVL36 L2A:1)服务器层面,冷板价值量约1500美元(200~400*6),风扇约200美元,合计约1700美元;2)机架层面,计算托盘thermal content约15300美元(1700*9),NVLink switch托盘约5850美元(650*9),CDU价值量约20000美元(20000*1),歧管约12000美元(10000~20000*1),合计约57150美元,总计约58850美元。
GB200 NVL72 L2L:1)服务器层面,冷板价值量约1500美元(200~400*6),风扇约200美元,合计约1700美元;2)机架层面,计算托盘thermal content约30600美元(1700*18),NVLink switch托盘约5850美元(650*9),CDU价值量约30000美元(30000*1),歧管约12000美元(10000~20000*1),合计约78450美元,总计约80150美元。
图表. 英伟达各型号服务器热管理价值变化
数据来源:野村估算
基于野村对GB200出货量的预测,液冷市场规模(仅含冷板、歧管和CDU)将从23/24年的17亿新台币(3.8亿人民币)/121亿新台币(27亿人民币)增长至25/26年的1229亿新台币(272亿人民币)/1292亿新台币(286亿人民币)。预测冷板将在24-26年的液冷市场中占据40-50%的价值份额,CDU的占比在30-40%,歧管占比15%-20%。
图表. 液冷市场规模预计(仅含冷板、歧管和CDU)
数据来源:野村
图表. 24-26年冷板、歧管和CDU在液冷市场中价值量占比
数据来源:野村
据QY Research数据,23年全球数据中心液冷市场规模约19.82亿美元,同比+25.9%,其中亚太、北美、欧洲占比为36.3%、30.7%、27.7%,2030年有望增至79.34亿美元,年均增速20%左右。
图表. 全球数据中心液冷规模及预测
数据来源:QYResrarch、华泰研究
数据中心建设中电力与冷却部署成本超过总成本的一半(以功率计)。新建数据中心成本通常可分为四类:1)土地和建筑外壳;2)电气系统;3)冷却系统;4)建筑装修。其中电气与冷却系统部署成本最高,分别占总成本的40%-45%/15%-20%。
据Dgtl Infra 23 年 11 月数据,以面积计算,新建数据中心的TCO约每平方英尺625-1135美元;以功率计算,每MW IT负载约700-1200万美元。计算可得新建一个70万平方英尺、60MW的大型数据中心的建设成本约4.2-7.7亿美元,其中电源管理与热管理系统部署最高成本分别达3.47/1.54亿美元。
图表. 数据中心建设成本占比
数据来源:华泰研究
散热方案需要在服务器系统设计中进行全面考虑。客户通常会选择英伟达RVL或AVL中的供应商以减小风险,但多数头部CSP与ODM会自主选择设计液冷部件与解决方案以实现差异化并增加价值。因此,相较风冷,液冷是更为分散、竞争更为激烈的市场。
由于英伟达定义了GB200 Oberon的大部分关键规格,ODM没有太多空间区分设计和提高附加值,因此液冷成为了差异化竞争的关键。许多ODM,例如广达Quanta、鸿海Hon Hai,正在开发自有的液冷解决方案。预计不会有太多客户或ODM采用特定供应商的完整解决方案,或者说至少会采用双源策略。液冷层面,SuperMicro与Nidec合作,Wiwynn投资了ZutaCore,纬创集团投资了MGCooling。
细分来看,CDU设计更易被ODM控制,组件供应商或在冷板、歧管或其他机械部件方面具备优势。根据目前信息,整体竞争格局比较复杂分散,较为激烈。
图表. 主要热管理组件供应商
数据来源:野村
图表. 23年全球数据中心液冷技术提供商市占率
数据来源:QYResearch
诸多相关供应商(如AVC、Auras、Nidec、Delta、CoolIT等)正在开发全面的液冷解决方案,涵盖冷板cold plate、歧管manifold、UQD、冷却分配单元CDU(含泵)、液冷机箱chassis、电源等,以提供一站式采用。此外,拥有产品液冷与机架产品整合能力的供应商在服务头部云客户特别是ASIC解决方案中,有一定定制优势。
下图总结了主要CSP和ODM公司的供应商名单:
图表. 主要ODM公司的客户以及液冷供应商
数据来源:野村
简要梳理英伟达液冷主要供应商信息:
(1)Vertiv:数据中心基础设施提供商,具备解耦交付的天然优势,是业内少数能从服务器、机架(Rack)、行内(Row)、房间(Room)到户外的冷却需求全覆盖的厂商。产品均采用模块化与一体化双线交付,能提供CDU、Manifold 等零部件、液冷机柜与机架等集成产品与全套液冷解决方案。为英伟达技术生态合作伙伴中的唯一大型物理基础设施供应商及制冷系统合作伙伴,在未来数据中心液冷部署中也将与英伟达共同研发相关技术。目前Blackwell系列(包括GB200 NVL72)开始交付,公司为其提供全面的冷却需求方案。23年下游应用中数据中心营收占总营收达75%,而热管理业务占总营收达30%,计划在24年底将液冷制造能力同比提高45倍。
(2)AVC(3017 TT):预计在头部CSP的GB200冷板订单中占据至少50%市场份额,其中包含nVLLink交换机托盘中100%的份额,同时也是非NV AI ASIC服务器的主要冷板供应商,在Meta的GB200 CDU组装中占据约10-15%市场份额。
图表. 冷板市场份额拆分预计
数据来源:野村
(3)Auras(3224 TT):英伟达的第一批参考设计供应商,可能在Meta的GB200 CDU中占据约25%市场份额。
(4)Delta(2308 TT):布局在AC/DC PSU、DC/DC、molding chokes以及风扇,可能会渗透到微软、Meta和AWS的部分液冷板块(如CDU或冷板)。公司预计24年第四季度液冷占总销售额的比重为3%,预计25年AI相关电力和液冷占总销售额的10%以上。
(5)Nidec(6594 JP):计划25/3财年实现400亿日元相关营收,26/3财年增长两倍。计划向SMCI以外的客户销售冷却剂分配管CDMs和液冷模块LCMs。
(6)英维克(002837 CH):为电芯、能源、IDC头部客户提供全面的冷却解决方案,涵盖冷板、CDU、歧管/QDC,预期受益于大陆液冷技术普及趋势。
图表. 主要液冷产业链供应商产品及营收占比预测
数据来源:公司信息、野村
图表. 主要液冷产业链供应商扩产计划
数据来源:公司信息、野村
现阶段,大陆液冷厂商供应国内市场为主,出海比例较低,但海外液冷市场相对广阔。依据公开信息,英维克与NV已在接头方面有订单合作。目前字节的液冷设备供应商主要是英维克、高澜、曙光数创、申菱环境、同飞股份、科华数据等。