GPU服务器支持的“卡数”由哪些因素决定?(下篇)

科技   2024-12-12 12:13   北京  

书接前文,今天我们持续分享和GPU服务器“设计”的相关内容,上篇文章介绍了为支持更多的“GPU卡”,服务器需要有足够的空间、足够PCIe资源,下面我们重点围绕整机供电、系统散热和兼容性测试进行展开。

一、GPU服务器的电源设计

你知道一台RTX 4090八卡机的功率是多少吗?我们先粗略算一下,每张4090是450W,8张就是3600W,加上服务器平台(CPU、主板、风扇、内存、网卡等),一台8卡机实际功率就能高达4.5kw左右,与2U通用服务器一台550w相比,提高了将近十倍,所以不管是在机房机柜供电、还是GPU服务器内部电源设计都有更高的要求,只有电源功率足够才能将整机的性能完全发挥,下面以GPU八卡机举例,看下电源的支持:

1、支持2+2、3+1高功率&四电源设计

2+2和3+1是电源的工作模式根据负载不同和对可靠性的要求可以将四块电源进行工作模式设置,电源负载在50%左右时的转化率最高,通常需要根据搭配的GPU卡的类型选择电源的功率大小和工作模式(2+2还是3+1),下图是超云基于Intel Sapphire Rapids 处理器推出的4U八卡GPU服务器,四颗电源设计,每块电源具体参数2000/2700/3200w。

2、机型结构设计满足不同GPU卡的供电需求

GPU服务器有时需要专门设计GeForce类GPU的盖板:主要为了应对部分消费类GPU卡(如英伟达2080TI和Titan V等部分品牌或型号)的供电位置处于侧面朝上,需要设计顶部凸出的盖板才能满足供电(见过下面服务器盖板同学可以举个手,帮我点个赞哦)。

二、GPU服务器的散热设计

GPU整机的散热决定了系统运行的稳定,4kw+满负荷功率对机器自身的散热设计要求很高,所以在产品研发上会对机箱的结构、内部风扇数量、风扇规格、后置辅助散热风扇以及液冷改造的方式进行散热;

1、举例:用提升机箱高度的方式

如下图所示是超云在前两天Intel IPDC大会上展示的基于Intel Sapphire Rapids 处理器6U10卡GPU服务器,由于提升了机箱的空间,支持最多10张最大600W功耗的GPU卡,你能猜到是为了哪个型号GPU卡设计的吗

2、举例:用后置辅助散热风扇的方式

比较常见是超微GPU平台的后置散热方案,通过在服务器“屁股”位置加装外挂风扇的方式增强散热效果,通常是1个风扇对应2个双宽GPU,但是会挡住GPU自带的(若有)的视频输出接口,但一般服务器上的GPU即使有视频输出接口也很少用到,图示如下:

3、举例:用板式液冷的方式

目前非常火的液冷技术同样可以用在GPU服务器上,需要对GPU卡进行液冷改造(通常会增加成本和影响卡的原厂质保),加装液冷散热装置和配套的液冷系统如CDU和Manifold等,可大幅提升散热效率,举例如下:

下图是几年前,英伟达推出的单宽液冷版的A100 PCIe,尺寸小了部署密度可以更高,下一代的B200也是基于液冷设计,目前暂未大规模普及。

三、GPU服务器对GPU卡的兼容性测试

对于专业的GPU服务器厂商,宣传产品支持XX型号的GPU卡时,其实都经过了严格的系统兼容性测试,通常会在技术白皮书里的兼容性列表里进行说明,这是产品的严谨性也是对客户负责任的表现,但受限于测试的局限性(比如测试的批量、环境、技术人员水平的影响),有些型号的GPU卡虽然经过了测试也经常在客户现场出现问题,GPU兼容性事宜举例如下:

1、头部大厂的GPU服务器产品白皮书不会体现对GeForce类GPU的支持(原因是英伟达不允许某潮、某3C、某想等这类大的OEM厂商销售消费类GPU卡),但是实际很多客户确实是需要搭配4090来用,这类情况的GPU测试一方面是厂商做了但是不明说,一方面是经过分销商或者代理商来完成,但是受限于技术水平,可能会造成很多不确定性因素,下面截图来自于某潮NF5468 G7的产品白皮书

2、各类国产AI芯片(以GPU卡为主)在市场大规模推广前,都需要和一家或几家服务器厂商进行兼容性的测试,拿到兼容性的测试证明后才有说服力,同样很多服务器厂商也会选择市场主流的GPU卡品牌或型号进行测试(一方面为了验证兼容性,也为了做市场宣传,体现产品的成熟度)。

以上只是从我个人角度进行了总结分析(肯定有很多地方没有说到或说准确),不足之处欢迎指正。

----老张会持续通过公众号分享前沿IT技术,创作不易,大家多多点赞和关注!


CDCC
数据中心标准、技术沟通交流平台
 最新文章