GPU服务器支持的“卡数”由哪些因素决定?

科技   2024-12-11 15:41   北京  

公开课预告

12月13日19:30,# 智猩猩智算集群公开课 开讲!阿里云智能集团智算集群产品专家陈祎将以《大模型时代的智算GPU集群》为主题进行直播讲解,欢迎扫码报名~ 


前言,GPU服务器的核心参数就是“能装”多少张GPU卡,我们常见的有4U8卡、4U10卡、4U16卡、4U20卡、6U10卡等,前两天在成都 Intel IPDC上看到了变态的6U32卡(不排除概念机的可能,暂未看到有6U32机型的落地案例),大家直观感受是“空间”足够就ok,除了GPU服务器的机箱“空间”外,想“装下”更多GPU,制约因素还有那些?下面我们从GPU卡尺寸、PCIe卡参数、电源功率、设备散热和兼容性5个方面展开聊聊。

01 GPU卡的“尺寸”和机箱空间


市面上常见的GPU卡尺寸有双宽全高全长、双宽全高半长、单卡半高半长等多种形态。怎么理解GPU卡的“宽”、“高”和“长”呢?我做了一个图供大家了解。
GPU卡长宽高的数值:
  • ①半高:不超过68.9mm、全高:不超过111.15mm;

  • ②半长:不超过167.65mm、全长:不超过312.00mm;

  • ③单宽,即单插槽:不超过20mm、双宽,即双插槽:不超过40mm;

  • ④全高全长的简称FHFL(full height full length)、半高半长的简称HHHL(half height half length);


举例1:涡轮版的RTX4090尺寸,双宽全高全长的参数如下:
举例2:英伟达T4 GPU的尺寸如下,为单宽半高半长
不同的机箱举例:标准的4U8卡、4U10卡和4U20卡(单宽卡)的GPU服务器示意图如下,八卡在空间上会为其他的PCIe插卡留出空间,比如网卡、Raid卡等,而十卡则会占满标准的PCIe槽位和空间,网卡的话通常需要用小尺寸的OCP卡或者板载网卡、4U20卡虽然数量看着挺多但是受空间所限仅支持单卡的GPU;

02 PCle的资源-槽位数量和版本


以英伟达RTX 4090为例,涡轮版需要PCIe4.0 x16,八卡就是八倍的关系,我们知道决定服务器的PCIe资源的除了CPU还有主板,主板的设计是CPU的PCIe能否全部发挥的关键,当然还有PCIe SW芯片,主板设计时通过集成PCIe SW芯片能够扩展出更多的PCIe资源,提升整机的扩展性。我们以目前主流的2个机型进行举例:
1、基于AMD Milan的超微4U8卡服务器
怎么能够保证8张卡有足够的PCIe资源呢?分析如下:
  • ①、双路的AMD milan平台因为中间通过三条xGMI,整机可提供128x2-(32x3)=160条PCIE lane

  • ②、8张GPU占用了16x8=128条PCIE通道后,还有32条供其他网卡等部件使用;

  • ③、GPU直通架构的优劣势:优势是成本比PCIe SW的方案产品成本更低,且GPU到CPU独享x16,CPU-GPU通讯性能更优,劣势是4U空间设计最多支持8张双宽GPU卡,跨GPU直接通信必须通过CPU。


2、基于Intel Icelake平台的超微4U10卡服务器
我们知道Intel Icelake CPU的PCIe通道数是64,2颗就是128,,那么10张GPU卡插满时总计需要160个PCIe Lane,CPU自身的PCIe通道数肯定是不够的,因此在主板设计时集成了2张PCIe SW(对应上图的的PLX芯片),每个PCIe SW可以将1个PCIe x16扩展出来5个PCIex16,这样就足够连接GPU用了。
优劣势分析:优势是扩展性更强,4U空间可支持10张双宽GPU卡,相同同PLX下的GPU(前提卡要支持)可点对点通信,劣势是整体成本变高了、GPU上行总带宽收敛比5:1;
上面我们介绍了为支持更多的“GPU卡”,服务器需要有足够的空间、足够PCIe资源,下面我们重点围绕整机供电、系统散热和兼容性测试进行展开。

03 GPU服务器的电源设计


你知道一台RTX 4090八卡机的功率是多少吗?我们先粗略算一下,每张4090是450W,8张就是3600W,加上服务器平台(CPU、主板、风扇、内存、网卡等),一台8卡机实际功率就能高达4.5kw左右,与2U通用服务器一台550w相比,提高了将近十倍,所以不管是在机房机柜供电、还是GPU服务器内部电源设计都有更高的要求,只有电源功率足够才能将整机的性能完全发挥,下面以GPU八卡机举例,看下电源的支持:
1、支持2+2、3+1高功率&四电源设计
2+2和3+1是电源的工作模式根据负载不同和对可靠性的要求可以将四块电源进行工作模式设置,电源负载在50%左右时的转化率最高,通常需要根据搭配的GPU卡的类型选择电源的功率大小和工作模式(2+2还是3+1),下图是超云基于Intel Sapphire Rapids 处理器推出的4U八卡GPU服务器,四颗电源设计,每块电源具体参数2000/2700/3200w。
2、机型结构设计满足不同GPU卡的供电需求
GPU服务器有时需要专门设计GeForce类GPU的盖板:主要为了应对部分消费类GPU卡(如英伟达2080TI和Titan V等部分品牌或型号)的供电位置处于侧面朝上,需要设计顶部凸出的盖板才能满足供电(见过下面服务器盖板同学可以举个手,帮我点个赞哦)。

04 GPU服务器的散热设计


GPU整机的散热决定了系统运行的稳定,4kw+满负荷功率对机器自身的散热设计要求很高,所以在产品研发上会对机箱的结构、内部风扇数量、风扇规格、后置辅助散热风扇以及液冷改造的方式进行散热;
1、举例:用提升机箱高度的方式
如下图所示是超云在前两天Intel IPDC大会上展示的基于Intel Sapphire Rapids 处理器6U10卡GPU服务器,由于提升了机箱的空间,支持最多10张最大600W功耗的GPU卡,你能猜到是为了哪个型号GPU卡设计的吗?
2、举例:用后置辅助散热风扇的方式
比较常见是超微GPU平台的后置散热方案,通过在服务器“屁股”位置加装外挂风扇的方式增强散热效果,通常是1个风扇对应2个双宽GPU,但是会挡住GPU自带的(若有)的视频输出接口,但一般服务器上的GPU即使有视频输出接口也很少用到,图示如下:
3、举例:用板式液冷的方式
目前非常火的液冷技术同样可以用在GPU服务器上,需要对GPU卡进行液冷改造(通常会增加成本和影响卡的原厂质保),加装液冷散热装置和配套的液冷系统如CDU和Manifold等,可大幅提升散热效率,举例如下:
下图是几年前,英伟达推出的单宽液冷版的A100 PCIe,尺寸小了部署密度可以更高,下一代的B200也是基于液冷设计,目前暂未大规模普及。

05 GPU服务器对GPU卡的兼容性测试


对于专业的GPU服务器厂商,宣传产品支持XX型号的GPU卡时,其实都经过了严格的系统兼容性测试,通常会在技术白皮书里的兼容性列表里进行说明,这是产品的严谨性也是对客户负责任的表现,但受限于测试的局限性(比如测试的批量、环境、技术人员水平的影响),有些型号的GPU卡虽然经过了测试也经常在客户现场出现问题,GPU兼容性事宜举例如下:
1、头部大厂的GPU服务器产品白皮书不会体现对GeForce类GPU的支持(原因是英伟达不允许某潮、某3C、某想等这类大的OEM厂商销售消费类GPU卡),但是实际很多客户确实是需要搭配4090来用,这类情况的GPU测试一方面是厂商做了但是不明说,一方面是经过分销商或者代理商来完成,但是受限于技术水平,可能会造成很多不确定性因素,下面截图来自于某潮NF5468 G7的产品白皮书。
2、各类国产AI芯片(以GPU卡为主)在市场大规模推广前,都需要和一家或几家服务器厂商进行兼容性的测试,拿到兼容性的测试证明后才有说服力,同样很多服务器厂商也会选择市场主流的GPU卡品牌或型号进行测试(一方面为了验证兼容性,也为了做市场宣传,体现产品的成熟度)。
以上只是从我个人角度进行了总结分析(肯定有很多地方没有说到或说准确),不足之处欢迎指正。

—END—


点击下方名片


即刻关注我们


算力猩
隶属于智猩猩,关注计算芯片创新,解读中国算力突破。
 最新文章