GPU服务器支持的“卡数”由哪些因素决定?(上篇)

科技   2024-12-12 12:13   北京  

前言,GPU服务器的核心参数就是“能装”多少张GPU卡,我们常见的有4U8卡、4U10卡、4U16卡、4U20卡、6U10卡等,前两天在成都 Intel IPDC上看到了变态的6U32卡(不排除概念机的可能,暂未看到有6U32机型的落地案例),大家直观感受是“空间”足够就ok,除了GPU服务器的机箱“空间外,想“装下”更多GPU,制约因素还有那些?下面我们从GPU卡尺寸、PCIe卡参数、电源功率、设备散热和兼容性5个方面展开聊聊。

一、GPU卡的“尺寸”和机箱空间

市面上常见的GPU卡尺寸有双宽全高全长、双宽全高半长、单卡半高半长等多种形态。怎么理解GPU卡的“宽”、“高”和“长”呢?我做了一个图供大家了解。

GPU卡长宽高的数值:

  • ①半高:不超过68.9mm、全高:不超过111.15mm;

  • 半长:不超过167.65mm、全长:不超过312.00mm;

  • 单宽,即单插槽:不超过20mm、双宽,即双插槽:不超过40mm;

  • ④全高全长的简称FHFL(full height full length)、半高半长的简称HHHL(half height half length);

举例1:涡轮版的RTX4090尺寸,双宽全高全长的参数如下:

举例2:英伟达T4 GPU的尺寸如下,为单宽半高半长

不同的机箱举例:标准的4U8卡、4U10卡和4U20卡(单宽卡)的GPU服务器示意图如下,八卡在空间上会为其他的PCIe插卡留出空间,比如网卡、Raid卡等,而十卡则会占满标准的PCIe槽位和空间,网卡的话通常需要用小尺寸的OCP卡或者板载网卡、4U20卡虽然数量看着挺多但是受空间所限仅支持单卡的GPU;

二、PCIe的资源-槽位数量和版本

以英伟达RTX 4090为例,涡轮版需要PCIe4.0 x16,八卡就是八倍的关系,我们知道决定服务器的PCIe资源的除了CPU还有主板,主板的设计是CPU的PCIe能否全部发挥的关键,当然还有PCIe SW芯片,主板设计时通过集成PCIe SW芯片能够扩展出更多的PCIe资源,提升整机的扩展性。我们以目前主流的2个机型进行举例:

1、基于AMD Milan的超微4U8卡服务器

怎么能够保证8张卡有足够的PCIe资源呢?分析如下:

  • ①、双路的AMD milan平台因为中间通过三条xGMI,整机可提供128x2-(32x3)=160条PCIE lane

  • ②、8张GPU占用了16x8=128条PCIE通道后,还有32条供其他网卡等部件使用;

  • ③、GPU直通架构的优劣势:优势是成本比PCIe SW的方案产品成本更低,且GPU到CPU独享x16,CPU-GPU通讯性能更优,劣势是4U空间设计最多支持8张双宽GPU卡,跨GPU直接通信必须通过CPU。

2、基于Intel Icelake平台的超微4U10卡服务器

我们知道Intel Icelake CPU的PCIe通道数是64,2颗就是128,,那么10张GPU卡插满时总计需要160个PCIe Lane,CPU自身的PCIe通道数肯定是不够的,因此在主板设计时集成了2张PCIe SW(对应上图的的PLX芯片),每个PCIe SW可以将1个PCIe x16扩展出来5个PCIex16,这样就足够连接GPU用了。

优劣势分析:优势是扩展性更强,4U空间可支持10张双宽GPU卡,相同同PLX下的GPU(前提卡要支持)可点对点通信,劣势是整体成本变高了、GPU上行总带宽收敛比5:1;

此文为上篇,下篇会围绕GPU服务器的供电、散热和兼容性方面展开!

----老张会持续通过公众号分享前沿IT技术,创作不易,大家多多点赞和关注!

CDCC
数据中心标准、技术沟通交流平台
 最新文章