前言,GPU服务器的核心参数就是“能装”多少张GPU卡,我们常见的有4U8卡、4U10卡、4U16卡、4U20卡、6U10卡等,前两天在成都 Intel IPDC上看到了变态的6U32卡(不排除概念机的可能,暂未看到有6U32机型的落地案例),大家直观感受是“空间”足够就ok,除了GPU服务器的机箱“空间”外,想“装下”更多GPU,制约因素还有那些?下面我们从GPU卡尺寸、PCIe卡参数、电源功率、设备散热和兼容性5个方面展开聊聊。
一、GPU卡的“尺寸”和机箱空间
市面上常见的GPU卡尺寸有双宽全高全长、双宽全高半长、单卡半高半长等多种形态。怎么理解GPU卡的“宽”、“高”和“长”呢?我做了一个图供大家了解。
GPU卡长宽高的数值:
①半高:不超过68.9mm、全高:不超过111.15mm;
②半长:不超过167.65mm、全长:不超过312.00mm;
③单宽,即单插槽:不超过20mm、双宽,即双插槽:不超过40mm;
④全高全长的简称FHFL(full height full length)、半高半长的简称HHHL(half height half length);
举例1:涡轮版的RTX4090尺寸,双宽全高全长的参数如下:
举例2:英伟达T4 GPU的尺寸如下,为单宽半高半长
不同的机箱举例:标准的4U8卡、4U10卡和4U20卡(单宽卡)的GPU服务器示意图如下,八卡在空间上会为其他的PCIe插卡留出空间,比如网卡、Raid卡等,而十卡则会占满标准的PCIe槽位和空间,网卡的话通常需要用小尺寸的OCP卡或者板载网卡、4U20卡虽然数量看着挺多但是受空间所限仅支持单卡的GPU;
二、PCIe的资源-槽位数量和版本
以英伟达RTX 4090为例,涡轮版需要PCIe4.0 x16,八卡就是八倍的关系,我们知道决定服务器的PCIe资源的除了CPU还有主板,主板的设计是CPU的PCIe能否全部发挥的关键,当然还有PCIe SW芯片,主板设计时通过集成PCIe SW芯片能够扩展出更多的PCIe资源,提升整机的扩展性。我们以目前主流的2个机型进行举例:
1、基于AMD Milan的超微4U8卡服务器
怎么能够保证8张卡有足够的PCIe资源呢?分析如下:
①、双路的AMD milan平台因为中间通过三条xGMI,整机可提供128x2-(32x3)=160条PCIE lane
②、8张GPU占用了16x8=128条PCIE通道后,还有32条供其他网卡等部件使用;
③、GPU直通架构的优劣势:优势是成本比PCIe SW的方案产品成本更低,且GPU到CPU独享x16,CPU-GPU通讯性能更优,劣势是4U空间设计最多支持8张双宽GPU卡,跨GPU直接通信必须通过CPU。
2、基于Intel Icelake平台的超微4U10卡服务器
我们知道Intel Icelake CPU的PCIe通道数是64,2颗就是128,,那么10张GPU卡插满时总计需要160个PCIe Lane,CPU自身的PCIe通道数肯定是不够的,因此在主板设计时集成了2张PCIe SW(对应上图的的PLX芯片),每个PCIe SW可以将1个PCIe x16扩展出来5个PCIex16,这样就足够连接GPU用了。
优劣势分析:优势是扩展性更强,4U空间可支持10张双宽GPU卡,相同同PLX下的GPU(前提卡要支持)可点对点通信,劣势是整体成本变高了、GPU上行总带宽收敛比5:1;
此文为上篇,下篇会围绕GPU服务器的供电、散热和兼容性方面展开!
----老张会持续通过公众号分享前沿IT技术,创作不易,大家多多点赞和关注!