GPU服务器支持的“卡数”由哪些因素决定？（上篇）

科技 2024-12-12 12:13 北京

前言，GPU服务器的核心参数就是“能装”多少张GPU卡，我们常见的有4U8卡、4U10卡、4U16卡、4U20卡、6U10卡等，前两天在成都 Intel IPDC上看到了变态的6U32卡（不排除概念机的可能，暂未看到有6U32机型的落地案例），大家直观感受是“空间”足够就ok，除了GPU服务器的机箱“空间”外，想“装下”更多GPU，制约因素还有那些？下面我们从GPU卡尺寸、PCIe卡参数、电源功率、设备散热和兼容性5个方面展开聊聊。

一、GPU卡的“尺寸”和机箱空间

市面上常见的GPU卡尺寸有双宽全高全长、双宽全高半长、单卡半高半长等多种形态。怎么理解GPU卡的“宽”、“高”和“长”呢？我做了一个图供大家了解。

GPU卡长宽高的数值：

①半高：不超过68.9mm、全高：不超过111.15mm；
②半长：不超过167.65mm、全长：不超过312.00mm；
③单宽，即单插槽：不超过20mm、双宽，即双插槽：不超过40mm；
④全高全长的简称FHFL（full height full length）、半高半长的简称HHHL（half height half length）；

举例1：涡轮版的RTX4090尺寸，双宽全高全长的参数如下：

举例2：英伟达T4 GPU的尺寸如下，为单宽半高半长

不同的机箱举例：标准的4U8卡、4U10卡和4U20卡（单宽卡）的GPU服务器示意图如下，八卡在空间上会为其他的PCIe插卡留出空间，比如网卡、Raid卡等，而十卡则会占满标准的PCIe槽位和空间，网卡的话通常需要用小尺寸的OCP卡或者板载网卡、4U20卡虽然数量看着挺多但是受空间所限仅支持单卡的GPU；

二、PCIe的资源-槽位数量和版本

以英伟达RTX 4090为例，涡轮版需要PCIe4.0 x16，八卡就是八倍的关系，我们知道决定服务器的PCIe资源的除了CPU还有主板，主板的设计是CPU的PCIe能否全部发挥的关键，当然还有PCIe SW芯片，主板设计时通过集成PCIe SW芯片能够扩展出更多的PCIe资源，提升整机的扩展性。我们以目前主流的2个机型进行举例：

1、基于AMD Milan的超微4U8卡服务器

怎么能够保证8张卡有足够的PCIe资源呢？分析如下：

①、双路的AMD milan平台因为中间通过三条xGMI，整机可提供128x2-（32x3）=160条PCIE lane
②、8张GPU占用了16x8=128条PCIE通道后，还有32条供其他网卡等部件使用；
③、GPU直通架构的优劣势：优势是成本比PCIe SW的方案产品成本更低，且GPU到CPU独享x16，CPU-GPU通讯性能更优，劣势是4U空间设计最多支持8张双宽GPU卡，跨GPU直接通信必须通过CPU。

2、基于Intel Icelake平台的超微4U10卡服务器

我们知道Intel Icelake CPU的PCIe通道数是64，2颗就是128,，那么10张GPU卡插满时总计需要160个PCIe Lane，CPU自身的PCIe通道数肯定是不够的，因此在主板设计时集成了2张PCIe SW（对应上图的的PLX芯片），每个PCIe SW可以将1个PCIe x16扩展出来5个PCIex16，这样就足够连接GPU用了。

优劣势分析：优势是扩展性更强，4U空间可支持10张双宽GPU卡，相同同PLX下的GPU（前提卡要支持）可点对点通信，劣势是整体成本变高了、GPU上行总带宽收敛比5:1；

此文为上篇，下篇会围绕GPU服务器的供电、散热和兼容性方面展开！

----老张会持续通过公众号分享前沿IT技术，创作不易，大家多多点赞和关注！

CDCC

数据中心标准、技术沟通交流平台

最新文章

“2024中国金融行业数据中心发展论坛”参会指南——全面解析会议亮点与参会攻略

某金融数据中心扩容改造供配电在线割接实战

液冷板防凝露的关键措施与技术

会议全日程 | 2024中国金融行业数据中心发展论坛开幕在即——共筑数据未来，引领金融科技新篇章

451 Research | 未来核能对人工智能发展的影响

OpenAI o1 的智商已经达到120，高于普通人平均水平

面向未来的能源互联网 | 伊顿&世纪互联能源路由器发布会成功举办

浅谈江苏某数据中心空调系统设计

分布式光纤传感（Distributed Fiber Optic Sensing）发展历史

最佳演讲人气王 | 世纪互联刘学潮：数据中心国产柴发的机遇和挑战

2024年数据中心用电需求将增至20.9G，马来西亚政府延长发电厂营运期限应对

微软发布数据中心闭环液冷设计，“零水蒸发”冷却系统预计2026年开始运行

最佳演讲人气王 | 康普吴健：关键网络决定智算效率

马来西亚发布新指南以推动数据中心发展

CDCC专家探营 | 大美时代视听大数据产业园，一个有格调的高品质数据中心

GPU服务器支持的“卡数”由哪些因素决定？（上篇）

GPU服务器支持的“卡数”由哪些因素决定？（下篇）

新型TIM：散热效率提升高达70%？AI数据中心是不是可以不慌了！

更名一年后，这家企业又有新举措

NTT公司试验两相直芯液冷并推出现场试验数据中心

数字经济新动能！中国移动马山数据中心即将竣工

阿里巴巴官方回应“河源云计算数据中心失火”，对云服务未造成任何影响

最佳演讲人气王 | 抖音井汤博数据中心技术矩阵和产品套餐化研发策略

原创中标｜山西太原万家寨云谷大数据中心

科技巨头公司Meta为数据中心寻求核电支持

智慧金融算力未来 | 6大亮点曝光，EDC变革一触即发，不容错过！

世界上最智能的语言模型！OpenAI“满血版”o1大模型上线

NVIDIA GH200 内部架构探究-2

继Google的数据落地越南之后，Nvidia又在越南建智能和数据中心！

联想郝京阳：拥抱液冷：联想推动AI产业绿色高质量发展

让算力更加容易更加便宜

SK海力士将采用台积电3nm制程生产第六代高频宽內存HBM4

NVIDIA GH200 内部架构探究-1

最佳演讲人气王 | 阿里云任华华一册在手液冷不愁——《数据中心液冷系统技术规程》内容解析

NVIDIA 危？亚马逊计划推出AI芯片Trainium2

Amazon投资建造Xe-100先进反应堆

360智算中心：万卡GPU集群落地实践

绿色智算多原理兼容开放架构创新

美国商务部加强出口管制，限制中国先进半导体能力

腾讯落地全国首个风光储一体化数据中心微电网项目

CDCC 2024数据中心标准大会：海悟多场景液冷探索，风液同行，为高算力时代保驾护航

西安交通大学魏进家团队最新论文 | 微针翼歧管分布式射流微通道的数值与实验研究

约68.8亿元，1.8万机柜！兴业银行贵安新区数据中心项目开工建设

顶尖智慧碰撞，共同擘画AIDC发展蓝图

单志广：关于“算力网”和“算力网络”的几点粗浅思考

“去中国化”又一次加码，思科禁止使用原产中国的部件！

智慧金融算力未来 | 2024中国金融行业数据中心发展论坛报名通道正式开启

CDCC 数据中心标准大会 | STULZ液冷产品备受关注

惠普、戴尔抢囤中国产零部件！

2024 CDCC数据中心标准大会| 张健：智算未来，IDC变革与转型之路

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉