高性能GPU服务器硬件拓扑及集群组网

科技 2024-11-24 18:33 北京

大会预告

12月5-6日，2024中国生成式AI大会（上海站）将举办，30+位嘉宾已确认参会演讲。其中，上海交大副教授、无问芯穹联合创始人兼首席科学家戴国浩，GMI Cloud 亚太区总裁King.Cui，英飞流创始人张颖峰，Jina AI联合创始人兼首席技术官王楠，中昊芯英芯片软件栈负责人朱国梁将在AI Infra峰会带来分享，欢迎报名～

大规模模型训练通常使用单机集群进行，每台机器有 8 张 GPU 卡。集群中使用的机器型号包括8 种：A100、A800、H100、H800，以及可能即将推出的 {4, 8} L40S。以下是具有 8 个 A100GPU 的典型机器的硬件拓扑：

基本介绍概念和术语

1. PCIe交换芯片

支持PCIe的CPU、内存、存储（NVMe）、GPU、网卡等设备都可以连接到PCIe总线或者专用的PCIe交换芯片上，实现互联互通。

目前PCIe已经有五代产品，最新的是Gen5。

2. NVLink

NVLink 是 Nvidia 开发的有线串行多通道近距离通信链路。与 PCI Express 不同，一个设备可以由多个 NVLink 组成，并且设备使用网状网络而不是中央集线器进行通信。该协议于 2014 年 3月首次发布，使用专有的高速信号互连 (NVHS)。

NVLink 功能：

NVLink是指同一主机内不同GPU之间的高速互联方式。

它提供了短距离通信链路，确保数据包成功传输，并与 PCIe 相比提供更高的性能。

NVLink 作为 PCIe 的替代品，支持多通道，链路带宽随着通道数量的增加而线性增加。

NV Switch在单个节点内，GPU 使用 NVLink 以全网状配置互连，类似于主干叶(leaf-spine)拓扑。

NVIDIA 的专利技术。

NVLink 演进：第 1/2/3/4 代

主要区别在于单个 NVLink 链路中的通道数和每个通道的带宽（图中提供了两个方向）。

例如：

A100 采用 12 通道配置，每通道带宽为 50GB/s，双向带宽为 600GB/s（单向为 300GB/s）。

A800 禁用了 4 个通道，因此具有 8 通道配置，每通道带宽为 50GB/s，双向带宽为400GB/s（单向为 200GB/s）。

此外，还可以基于DCGM（数据中心GPU管理器）收集实时NVLink带宽。

3. NVSwitch

典型的 8 卡 A100 主机硬件拓扑

NV Switch是NVIDIA公司推出的交换芯片，封装在GPU模块上，并不是主机外部独立的交换机。

下面是真机图，图中8个盒子就是8片A100，右边6块超厚散热片在NVSwitch芯片下面：

4. NVLink 交换机

NVSwitch听起来像是一个交换机，但其实它是GPU模块上的一个交换芯片，用于连接同一台主机内的GPU。

2022年，NVIDIA把这颗芯片拿出来，实际上把它做成了一个交换机，叫NVLink Switch，用于跨主机连接GPU设备。

这两个名字很容易让人混淆。

5. HBM(高带宽内存）

HBM 的起源

传统上，GPU 内存与常规 DDR 内存类似，插入主板并通过 PCIe 连接到处理器（CPU 或GPU）。因此，速度瓶颈在于 PCIe，Gen4 提供 64GB/s，Gen5 提供 128GB/s。因此，一些 GPU 制造商（不仅仅是 NVIDIA）采用了将多个 DDR 芯片堆叠在一起并与 GPU 封装在一起的配置（如文中讨论 H100 时后面部分所示）。通过这种配置，当每个 GPU 与其专用内存交互时，无需经过 PCIe 交换芯片，从而显著提高速度。这种配置被称为“高带宽内存”（HBM），可以提供带宽的大幅提升。

目前HBM市场被SK海力士、三星等韩国企业垄断。

演进：

HBM 1/2/2e/3/3e

6. 带宽单位

大规模GPU训练的性能与数据传输速度有直接关系，涉及到PCIe带宽、内存带宽、NVLink带宽、HBM带宽、网络带宽等多个环节。除了使用比特/秒（b/s）表示网络带宽的惯例外，通常只提到单向（TX/RX），其他模块带宽一般以字节/秒（B/s）或交易/秒（T/s）表示，代表双向总带宽。

比较带宽时，区分和转换不同的单位非常重要。

1 主机内拓扑结构：2-2-4-6-8-8

2 个 CPU（以及两侧的内存，NUMA）

2块存储网卡（访问分布式存储、带内管理等）

4 个 PCIe Gen4 交换芯片

6 个 NVSwitch 芯片

8 个 GPU

8块GPU专用网卡

典型的 8 卡 A100 主机硬件拓扑

下图比较专业，需要更详细可以参考

1.1. 存储网卡

通过 PCIe 直接连接到 CPU。

主要应用：

从分布式存储中读取和写入数据，例如读取训练数据和写入检查点。

常规节点管理任务，包括 SSH、监控和数据收集。

官方推荐使用BF3 DPU，但只要满足带宽要求，什么方案都可以，如果想节省成本，可以采用

RoCE组网，如果想最大化性能，可以优先考虑InfiniBand。

1.2. NVSwitch

结构：节点内全网状 Full Mesh

8 个 GPU 通过 6 个 NVSwitch 芯片以全网状配置连接，也称为 NVSwitch 结构。全网状配置中的每个链路的带宽为 n * bw-per-nvlink-lane。

A100 GPU 采用 NVLink3，每通道带宽为 50GB/s。因此，全网格中的每个链路以 12 * 50GB/s =600GB/s 的速度运行。值得注意的是，此带宽是双向的，单向带宽为 300GB/s。

A800 GPU 是精简版，12 个通道缩减为 8 个通道。因此，每个链路的运行速度为 8 * 50GB/s =400GB/s，单向带宽为 200GB/s

1.3. 使用nvidia-smi topo查看拓扑

下面是nvidia-smi在一台8*A800的机器上实际显示的拓扑(网卡两两bond，NIC 0~3全部bond):

GPU 之间（左上区域）：全部都是 NV8，表示有 8 个 NVLink 连接。

NIC 之间：

在同一个CPU die上：NODE，表示不需要跨NUMA，但是需要跨PCIe交换芯片。

在不同的CPU die上：SYS，表示需要跨NUMA。

GPU 和 NIC 之间：

位于同一个CPU die上，并且位于同一个PCIe交换芯片下：NODE，表示只需要跨PCIe交换芯片。

在同一个CPU die上，但不在同一个PCIe交换芯片下：NODE，表示需要跨PCIe交换芯片和PCIe host bridge。

在不同的CPU die上：SYS，表示需要跨越NUMA、PCIe交换芯片，以及最长的距离。

2. GPU训练集群组网：IDC GPU fabric

多个NODE之间的连接下图很清楚，GPU之间的计算网络通过下端的网卡每个节点8张连接到计算网路的Leaf 交换机，上端的每个节点的和CPU 连接的2张网卡连接到存储网络的leaf 交换机上。

2.1 计算网络

该网络的目的是实现与其他节点的 GPU 到 GPU 的数据交换。

每个 GPU 通过 PCIe 交换机连接到其各自的网络接口卡 (NIC)：GPU <--> PCIe 交换机 <--> NIC。

2.2 存储网络

两块网卡（NIC）直接和CPU连接，连接另一个网络，主要用途是数据读写，以及SSH管理等任务。

2.3 RoCE 与 InfiniBand

无论是计算网络还是存储网络，都需要RDMA（Remote Direct Memory Access）来实现AI所需的高性能。目前RDMA有两种选择：

RoCEv2（RDMA over Converged Ethernet version 2）：这是公有云提供商通常为其 8-GPU 实例使用的网络，例如具有 8 * 100Gbps 的 CX6 配置。在满足性能要求的前提下，与其他选项相比，它相对具有成本效益。

InfiniBand（IB）：在网卡带宽相同的情况下，InfiniBand 比 RoCEv2 性能提升 20% 以上，但价格较高，大约是 RoCEv2 的两倍。

3. 数据链路带宽瓶颈分析

单机8卡A100 GPU主机带宽瓶颈分析

图中标出了几个关键的链路带宽：

1. 同一主机上的GPU之间：使用NVLink，双向带宽为600GB/s，单向带宽为300GB/s。

2. 同一主机上的 GPU 与各自的网络接口卡 (NIC) 之间：利用 PCIe Gen4 交换芯片，双向带宽为64GB/s，单向带宽为 32GB/s。

3. 跨主机 GPU 之间：数据传输依赖于网卡，带宽取决于具体使用的网卡。目前国内常用的A100/A800 型号网卡单向带宽主流为 100Gbps（12.5GB/s）。因此主机间通信相比主机内通信性能会大幅下降。

200Gbps（25GB/s）接近PCIe Gen4的单向带宽

因此，在这种配置中使用 400Gbps NIC 不会产生显著的好处，因为它需要 PCIe Gen5 性能才能充分利用 400Gbps 带宽。

典型8*H100/8*H800主机

GPU板外形尺寸分为两种：

PCIe Gen5

SXM5：性能更高性能

1. H100芯片布局

以下是H100 GPU芯片的内部结构

4nm工艺；

底行由 18 个 Gen4 NVLink 连接组成；提供 18 通道 * 25GB/s/通道 = 900GB/s 的双向总带宽；

中间的蓝色区域代表L2缓存；

左右两侧是HBM芯片，作为显存。

2. 主机内部硬件拓扑

结构大致与A100 8卡机类似，不同之处在于：

NVSwitch芯片数量由6颗减少为4颗；实机图如下：

与CPU的互连由PCIe Gen4 x16升级为PCIe Gen5 x16，双向带宽达到128GB/s；

3. 网络

和A100类似，不同之处在于现在标配的是400Gbps CX7网卡，否则网络带宽和PCIe Switch、NVLink/NVSwitch相比差距会比较大。

—END—

点击下方名片

即刻关注我们

算力猩

隶属于智猩猩，关注计算芯片创新，解读中国算力突破。

算力网（络），应该是什么

先进封装技术解读 | 台积电

IBM 的大规模 A100/H100 GPU 集群 Infra 建设

22页PPT详解 NVIDIA RTX™ 5880 Ada 及训推一体机【附下载】

AI数据中心：网络设计和选型标准

突破内存墙：DRAM技术演进及3D DRAM革命

SC24｜谷歌AI加速器：TPU v6e Trillium技术解析

公开课预告：大规模异构GPU集群的互联、运维与调度｜基流科技技术负责人敬阳主讲

揭秘 AWS 10p10u 最新网络架构！

AI时代的以太网：应对大规模GPU集群网络挑战

智算中心正在CDN化

博通3.5D F2F技术：定义AI XPU的未来

NVIDIA RTX™ 5880 Ada 性能解析与私有化大模型部署｜在线研讨会直播预告

AI数据中心历史、技术与关键企业

揭秘！世界第一个采用CXL 3.1交换机的AI集群

公开课预告：大模型时代的智算GPU集群｜阿里云智能集团智算集群产品专家陈祎主讲

GPU服务器支持的“卡数”由哪些因素决定？

HBM制裁加码下的困境与出路

Meta 万卡 GPU 集群稳定性剖析与最佳实践

通往万亿晶体管GPU之路

亚马逊芯片帝国背后的功臣

比GPU快20倍？d-Matrix推理性价比分析

AWS最强AI芯片，深度解读！

功能安全的图形显示解决方案与汽车制造业模拟数字孪生平台 | NVIDIA 加速汽车制造与智驾开发专场直播预告

公开课预告：OISA构建开放高性能GPU卡间互联体系｜中国移动研究院李锴主讲

NVIDIA GH200 内部架构探究

UEC 和 UAL 应该合并吗？

AI Infra峰会与大模型峰会议程全公布！2024中国生成式AI大会上海站本周举行，报名即将截止！

公开课预告：针对先进封装的2.5D/3D Chiplet协同设计仿真EDA工具探讨｜硅芯科技创始人赵毅主讲

一文看懂Infinity Fabric

大模型时代：交换机衡量指标、技术演变及性能分析

爱芯元智吴炜：多模态大模型在端侧的创新实践与挑战｜GenAICon 2024上海站演讲预告

智算中心：现状、挑战、策略与未来机遇

GenAICon 2024上海站主会场议程公布！34位学者专家全景式解构大模型与AI Infra

追赶NVIDIA，国产AI芯片需努力的5个方面

光羽芯辰创始人周强：通向个人大模型之路｜演讲预告

从UALink近期发展再看GPU Scale Up的互连方向

无问芯穹首席科学家戴国浩教授：软硬协同与多元异构，共筑大模型算力底座｜演讲预告

公开课预告：智算中心 AI Scale-Up 网络技术｜益思芯科技解决方案副总裁唐杰主讲

大规模AI计算时代的存储：挑战与优化

聊一聊算力调度

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性｜GMI Cloud 亚太区总裁 King.Cui演讲预告

中国系统级封装大会SiP China 2024周三开启！免费报名～

面向大规模AI计算的高性能网络架构：Enfabrica ACF-S解决方案深度解析

近30家大模型与AI Infra企业来了！年度生成式AI大会上海站公布最新嘉宾，报名进入最后阶段

高性能GPU服务器硬件拓扑及集群组网

GPU互连新标准：UALink联盟能否打破NVIDIA垄断？

高性能智算集群设计思考与实践｜阿里云智算集群产品解决方案负责人丛培岩演讲预告

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性？｜GMI Cloud 亚太区总裁 King.Cui演讲预告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉