高性能GPU服务器硬件拓扑及集群组网

科技   2024-11-24 18:33   北京  

大会预告

12月5-6日,2024中国生成式AI大会(上海站)将举办,30+位嘉宾已确认参会演讲。其中,上海交大副教授、无问芯穹联合创始人兼首席科学家戴国浩,GMI Cloud 亚太区总裁King.Cui,英飞流创始人张颖峰,Jina AI联合创始人兼首席技术官王楠,中昊芯英芯片软件栈负责人朱国梁将在AI Infra峰会带来分享,欢迎报名~


大规模模型训练通常使用单机集群进行,每台机器有 8 张 GPU 卡。集群中使用的机器型号包括8 种:A100、A800、H100、H800,以及可能即将推出的 {4, 8} L40S。以下是具有 8 个 A100GPU 的典型机器的硬件拓扑:
基本介绍 概念和术语
1.  PCIe交换芯片
支持PCIe的CPU、内存、存储(NVMe)、GPU、网卡等设备都可以连接到PCIe总线或者专用的PCIe交换芯片上,实现互联互通。
目前PCIe已经有五代产品,最新的是Gen5。
2.  NVLink
NVLink 是 Nvidia 开发的有线串行多通道近距离通信链路。与 PCI Express 不同,一个设备可以由多个 NVLink 组成,并且设备使用网状网络而不是中央集线器进行通信。该协议于 2014 年 3月首次发布,使用专有的高速信号互连 (NVHS)。
NVLink 功能:
NVLink是指同一主机内不同GPU之间的高速互联方式。
它提供了短距离通信链路,确保数据包成功传输,并与 PCIe 相比提供更高的性能。
NVLink 作为 PCIe 的替代品,支持多通道,链路带宽随着通道数量的增加而线性增加。
NV Switch在单个节点内,GPU 使用 NVLink 以全网状配置互连,类似于主干叶(leaf-spine)拓扑。
NVIDIA 的专利技术。
NVLink 演进:第 1/2/3/4 代
主要区别在于单个 NVLink 链路中的通道数和每个通道的带宽(图中提供了两个方向)。
例如:
A100 采用 12 通道配置,每通道带宽为 50GB/s,双向带宽为 600GB/s(单向为 300GB/s)。
A800 禁用了 4 个通道,因此具有 8 通道配置,每通道带宽为 50GB/s,双向带宽为400GB/s(单向为 200GB/s)。
此外,还可以基于DCGM(数据中心GPU管理器)收集实时NVLink带宽。
3.  NVSwitch
典型的 8 卡 A100 主机硬件拓扑
NV Switch是NVIDIA公司推出的交换芯片,封装在GPU模块上,并不是主机外部独立的交换机。
下面是真机图,图中8个盒子就是8片A100,右边6块超厚散热片在NVSwitch芯片下面:
4.  NVLink 交换机
NVSwitch听起来像是一个交换机,但其实它是GPU模块上的一个交换芯片,用于连接同一台主机内的GPU。
2022年,NVIDIA把这颗芯片拿出来,实际上把它做成了一个交换机,叫NVLink Switch,用于跨主机连接GPU设备。
这两个名字很容易让人混淆。
5.  HBM(高带宽内存)
HBM 的起源
传统上,GPU 内存与常规 DDR 内存类似,插入主板并通过 PCIe 连接到处理器(CPU 或GPU)。因此,速度瓶颈在于 PCIe,Gen4 提供 64GB/s,Gen5 提供 128GB/s。因此,一些 GPU 制造商(不仅仅是 NVIDIA)采用了将多个 DDR 芯片堆叠在一起并与 GPU 封装在一起的配置(如文中讨论 H100 时后面部分所示)。通过这种配置,当每个 GPU 与其专用内存交互时,无需经过 PCIe 交换芯片,从而显著提高速度。这种配置被称为“高带宽内存”(HBM),可以提供带宽的大幅提升。
目前HBM市场被SK海力士、三星等韩国企业垄断。
演进:
HBM 1/2/2e/3/3e
6. 带宽单位
大规模GPU训练的性能与数据传输速度有直接关系,涉及到PCIe带宽、内存带宽、NVLink带宽、HBM带宽、网络带宽等多个环节。除了使用比特/秒(b/s)表示网络带宽的惯例外,通常只提到单向(TX/RX),其他模块带宽一般以字节/秒(B/s)或交易/秒(T/s)表示,代表双向总带宽。
比较带宽时,区分和转换不同的单位非常重要。
1 主机内拓扑结构:2-2-4-6-8-8
2 个 CPU(以及两侧的内存,NUMA)
2块存储网卡(访问分布式存储、带内管理等)
4 个 PCIe Gen4 交换芯片
6 个 NVSwitch 芯片
8 个 GPU
8块GPU专用网卡
典型的 8 卡 A100 主机硬件拓扑
下图比较专业,需要更详细可以参考
1.1. 存储网卡
通过 PCIe 直接连接到 CPU。
主要应用:
从分布式存储中读取和写入数据,例如读取训练数据和写入检查点。
常规节点管理任务,包括 SSH、监控和数据收集。
官方推荐使用BF3 DPU,但只要满足带宽要求,什么方案都可以,如果想节省成本,可以采用
RoCE组网,如果想最大化性能,可以优先考虑InfiniBand。
1.2.  NVSwitch
结构:节点内全网状 Full Mesh
8 个 GPU 通过 6 个 NVSwitch 芯片以全网状配置连接,也称为 NVSwitch 结构。全网状配置中的每个链路的带宽为 n * bw-per-nvlink-lane。
A100 GPU 采用 NVLink3,每通道带宽为 50GB/s。因此,全网格中的每个链路以 12 * 50GB/s =600GB/s 的速度运行。值得注意的是,此带宽是双向的,单向带宽为 300GB/s。
A800 GPU 是精简版,12 个通道缩减为 8 个通道。因此,每个链路的运行速度为 8 * 50GB/s =400GB/s,单向带宽为 200GB/s
1.3. 使用nvidia-smi topo查看拓扑
下面是nvidia-smi在一台8*A800的机器上实际显示的拓扑(网卡两两bond,NIC 0~3全部bond):
GPU 之间(左上区域):全部都是 NV8,表示有 8 个 NVLink 连接。
NIC 之间:
在同一个CPU die上:NODE,表示不需要跨NUMA,但是需要跨PCIe交换芯片。
在不同的CPU die上:SYS,表示需要跨NUMA。
GPU 和 NIC 之间:
位于同一个CPU die上,并且位于同一个PCIe交换芯片下:NODE,表示只需要跨PCIe交换芯片。
在同一个CPU die上,但不在同一个PCIe交换芯片下:NODE,表示需要跨PCIe交换芯片和PCIe host bridge。
在不同的CPU die上:SYS,表示需要跨越NUMA、PCIe交换芯片,以及最长的距离。
2.  GPU训练集群组网:IDC GPU fabric
多个NODE之间的连接下图很清楚,GPU之间的计算网络通过下端的网卡每个节点8张连接到计算网路的Leaf 交换机,上端的每个节点的和CPU 连接的2张网卡连接到存储网络的leaf 交换机上。
2.1 计算网络
该网络的目的是实现与其他节点的 GPU 到 GPU 的数据交换。
每个 GPU 通过 PCIe 交换机连接到其各自的网络接口卡 (NIC):GPU <--> PCIe 交换机 <--> NIC。
2.2 存储网络
两块网卡(NIC)直接和CPU连接,连接另一个网络,主要用途是数据读写,以及SSH管理等任务。
2.3 RoCE 与 InfiniBand
无论是计算网络还是存储网络,都需要RDMA(Remote Direct Memory Access)来实现AI所需的高性能。目前RDMA有两种选择:
RoCEv2(RDMA over Converged Ethernet version 2):这是公有云提供商通常为其 8-GPU 实例使用的网络,例如具有 8 * 100Gbps 的 CX6 配置。在满足性能要求的前提下,与其他选项相比,它相对具有成本效益。
InfiniBand(IB):在网卡带宽相同的情况下,InfiniBand 比 RoCEv2 性能提升 20% 以上,但价格较高,大约是 RoCEv2 的两倍。
3. 数据链路带宽瓶颈分析
单机8卡A100 GPU主机带宽瓶颈分析
图中标出了几个关键的链路带宽:
1. 同一主机上的GPU之间:使用NVLink,双向带宽为600GB/s,单向带宽为300GB/s。
2. 同一主机上的 GPU 与各自的网络接口卡 (NIC) 之间:利用 PCIe Gen4 交换芯片,双向带宽为64GB/s,单向带宽为 32GB/s。
3. 跨主机 GPU 之间:数据传输依赖于网卡,带宽取决于具体使用的网卡。目前国内常用的A100/A800 型号网卡单向带宽主流为 100Gbps(12.5GB/s)。因此主机间通信相比主机内通信性能会大幅下降。
200Gbps(25GB/s)接近PCIe Gen4的单向带宽
因此,在这种配置中使用 400Gbps NIC 不会产生显著的好处,因为它需要 PCIe Gen5 性能才能充分利用 400Gbps 带宽。
典型8*H100/8*H800主机
GPU板外形尺寸分为两种:
PCIe Gen5
SXM5:性能更高性能
1. H100芯片布局
以下是H100 GPU芯片的内部结构
4nm工艺;
底行由 18 个 Gen4 NVLink 连接组成;提供 18 通道 * 25GB/s/通道 = 900GB/s 的双向总带宽;
中间的蓝色区域代表L2缓存;
左右两侧是HBM芯片,作为显存。
2. 主机内部硬件拓扑
结构大致与A100 8卡机类似,不同之处在于:
NVSwitch芯片数量由6颗减少为4颗;实机图如下:
与CPU的互连由PCIe Gen4 x16升级为PCIe Gen5 x16,双向带宽达到128GB/s;
3. 网络
和A100类似,不同之处在于现在标配的是400Gbps CX7网卡,否则网络带宽和PCIe Switch、NVLink/NVSwitch相比差距会比较大。

—END—


点击下方名片


即刻关注我们


算力猩
隶属于智猩猩,关注计算芯片创新,解读中国算力突破。
 最新文章