NVIDIA GH200 架构
本节介绍 NVIDIA GH200 的主要架构特性,包括:NVLink-C2C、NVLink 交换系统、扩展 GPU 内存 (EGM) 和超芯片的灵活计算能力。
NVLink-C2C
NVLink 芯片间互连(C2C)提供 Grace CPU 和 Hopper GPU 之间的高速直接连接,以构建 Grace Hopper 超芯片,专为 AI 和 HPC 应用的加速而设计。NVLink-C2C 提供 900GB/s 的双向带宽,比 x16 PCIe Gen 链接高出 7 倍的带宽且延迟更低。NVLink-C2C 仅消耗 1.3 皮焦每比特的能量,比 PCIe Gen 5 高效 5 倍以上。此外,NVLink-C2C 是一种具备系统级原子操作原生硬件支持的一致性内存互连。这提升了对非本地内存(如 CPU 和 GPU 线程访问驻留在另一设备中的内存)的访问性能。硬件一致性还改进了同步原语的性能,减少了 GPU 或 CPU 彼此等待的时间,增加了整个系统的利用率。最后,硬件一致性简化了异构计算应用的开发,支持常见的编程语言和框架,这在下方的 NVIDIA Grace Hopper 编程模型部分中有详细说明。
GH200 NVL32 的 NVLink 交换系统
NVIDIA NVLink 交换系统结合了第四代 NVIDIA NVLink 技术和新一代第三代 NVIDIA NVSwitch。NVLink 交换托盘中的 NVSwitch 芯片单层连接多达 32 个 Grace Hopper 超芯片,使任何一个超芯片之间通过 900GB/s 的 NVLink 连接实现全带宽的同时通信。
第四代 NVIDIA NVLink 允许 GPU 线程通过普通内存操作、原子操作和批量传输访问 NVLink 网络中所有超芯片提供的高达 19.5TB 的内存。当 NVLink 交换系统可用时,MPI、NCCL 或 NVSHMEM 等通信库会自动利用该系统。NVIDIA NVLink 交换系统将每个 Grace Hopper 超芯片连接到网络的总带宽为 900GB/s,即 Grace Hopper 超芯片对之间的数据交换速率最高可达 900GB/s。在连接多达 32 个 Grace Hopper 超芯片时,网络提供的总对全带宽达到 14.4TB/s,比 InfiniBand NDR400 的总对全带宽高 9 倍
32 个 Grace Hopper 超芯片提供的惊人 127 PFLOPS 性能,加上 NVLink 交换系统提供的 14.4TB/s 的全互带宽和高达 19.5TB 的可直接寻址内存,使得训练超大 AI 模型以及大规模扩展 HPC 和 AI 工作负载成为可能。
使用扩展 GPU 内存加速应用
NVIDIA GH200 旨在加速内存占用极大的应用程序,其需求超出单个超芯片的 HBM3 / HBM3e 和 LPDDR5X 内存容量(请参见下方的 NVIDIA GH200 加速应用章节)。
高带宽 NVLink-C2C 上的扩展 GPU 内存 (EGM) 特性使 GPU 能够高效访问系统的所有内存。EGM 在多节点 NVSwitch 连接系统中提供高达 19.5TB 的系统内存。通过 EGM,系统中的物理内存可分配给任意 GPU 线程访问。所有 GPU 都能以 GPU-GPU NVLink 或 NVLink-C2C 的最低速度访问 EGM。
在 Grace Hopper 超芯片配置中,内存访问通过本地高带宽 NVLink-C2C 通道实现,总带宽为 900GB/s。远程内存访问通过 GPU NVLink 实现,取决于所访问的内存,有时也通过 NVLink-C2C,详见图 5。借助 EGM,GPU 线程现在可以通过 NVSwitch 架构访问所有内存资源,包括 LPDDR5X 和 HBM3 或 HBM3e,以 450GB/s 的单向速度进行访问。
为峰值性能打造的灵活架构
NVIDIA Grace Hopper 架构具有灵活性,能够支持从大规模深度学习训练和 HPC 工作负载到需要服务质量(QoS)的小型推理工作负载的各种应用。NVIDIA GH200 系统可以在 NVIDIA Grace CPU 和 Hopper GPU 之间平衡功率。Grace Hopper 超芯片使得可以构建具有 1:1 GPU-CPU 比例的超级计算系统,这些系统在 GPU 密集型、CPU 密集型以及真正的异构工作负载下都能实现高效能。NVIDIA Grace Hopper 节点使得可以构建具有更高峰值性能、更低维护和更低管理开销的统一系统。
NVIDIA Grace CPU 支持内存资源分区和监控(MPAM)功能,提供任务间的性能隔离。MPAM 使得用户和管理员能够分配可用的 LPDDR5X 带宽和 CPU 缓存使用。NVIDIA 多实例 GPU(MIG)允许将 Hopper GPU 划分为更小的实例。MPAM 和 MIG 可以一起用于分配系统资源,从而改善 QoS。
NVIDIA Grace Hopper 超芯片的性能监控单元(PMU)遵循 ARM PMU 架构规范标准(Arm v8.5 PMUv3),用于捕获性能指标,并通过标准的 Linux 性能工具接口(如 Linux perf)进行暴露。它们提供了一种统一且可编程的方法,用于在一次操作中捕获 Grace CPU 和 Grace Hopper 超芯片的性能指标。一次性指标收集以极低的开销进行,几乎不需要 CPU 轮询,同时支持所有机密计算所需的特性。收集的指标涵盖了 CPU 核心和缓存、系统缓存、内存带宽、利用率、吞吐量以及 GPU、CPU、NVLink-C2C、PCIe 和 DRAM 的延迟。
硬件加速的内存一致性
在 PCIe 连接的 x86+Hopper 系统中,CPU 和 GPU 各自拥有独立的进程页表,系统分配的内存无法直接被 GPU 访问(如图 7 所示)。当程序在主机上使用系统分配器分配内存时,该分配的页条目不会出现在 GPU 的页表中,从而导致 GPU 线程无法访问该内存。
图 7. NVIDIA Hopper 系统中不连接的页表
在基于 NVIDIA Grace Hopper 超芯片的系统中,地址转换服务 (ATS) 使得 CPU 和 GPU 能够共享单一的进程页表,允许所有 CPU 和 GPU 线程访问系统分配的所有内存(如图 8 所示),这些内存可以驻留在物理 CPU 或 GPU 内存上。CPU 堆、CPU 线程栈、全局变量等都能够在这一共享内存结构中实现可访问性。所有 CPU 和 GPU 线程均可访问内存映射文件和进程间共享的内存。
图 8. NVIDIA Grace Hopper Super Chip 系统中的 ATS
NVIDIA NVLink-C2C 硬件一致性允许 Grace CPU 以缓存行粒度缓存 GPU 内存,使 GPU 和 CPU 能够在无需页面迁移的情况下访问彼此的内存。NVLink-C2C 还加速了系统分配内存上的所有 CPU 和 GPU 支持的原子操作。作用域原子操作得到完全支持,使得系统中所有线程都能够进行细粒度且可扩展的同步。
运行时在首次访问时为系统分配的内存提供物理内存支持,依据 CPU 或 GPU 线程首先访问的情况,分配在 LPDDR5X 或 HBM3 / HBM3e 上。从操作系统的角度来看,Grace CPU 和 Hopper GPU 被视为两个独立的 NUMA 节点。
系统分配的内存是可迁移的,即运行时可以改变其物理内存支持以提升应用性能(如图 9 所示)或应对内存压力。硬件访问计数器允许延迟迁移,仅将“热点”页面进行迁移,从而避免基于页面故障的方法。
图 9. 基于访问频率的自动内存迁移
通过非一致性 PCIe 通道连接的网络和存储设备可以采用多种方法对系统分配的内存执行直接内存访问(DMA)和远程 DMA(RDMA)。按需分页 (ODP) 是一种 RDMA 扩展,NVIDIA InfiniBand 网络产品如 BlueField-3 和 ConnectX-7 支持该功能,它允许设备跟踪正在迁移的页面。这一功能使得通信和存储库,如 MAGNUM IO(MPI、HPC-X、NCCL、NVSHMEM、UCX、MAGNUM IO 和 GPUDirect Storage),能够在系统分配的内存上执行高效的零拷贝 I/O 操作,而无需通过单独的缓冲区进行传输。
CUDA 特定的内存 API 为用户提供了内存位置、访问线程、是否可迁移等保证,帮助用户充分发挥硬件的性能。应用程序可以通过 CUDA 和/或 NUMA API 提供内存访问模式提示,使系统能够进行应用特定的优化。NUMA 内存提示允许应用通知运行时其内存访问模式。
NVLink 交换系统中的内存访问
在通过 NVLink 交换系统连接的 Grace Hopper 超芯片中,GPU 线程可以通过 NVLink 页表访问 NVLink 网络中其他 Grace Hopper 超芯片上的 HBM3 / HBM3e 和 LPDDR5X 内存(如图 10 所示)。CUDA API 允许应用程序将远程节点的内存映射到当前进程中,然后通过加载、存储、原子操作以及批量内存传输直接访问该内存。
最后留几个疑问和大家讨论,GB200组成的NVL32 机架里面,看起来CPU还是不能直接访问机架上NVL32 所有的HBM,GPU 已经做到访问所有的其他GPU的HBM。
1. GB200 组成NVL32机柜 是装了一个OS还是32个OS ?
2. NVLINK Page table 是驻留在哪里?在GPU HBM中还是在DDR ?
3. NVLINK Page table 是32份还是一份?
欢迎互动
-----------------------------------------------------------------------------
相关文档和资料统一存放在知识星球,加入获得更多相关资料
本文根据以下资料撰写,加入星球可获得更多800+详细资料
双11赠送优惠卷
互动群加入,目前已经满500,先加微信后再加入