前言,最近很多朋友找我咨询的NVLink相关问题,虽然之前文章中也介绍过很多次了,但大家对NVLink和NVSwitch在GPU整机内部的拓扑逻辑还是不太清晰,为了便于大家理解,我专门找了很多图片,结合文字的说明带领大家从第一代NVLink开始到最新的NVLink5.0一起通过时间轴的方式回顾一下。
一、2014年,英伟达推出Pascal架构Tesla P100
P100采用第一代的NVLink技术支持4颗或者8颗GPU间的高速通信,是当时的PCIe 3.0x16的速率的5倍,计算如下:
PCIe 3.0x16的双向通信带宽为:1GBx16x2=32GB/s,
Nvlink 1.0的双向互联带宽为:20GBx4x2=160GB/s
P100的8卡Nvlink 互联拓扑如下,因为没有NvSwtich芯片,所以GPU间是网状互联,160GB/s指的是1个GPU到其他4个直连GPU的总带宽;
二、2017年,英伟达Volta架构V100发布
Volta架构与Pascal架构的 NVLink 相比,V100上的NVLink 速率从每链路单向带宽20GB/s提升至25 GB/s。并且链路数从4个增加到6个,将支持的GPU NVLink总带宽提升到300GB/s,但2017年发布的V100 DGX-1整机并未配置NvSwitch,拓扑图如下,和NVLink 1.0的拓扑类似,仅增加了链路数量。
三、2018年,英伟达推出V100 DGX-2整机
为了进一步提升GPU间的通信带宽和整机性能,V100 DGX-2是首次采用NvSwitch芯片,在一台DGX-2的整机中实现16个SXM V100 的全互联,如下图所示,所有16颗GPU通过NVSwitch连接。
V100 DGX-2的16颗GPU和NVswitch芯片互联拓扑示意图如下,NVSwitch 有18 个NVLink端口(向前链接GPU用8个,向后链接另一个基板的NVSwitch芯片用8个,共16个,剩余2口未用),每基板上有六个NVSwitch实现与另一个基板通信。
四、2020年,Ampere架构A100发布
Ampere架构的NVLink和NVSwitch芯片分别提升至3.0和2.0版本,单条NVLink的速率依然是单向25GB/s,但是总的链路数量提升至12条,因此GPU间的双向互联总带宽达600GB/s,DGX A100整机系统包含6个NVSwitch 2.0,每个A100 GPU使用12个NVLink与6个NVSwitch 进行互联,GPU到6个NvSwtich都有两条链路。
GPU整机的逻辑拓扑如下:
很多朋友不清楚HGX模组和“机头”的逻辑关系,我专门找了下面一张图,可以清晰看到SXM GPU的基板是通过PCIe链路和服务器主板互联的,PCIeSw芯片集成在服务器“机头”主板之上,网卡和NVMe U.2的PCIe信号同样来自PCIeSw。
五、2022年,Hopper架构的H100 GPU重磅发布
Hopper架构的NVLink和NVSwitch芯片的版本分别来到4.0和3.0,单条NVLink的速率依然没变还是单向25GB/s,但是链路数量再次提升达到18条,因此H100整机的GPU间双向互联总带宽达900GB/s,每个GPU分别采用5+4+4+5分组方式与4个NVSwitch互联,如下图所示
每个NVSwitch芯片“下面”的OSFP接口在DGX整机系统中是用不到的,是英伟达利用NVLink把更多GPU组网用的,比如在DGX H100 256 SuperPOD方案中会用到,如下图
六、2024年,Blackwell架构B200正式发布
Blackwell架构的NVLink和NVSwitch芯片分别来到5.0和4.0版本,单条链路速率翻倍来到单向50GB/s,数量还是18条,GPU间的互联带宽翻倍至1.8TB/s,8个GPU对应2个NVswitch芯片,每个NvSwitch芯片拥有72个NVLink5.0接口,每个GPU用9条NVLink和2个NVSwitch芯片互联,如图所示:
随着B200芯片发布的还有NVL72,作为英伟达单机柜的GPU“整机”产品,利用NVLink network Switch的方案实现了72颗GPU NVLink的全互联,大家的关注度也非常高,那么它到底是如何通过9个NVLink Switch将72个GPU互联为一个逻辑的“大GPU”的呢?拓扑如下
每个B200有18个NVLINK Port,72x18=1296个
1个Switch Tray包含2颗NVLINK Swtich 芯片,每个芯片提供72个接口,共计144个NVLink 接口,1296÷144=9台,正好通过9台Switch将72个GPU全互联。
来源:IT技术分享-老张
关注我们获取更多精彩内容
往期推荐
● 最佳演讲人气王 | 抖音井汤博 数据中心技术矩阵和产品套餐化研发策略