最近,《2024数字中国万里行暨算力经济中国行考察报告》出版,我们将对报告内容开启连载模式。
PART III 技术演进 第四章 多元算力交织,主要探讨了以下话题:
四.服务器:重构升级
AI特别是大语言模型(LLM)的训练应用,对算力的总体规模和部署密度有很高的要求,所以GPU/加速器的互联和服务器所需的网络带宽也一路攀升,后者已经来到800Gbps乃至1.6Tbps的水平。
1.
主流训练机型
英伟达在2016年推出的DGX-1系统,不仅首个实体(服务器)捐赠给了OpenAI,其架构设计也影响深远,一直延续至今。
DGX-1系统架构包含以下要素:
8个SXM规格的GPU在基板(Baseboard)上通过专用的高速互联(NVLink)结为一体,即纵向扩展(Scale-up);
这些GPU通过PCIe连接2个(通常为x86)CPU和多块高速网卡(InfiniBand或RoCE),以将多台GPU服务器组成集群,即横向扩展(Scale-out)。
具体配置为:
8个SXM2规格的Tesla P100或V100 GPU;
2个20核CPU(英特尔至强 E5-2698 v4);
512GB DDR4-2133内存;
4个100Gbps InfiniBand(EDR)网卡,2个10GbE;
4个1.92TB SSD作为本地存储(缓存);
3200~3500W供电需求;
3U高度。
除了2018年首次引入NVSwitch的DGX-2容纳多达16个(V100)GPU,后续推出的DGX Xx00(X代表大写字母,x代表数字)都采用8个GPU的配置,如DGX A100和DGX H100。
DGX是英伟达提供的软硬件一体的解决方案,英伟达还向服务器供应商和大型互联网用户提供GPU、基板和NVSwitch构成的HGX模组,这些客户根据各自的需求搭配(英特尔或AMD的)CPU、内存和网卡、存储,形成完整的系统。HGX有4GPU和8GPU两个版本,其中(2CPU+)4GPU的组合更适合高性能计算(HPC)场景。
NVIDIA HGX H200
在Blackwell这一代,暂时只发布两款HGX参考设计——HGX B100和HGX B200,以及一款DGX B200,均为8GPU配置。以DGX B200为例:配套的处理器升级到英特尔的第五代的至强铂金8570,双路112核;配置内存2TB,可以扩展到4TB;总的GPU内存是1440GB,即每个B200 GPU为180GB。
典型的OAM基板
开放计算项目(OCP)在2018年晚些时候发起的OAI(Open Accelerator Infrastructure,开放加速器基础设施)子项目,通用基板(UBB)设计支持多达8个OAM(OCP Accelerator Module,开放加速器模块,对标SXM),可以视为HGX的开源版本,获得AMD、英特尔等全球以及一众国内GPU/加速器厂商的广泛支持,英伟达也在2022年5月将HGX H100的基板物理规范贡献给了OAI项目。
OAI项目与DGX/HGX的一大区别在于,英伟达GPU之间互联使用的NVLink及NVSwitch都是专有技术。特别是用于基板上GPU之间数据交换的NVSwitch,在OAI的体系里并没有类似的角色,常见的解决方案是用通用技术直连各GPU或加速器。
以英特尔面向训练平台的Gaudi系列AI加速器为例,OAM版本之间的直连(Scale-up)和对外的网络(Scale-out)都使用RoCEv2端口。
Intel Gaudi 3 之间的全互联拓扑
随着加速器所配置的HBM(高带宽内存)容量和带宽的增长,RoCE端口的数量和速率也随之上升,总带宽呈现倍增趋势。
在集群层面,基于8个Gaudi 3 加速器的服务器通过3个800GbE端口上联到标准以太网交换机,由96台Leaf交换机和48台Spine交换机(均为64端口800GbE)组成的二层网络可支持512个服务器节点,共4096个Gaudi 3 加速器。
互联与网络的带宽随着芯片算力、内存容量及带宽的增长而“水涨船高”是普遍规律,于英伟达DGX就是NVLink和InfiniBand/以太网的速率。
Intel Gaudi 3 对标NVIDIA H100,抛开这些性能对比,提供的参数和加速卡的各种形态、冷却方式等信息还是很丰富的
2024年发布的B200 GPU公开数据不多,DGX B200的网络配置,从带宽的角度,与DGX H100似无不同,主要变化是对接南北向网络的两块ConnectX-7双端口网卡被两块功能更丰富强大的BlueField-3 DPU(Data Processing Unit,数据处理器)所取代,东西向网络仍是8块ConnectX-7单端口网卡。
这可能只是暂时的情况,毕竟英伟达已经发布了ConnectX-8 SuperNIC,支持800Gbps InfiniBand,适用PCIe 6.0。PCIe 5.0不但限制了英伟达新一代网卡的性能,其实也会限制第四代NVSwitch芯片的性能。目前的DGX B200并非“完全体”,随着英特尔或AMD的下一代PCIe 6.0平台就绪,DGX B200也会随之升级。
AMD Instinct MI300X 的OAM模组,注意高大的散热片
服务器OEM基于HGX模组提供的GPU服务器在内部拓扑上会有2:8:x的配比范围,即2个CPU、8个GPU,网卡数量可变,这也会影响到集群使用的交换机和光模块、线缆的总数。
☞ 报告连载 | 上海交通大学:优化应用部署,关注复合型人才培养
☞ 报告连载 | 华南理工大学:以多元化液冷实践打造高效绿色算力
☞ 报告连载 | 华中农业大学:释放多元算力价值,推动交叉学科应用
☞ 报告连载 | 中国人民大学:升级算力应用,打造“玉兰 10B”大模型
☞ 报告连载 | 北京理工大学:提升大模型价值,“墨子”全新升级
扫描或者点击文末“阅读原文”
可下载报告电子版
如需纸质版请注明
▼