报告连载 | 服务器：重构升级（上）

企业 2024-10-14 16:01 天津

最近，《2024数字中国万里行暨算力经济中国行考察报告》出版，我们将对报告内容开启连载模式。

PART III 技术演进第四章多元算力交织，主要探讨了以下话题：

CPU：分而利合
•（一）大小核全面铺开
•（二）Chiplet 走向模块化
GPU：合纵连横
DPU：由云向智
• DPU：由云向智（一）
• DPU：由云向智（二）
• DPU：由云向智（三）
服务器：重构升级
• 服务器：重构升级（上）

四.服务器：重构升级

AI特别是大语言模型（LLM）的训练应用，对算力的总体规模和部署密度有很高的要求，所以GPU/加速器的互联和服务器所需的网络带宽也一路攀升，后者已经来到800Gbps乃至1.6Tbps的水平。

主流训练机型

英伟达在2016年推出的DGX-1系统，不仅首个实体（服务器）捐赠给了OpenAI，其架构设计也影响深远，一直延续至今。

DGX-1系统架构包含以下要素：

8个SXM规格的GPU在基板（Baseboard）上通过专用的高速互联（NVLink）结为一体，即纵向扩展（Scale-up）；
这些GPU通过PCIe连接2个（通常为x86）CPU和多块高速网卡（InfiniBand或RoCE），以将多台GPU服务器组成集群，即横向扩展（Scale-out）。

具体配置为：

8个SXM2规格的Tesla P100或V100 GPU；
2个20核CPU（英特尔至强 E5-2698 v4）；
512GB DDR4-2133内存；
4个100Gbps InfiniBand（EDR）网卡，2个10GbE；
4个1.92TB SSD作为本地存储（缓存）；
3200～3500W供电需求；
3U高度。

除了2018年首次引入NVSwitch的DGX-2容纳多达16个（V100）GPU，后续推出的DGX Xx00（X代表大写字母，x代表数字）都采用8个GPU的配置，如DGX A100和DGX H100。

DGX是英伟达提供的软硬件一体的解决方案，英伟达还向服务器供应商和大型互联网用户提供GPU、基板和NVSwitch构成的HGX模组，这些客户根据各自的需求搭配（英特尔或AMD的）CPU、内存和网卡、存储，形成完整的系统。HGX有4GPU和8GPU两个版本，其中（2CPU+）4GPU的组合更适合高性能计算（HPC）场景。

NVIDIA HGX H200

在Blackwell这一代，暂时只发布两款HGX参考设计——HGX B100和HGX B200，以及一款DGX B200，均为8GPU配置。以DGX B200为例：配套的处理器升级到英特尔的第五代的至强铂金8570，双路112核；配置内存2TB，可以扩展到4TB；总的GPU内存是1440GB，即每个B200 GPU为180GB。

典型的OAM基板

开放计算项目（OCP）在2018年晚些时候发起的OAI（Open Accelerator Infrastructure，开放加速器基础设施）子项目，通用基板（UBB）设计支持多达8个OAM（OCP Accelerator Module，开放加速器模块，对标SXM），可以视为HGX的开源版本，获得AMD、英特尔等全球以及一众国内GPU/加速器厂商的广泛支持，英伟达也在2022年5月将HGX H100的基板物理规范贡献给了OAI项目。

OAI项目与DGX/HGX的一大区别在于，英伟达GPU之间互联使用的NVLink及NVSwitch都是专有技术。特别是用于基板上GPU之间数据交换的NVSwitch，在OAI的体系里并没有类似的角色，常见的解决方案是用通用技术直连各GPU或加速器。

以英特尔面向训练平台的Gaudi系列AI加速器为例，OAM版本之间的直连（Scale-up）和对外的网络（Scale-out）都使用RoCEv2端口。

Intel Gaudi 3 之间的全互联拓扑

随着加速器所配置的HBM（高带宽内存）容量和带宽的增长，RoCE端口的数量和速率也随之上升，总带宽呈现倍增趋势。

在集群层面，基于8个Gaudi 3 加速器的服务器通过3个800GbE端口上联到标准以太网交换机，由96台Leaf交换机和48台Spine交换机（均为64端口800GbE）组成的二层网络可支持512个服务器节点，共4096个Gaudi 3 加速器。

互联与网络的带宽随着芯片算力、内存容量及带宽的增长而“水涨船高”是普遍规律，于英伟达DGX就是NVLink和InfiniBand/以太网的速率。

Intel Gaudi 3 对标NVIDIA H100，抛开这些性能对比，提供的参数和加速卡的各种形态、冷却方式等信息还是很丰富的

2024年发布的B200 GPU公开数据不多，DGX B200的网络配置，从带宽的角度，与DGX H100似无不同，主要变化是对接南北向网络的两块ConnectX-7双端口网卡被两块功能更丰富强大的BlueField-3 DPU（Data Processing Unit，数据处理器）所取代，东西向网络仍是8块ConnectX-7单端口网卡。

这可能只是暂时的情况，毕竟英伟达已经发布了ConnectX-8 SuperNIC，支持800Gbps InfiniBand，适用PCIe 6.0。PCIe 5.0不但限制了英伟达新一代网卡的性能，其实也会限制第四代NVSwitch芯片的性能。目前的DGX B200并非“完全体”，随着英特尔或AMD的下一代PCIe 6.0平台就绪，DGX B200也会随之升级。

AMD Instinct MI300X 的OAM模组，注意高大的散热片

服务器OEM基于HGX模组提供的GPU服务器在内部拓扑上会有2:8:x的配比范围，即2个CPU、8个GPU，网卡数量可变，这也会影响到集群使用的交换机和光模块、线缆的总数。

往期推荐:

☞ 报告连载 | 算力即新质生产力（一）

☞ 报告连载 | 算力即新质生产力（二）

☞ 报告连载 | 算力即新质生产力（三）

☞ 报告连载 | 算力数据驱动智能驾驶进入下半场

☞ 报告连载 | 多模态大模型促进技术变革

☞ 报告连载 | 智能算力赋能自动驾驶

☞ 报告连载 | 车能路云网融合发展加速落地

☞ 报告连载 | 算力赋能产学研助力高校技术创新

☞ 报告连载 | 上海交通大学：优化应用部署，关注复合型人才培养

☞ 报告连载 | 华南理工大学：以多元化液冷实践打造高效绿色算力

☞ 报告连载 | 中国农业大学：花小钱办大事，算力强势增长

☞ 报告连载 | 华中农业大学：释放多元算力价值，推动交叉学科应用

☞ 报告连载 | 中国人民大学：升级算力应用，打造“玉兰 10B”大模型

☞ 报告连载 | 北京理工大学：提升大模型价值，“墨子”全新升级

☞ 报告连载 | CPU大小核的三条路径

☞ 报告连载 | Chiplet之模块化CPU

扫描或者点击文末“阅读原文”

可下载报告电子版

如需纸质版请注明

▼

关注

获取更多精彩内容

END

中研益企（北京）信息技术研究院有限公司（益企研究院）是面向数据中心、云计算、AI等信息科技领域最新技术和数字化应用的研究机构，长期致力于数据中心与云计算基础设施领域的新技术和新产品研究，帮助企业用户更快更好的接受新技术和新产品方案。通过研究、推广国内外领先的技术和方案，以及专业顾问、咨询等服务，降低市场和用户接受新技术、新方案的成本。在过去几年中发布的《2018中国超大规模云数据中心考察报告》、《2021中国云数据中心考察报告》、《算力经济时代·2023新型算力中心调研报告》、《2024 数字中国万里行暨算力经济中国行考察报告》、参编的《国家“东数西算”工程背景下新型算力基础设施发展研究报告》、《国家“东数西算”工程下算力服务发展研究报告》均广受业内好评。目前益企研究院已入驻多家平台，为安谋科技（Arm China）极术社区合作伙伴。

看清科技，解读价值

扫描“视频号二维码”

E企研究院

E企研究院聚焦云计算、AI、数据中心等新技术研究，新产品解析，为厂商顾问，为用户咨询服务，降低用户接受新技术、新方案的成本。