报告连载 | 服务器:重构升级(上)

企业   2024-10-14 16:01   天津  

最近,《2024数字中国万里行暨算力经济中国行考察报告》出版,我们将对报告内容开启连载模式。


PART III 技术演进 第四章 多元算力交织,主要探讨了以下话题:


四.服务器:重构升级


AI特别是大语言模型(LLM)的训练应用,对算力的总体规模和部署密度有很高的要求,所以GPU/加速器的互联和服务器所需的网络带宽也一路攀升,后者已经来到800Gbps乃至1.6Tbps的水平。


1.

主流训练机型


英伟达在2016年推出的DGX-1系统,不仅首个实体(服务器)捐赠给了OpenAI,其架构设计也影响深远,一直延续至今。


DGX-1系统架构包含以下要素:


  • 8个SXM规格的GPU在基板(Baseboard)上通过专用的高速互联(NVLink)结为一体,即纵向扩展(Scale-up);

  • 这些GPU通过PCIe连接2个(通常为x86)CPU和多块高速网卡(InfiniBand或RoCE),以将多台GPU服务器组成集群,即横向扩展(Scale-out)。


具体配置为:


  • 8个SXM2规格的Tesla P100或V100 GPU;

  • 2个20核CPU(英特尔至强 E5-2698 v4);

  • 512GB DDR4-2133内存;

  • 4个100Gbps InfiniBand(EDR)网卡,2个10GbE;

  • 4个1.92TB SSD作为本地存储(缓存);

  • 3200~3500W供电需求;

  • 3U高度。


除了2018年首次引入NVSwitch的DGX-2容纳多达16个(V100)GPU,后续推出的DGX Xx00(X代表大写字母,x代表数字)都采用8个GPU的配置,如DGX A100和DGX H100。


DGX是英伟达提供的软硬件一体的解决方案,英伟达还向服务器供应商和大型互联网用户提供GPU、基板和NVSwitch构成的HGX模组,这些客户根据各自的需求搭配(英特尔或AMD的)CPU、内存和网卡、存储,形成完整的系统。HGX有4GPU和8GPU两个版本,其中(2CPU+)4GPU的组合更适合高性能计算(HPC)场景。


NVIDIA HGX H200


在Blackwell这一代,暂时只发布两款HGX参考设计——HGX B100和HGX B200,以及一款DGX B200,均为8GPU配置。以DGX B200为例:配套的处理器升级到英特尔的第五代的至强铂金8570,双路112核;配置内存2TB,可以扩展到4TB;总的GPU内存是1440GB,即每个B200 GPU为180GB。


典型的OAM基板


开放计算项目(OCP)在2018年晚些时候发起的OAI(Open Accelerator Infrastructure,开放加速器基础设施)子项目,通用基板(UBB)设计支持多达8个OAM(OCP Accelerator Module,开放加速器模块,对标SXM),可以视为HGX的开源版本,获得AMD、英特尔等全球以及一众国内GPU/加速器厂商的广泛支持,英伟达也在2022年5月将HGX H100的基板物理规范贡献给了OAI项目。


OAI项目与DGX/HGX的一大区别在于,英伟达GPU之间互联使用的NVLink及NVSwitch都是专有技术。特别是用于基板上GPU之间数据交换的NVSwitch,在OAI的体系里并没有类似的角色,常见的解决方案是用通用技术直连各GPU或加速器。


以英特尔面向训练平台的Gaudi系列AI加速器为例,OAM版本之间的直连(Scale-up)和对外的网络(Scale-out)都使用RoCEv2端口。


Intel Gaudi 3 之间的全互联拓扑


随着加速器所配置的HBM(高带宽内存)容量和带宽的增长,RoCE端口的数量和速率也随之上升,总带宽呈现倍增趋势。


在集群层面,基于8个Gaudi 3 加速器的服务器通过3个800GbE端口上联到标准以太网交换机,由96台Leaf交换机和48台Spine交换机(均为64端口800GbE)组成的二层网络可支持512个服务器节点,共4096个Gaudi 3 加速器。


互联与网络的带宽随着芯片算力、内存容量及带宽的增长而“水涨船高”是普遍规律,于英伟达DGX就是NVLink和InfiniBand/以太网的速率。


Intel Gaudi 3 对标NVIDIA H100,抛开这些性能对比,提供的参数和加速卡的各种形态、冷却方式等信息还是很丰富的


2024年发布的B200 GPU公开数据不多,DGX B200的网络配置,从带宽的角度,与DGX H100似无不同,主要变化是对接南北向网络的两块ConnectX-7双端口网卡被两块功能更丰富强大的BlueField-3 DPU(Data Processing Unit,数据处理器)所取代,东西向网络仍是8块ConnectX-7单端口网卡。



这可能只是暂时的情况,毕竟英伟达已经发布了ConnectX-8 SuperNIC,支持800Gbps InfiniBand,适用PCIe 6.0。PCIe 5.0不但限制了英伟达新一代网卡的性能,其实也会限制第四代NVSwitch芯片的性能。目前的DGX B200并非“完全体”,随着英特尔或AMD的下一代PCIe 6.0平台就绪,DGX B200也会随之升级。


AMD Instinct MI300X 的OAM模组,注意高大的散热片


服务器OEM基于HGX模组提供的GPU服务器在内部拓扑上会有2:8:x的配比范围,即2个CPU、8个GPU,网卡数量可变,这也会影响到集群使用的交换机和光模块、线缆的总数。



往期推荐:

 报告连载 | 算力即新质生产力(一)

 报告连载 | 算力即新质生产力(二)

 报告连载 | 算力即新质生产力(三)

 报告连载 | 算力数据驱动 智能驾驶进入下半场

 报告连载 | 多模态大模型促进技术变革

 报告连载 | 智能算力赋能自动驾驶

 报告连载 | 车能路云网融合发展加速落地

 报告连载 | 算力赋能产学研 助力高校技术创新

 报告连载 | 上海交通大学:优化应用部署,关注复合型人才培养

 报告连载 | 华南理工大学:以多元化液冷实践打造高效绿色算力

 报告连载 | 中国农业大学:花小钱办大事,算力强势增长

 报告连载 | 华中农业大学:释放多元算力价值,推动交叉学科应用

 报告连载 | 中国人民大学:升级算力应用,打造“玉兰 10B”大模型

 报告连载 | 北京理工大学:提升大模型价值,“墨子”全新升级

 报告连载 | CPU大小核的三条路径

 报告连载 | Chiplet之模块化CPU

 报告连载 | GPU:合纵连横

 报告连载 | DPU:由云向智(一)

 报告连载 | DPU:由云向智(二)

 报告连载 | DPU:由云向智(三)



扫描或者点击文末阅读原文

可下载报告电子版

如需纸质版请注明






关注

获取更多精彩内容






END





中研益企(北京)信息技术研究院有限公司(益企研究院)是面向数据中心、云计算、AI等信息科技领域最新技术和数字化应用的研究机构,长期致力于数据中心与云计算基础设施领域的新技术和新产品研究,帮助企业用户更快更好的接受新技术和新产品方案。通过研究、推广国内外领先的技术和方案,以及专业顾问、咨询等服务,降低市场和用户接受新技术、新方案的成本。在过去几年中发布的《2018中国超大规模云数据中心考察报告》《2021中国云数据中心考察报告》《算力经济时代·2023新型算力中心调研报告》《2024 数字中国万里行暨算力经济中国行考察报告》、参编的《国家“东数西算”工程背景下新型算力基础设施发展研究报告》《国家“东数西算”工程下算力服务发展研究报告》均广受业内好评。目前益企研究院已入驻多家平台,为安谋科技(Arm China)极术社区合作伙伴
看清科技,解读价值

扫描“视频号二维码”

获取更多的技术解析



E企研究院
E企研究院聚焦云计算、AI、数据中心等新技术研究,新产品解析,为厂商顾问,为用户咨询服务,降低用户接受新技术、新方案的成本。
 最新文章