最近,《2024数字中国万里行暨算力经济中国行考察报告》出版,我们将对报告内容开启连载模式。
PART III 技术演进 第四章 多元算力交织,主要探讨了以下话题:
2.
CPU与GPU配比
2023年5月底,英伟达在COMPUTEX 2023大会上有一系列重量级发布,包括GH200 Grace Hopper超级芯片(Superchip)、DGX GH200,和用于加速计算的开放模块化服务器设计MGX。
英特尔和AMD的x86 CPU只能通过相对低速的PCIe总线与英伟达GPU通信,这限制了GPU访问CPU内存的速度。英伟达基于Arm Neoverse V2开发的Grace CPU加入了NVLink-C2C(ChiptoChip),与其GPU之间建立900GB/s的高速通道,显著提升访问CPU内存的带宽,缓解GPU自身HBM容量不足的困境。
1个Grace CPU与1个Hopper架构GPU通过NVLink-C2C连接并封装为一体,就得到了GH200 Grace Hopper超级芯片(简称GH200)。1U规格的MGX机箱可配置1或2个GH200。
Grace Hooper超级芯片与Grace CPU超级芯片(双CPU)
DGX GH200与之前的DGX不同,是机柜级的架构。一个机柜内有2个15OU(Open U,48mm)的刀片式机箱,各有8个GH200和3台Level 1的NVLink交换机。16个这样的机柜通过36个Level 2的NVLink交换机组成DGX GH200集群,共有256个GH200超级芯片,显存(HBM)总容量达144TB,NVLink总带宽达230TB/s,总算力(FP8)达1EFLOPS。
集群内的网络资源包括单口400Gbps IB网卡和双口200Gbps BlueField-3各256块、24台InfiniBand(IB)交换机、20+22台以太网交换机,光纤总长度达150英里(约240公里)。
2个GH200超级芯片组成的服务器节点
半年之后,2023年11月底召开的AWS re:Invent 2023大会上发布了GH200 NVL32,单机柜组成32个GPU的NVLink域(domain)。GH200 NVL32的机柜内包括:
16个1U的MGX节点,每个节点有2个升级版GH200(GPU为拥有141GB HBM3e、带宽4.8TB/s的H200);
9台NVLink交换机通过铜缆形成机柜级的“背板”,将32个GH200连为一体。
这是整合在单一机柜内的超级GPU——32颗GPU的NVLink域,HBM 3e总容量达4.5TB,统一内存容量达19.5TB(每块GH200 Superchip提供Grace CPU的480GB LPDDR5X和H200 GPU的144GB HBM3e)。英伟达提供的数据显示,与8卡的HGX H100(NVL8)相比,GH200 NVL32的GPT-3训练性能达到1.7倍,大语言模型推理性能达到2倍。
GH200 NVL32是一种机柜级方案,使用带冷板式液冷的集中供电机柜,设备空间为31U。每台NVLink交换机(NVSwitch Tray)包含2颗第三代NVSwitch芯片,提供128个NVLink端口,每个端口50Gbps。NVLink交换机位于机柜中部,上下各安排8个计算节点,机柜上下再各3U空间安排电源。每颗GPU外联900GB/s的NVLink对应18个NVLink端口,16个节点32颗GPU总共需要576个端口,通过9台NVLink交换机实现完全互联非常轻松。
NVIDIA GH200 NVL32的正视图与后视图
互联方案也与半年前的发布不同,GH200 NVL32不打算通过NVLink Switch级联扩展更多GPU,所有NVLink集中在一个机柜内,线缆长度可以得到有效控制,可以完全使用无源铜缆连接。因此,如果真的想扩展GH200 NVL32,建议使用400Gbps InfiniBand或以太网。
NVLink Switch芯片
500亿晶体管,台积电4NP制程
72端口400G SerDes
4个1.8TB/s NVLink
7.2TB/s全双工带宽
SHARP在网计算,3.6TFLOPS FP8
翻番的节点密度有利于GH200 NVL32转为使用冷板式液冷和能降低机柜内互联成本的铜缆,也给后续推出GB200 NVL72打下了基础。
2024年3月发布的GB200 NVL72依旧是在1U空间内安排两组SuperChip,提供4个GPU和2个CPU,因为每个GB200超级芯片由1个Grace CPU和2个B200 GPU组成,即CPU与GPU的配比从1:1调整为1:2。这样整机柜内有18个GB200超级芯片节点,共36个GB200超级芯片,72个GPU叠加36个CPU,一个GB200 NVL72机柜的HBM3e总容量达到13.3TB,总内存容量更高达30.2TB。
由于GPU(B200)的功率和数量都大幅度增加,每个GB200超级芯片的TDP来到2700W,单柜功率也飙升到120kW,(冷板式)液冷成为必然。
与GH200 NVL32类似,GB200 NVL72的9台交换机也位于机柜中部,上下安排18台GB200 Compute Tray,再上下各3U电源框。
NVLink交换机升级到第四代NVSwitch芯片,每台交换机144个端口,每个100GB/s。从英伟达发布的信息来看,DGX GH200发布时的两级NVLink网络又回来了,8台GB200 NVL72组成的DGX SuperPOD可以连接多达576个Blackwell GPU。
BlackWell平台全家福
在更高密度的GPU配置下,机柜内采用铜缆互联方案不仅成本更低,还可以释放更多的供电能力给计算节点。英伟达CEO黄仁勋表示,如果采用光纤方案,仅光模块和Retimer就要耗电20kW。同时,采用冷板式液冷也可以减小粗大的铜缆对风道的不利影响。
相应的,网络配置也来到了72个单口400Gb/s InfiniBand网卡和36个双口200Gb/s(IB和以太网)BlueField-3。
在自有Arm CPU与GPU配比较低(目前不高于1:2)的同时,4U规格的MGX服务器还会把x86 CPU与(英伟达)GPU的配比扩大到2:16,多元化的方案也意味着网络架构要有更高的灵活性。
3.
高带宽存储
在数据采集、数据准备、训练和推理等AI工作流的各个环节,对存储有着不同的要求。
训练过程中会有一些从存储设备中随机读取数据的操作,但对网络和存储压力最大的环节还是设置检查点(Checkpointing)和从中恢复(Restore)数据的操作,大量数据的持续写入和读取,需要网络和存储提供很高的访问带宽。
仍以英伟达为例,从GPU服务器内置的本地存储到共享的网络存储,都突出了高带宽的特性。
DGX系列积极的采用高带宽、低时延的NVMe SSD作为本地存储,如DGX A100和H100均配置了8个3.84TB的NVMe SSD,总容量达30TB。英伟达的GPUDirect Storage(简称GDS)技术允许GPU直接访问(挂接在同一PCIe Switch上的)NVMe SSD或网卡(连接NVMe over Fabric的远程存储),缓解CPU的I/O瓶颈,提高有效访问带宽并降低时延。
在英伟达基于DGX H100系统的DGX SuperPOD参考架构中,存储网络与计算网络使用同样的NDR 400Gb/s InfiniBand交换机,要为每个DGX H100节点提供至少40GB/s(独立400Gbps网口)的存储带宽,最大网络性能达到80GB/s(2个400Gbps端口)更佳。该参考架构给出了建议的性能级别和应用场景。
基于DGXGB200的NVIDIADGXSuperPOD及其液冷配套设施
像Checkpoint这种应用,主要诉求是读写带宽,对时延的要求没有计算集群那么高,共享存储系统可以跨训练集群或机房楼部署,在必要时可以将一个集群的Checkpoint加载到另一个集群中继续训练。
CHAPTER IV
不论如何评论“摩尔定律”,芯片算力提升的贡献越来越来自于先进封装而非制造工艺的改进。于是,在算力密度提升的同时,芯片功耗的上涨也引人关注——2024年,数据中心CPU全面进入百核时代,GPU的功耗则已迈过千瓦大关。
一方面,CPU核心数的持续增长,使得四至八路存在的意义减弱,单路服务器大有抬头之势;另一方面,AI训练集群的规模越来越大,单台服务器8个GPU的配置已嫌不足,整机柜级别的“超级节点”正在涌现。集群内的跨节点通信要求,也使得加速服务器(GPU或加速器为主)配置的网卡不仅数量多,而且端口速率不断攀升,带动网络端口总量及带宽需求剧增,网络基础设施投资变得前所未有的昂贵。
对算力密度的追求,促使单芯片功耗和单位空间内的芯片数量同时增长,这种叠加效应对服务器的散热能力提出巨大挑战,成为液冷技术应用迈上新台阶的主要驱动力。
☞ 报告连载 | 上海交通大学:优化应用部署,关注复合型人才培养
☞ 报告连载 | 华南理工大学:以多元化液冷实践打造高效绿色算力
☞ 报告连载 | 华中农业大学:释放多元算力价值,推动交叉学科应用
☞ 报告连载 | 中国人民大学:升级算力应用,打造“玉兰 10B”大模型
☞ 报告连载 | 北京理工大学:提升大模型价值,“墨子”全新升级
扫描或者点击文末“阅读原文”
可下载报告电子版
如需纸质版请注明
▼