报告连载 | 服务器:重构升级(下)

企业   2024-10-16 18:05   天津  

最近,《2024数字中国万里行暨算力经济中国行考察报告》出版,我们将对报告内容开启连载模式。


PART III 技术演进 第四章 多元算力交织,主要探讨了以下话题:


2.

CPU与GPU配比


2023年5月底,英伟达在COMPUTEX 2023大会上有一系列重量级发布,包括GH200 Grace Hopper超级芯片(Superchip)、DGX GH200,和用于加速计算的开放模块化服务器设计MGX。


英特尔和AMD的x86 CPU只能通过相对低速的PCIe总线与英伟达GPU通信,这限制了GPU访问CPU内存的速度。英伟达基于Arm Neoverse V2开发的Grace CPU加入了NVLink-C2C(ChiptoChip),与其GPU之间建立900GB/s的高速通道,显著提升访问CPU内存的带宽,缓解GPU自身HBM容量不足的困境。


1个Grace CPU与1个Hopper架构GPU通过NVLink-C2C连接并封装为一体,就得到了GH200 Grace Hopper超级芯片(简称GH200)。1U规格的MGX机箱可配置1或2个GH200。


Grace Hooper超级芯片与Grace CPU超级芯片(双CPU)


DGX GH200与之前的DGX不同,是机柜级的架构。一个机柜内有2个15OU(Open U,48mm)的刀片式机箱,各有8个GH200和3台Level 1的NVLink交换机。16个这样的机柜通过36个Level 2的NVLink交换机组成DGX GH200集群,共有256个GH200超级芯片,显存(HBM)总容量达144TB,NVLink总带宽达230TB/s,总算力(FP8)达1EFLOPS。


集群内的网络资源包括单口400Gbps IB网卡和双口200Gbps BlueField-3各256块、24台InfiniBand(IB)交换机、20+22台以太网交换机,光纤总长度达150英里(约240公里)。


2个GH200超级芯片组成的服务器节点


半年之后,2023年11月底召开的AWS re:Invent 2023大会上发布了GH200 NVL32,单机柜组成32个GPU的NVLink域(domain)。GH200 NVL32的机柜内包括:


  • 16个1U的MGX节点,每个节点有2个升级版GH200(GPU为拥有141GB HBM3e、带宽4.8TB/s的H200);

  • 9台NVLink交换机通过铜缆形成机柜级的“背板”,将32个GH200连为一体。


这是整合在单一机柜内的超级GPU——32颗GPU的NVLink域,HBM 3e总容量达4.5TB,统一内存容量达19.5TB(每块GH200 Superchip提供Grace CPU的480GB LPDDR5X和H200 GPU的144GB HBM3e)。英伟达提供的数据显示,与8卡的HGX H100(NVL8)相比,GH200 NVL32的GPT-3训练性能达到1.7倍,大语言模型推理性能达到2倍。


GH200 NVL32是一种机柜级方案,使用带冷板式液冷的集中供电机柜,设备空间为31U。每台NVLink交换机(NVSwitch Tray)包含2颗第三代NVSwitch芯片,提供128个NVLink端口,每个端口50Gbps。NVLink交换机位于机柜中部,上下各安排8个计算节点,机柜上下再各3U空间安排电源。每颗GPU外联900GB/s的NVLink对应18个NVLink端口,16个节点32颗GPU总共需要576个端口,通过9台NVLink交换机实现完全互联非常轻松。


NVIDIA GH200 NVL32的正视图与后视图



互联方案也与半年前的发布不同,GH200 NVL32不打算通过NVLink Switch级联扩展更多GPU,所有NVLink集中在一个机柜内,线缆长度可以得到有效控制,可以完全使用无源铜缆连接。因此,如果真的想扩展GH200 NVL32,建议使用400Gbps InfiniBand或以太网。


NVLink Switch芯片


500亿晶体管,台积电4NP制程

72端口400G SerDes

4个1.8TB/s NVLink

7.2TB/s全双工带宽

SHARP在网计算,3.6TFLOPS FP8


翻番的节点密度有利于GH200 NVL32转为使用冷板式液冷和能降低机柜内互联成本的铜缆,也给后续推出GB200 NVL72打下了基础。


2024年3月发布的GB200 NVL72依旧是在1U空间内安排两组SuperChip,提供4个GPU和2个CPU,因为每个GB200超级芯片由1个Grace CPU和2个B200 GPU组成,即CPU与GPU的配比从1:1调整为1:2。这样整机柜内有18个GB200超级芯片节点,共36个GB200超级芯片,72个GPU叠加36个CPU,一个GB200 NVL72机柜的HBM3e总容量达到13.3TB,总内存容量更高达30.2TB。


由于GPU(B200)的功率和数量都大幅度增加,每个GB200超级芯片的TDP来到2700W,单柜功率也飙升到120kW,(冷板式)液冷成为必然。


与GH200 NVL32类似,GB200 NVL72的9台交换机也位于机柜中部,上下安排18台GB200 Compute Tray,再上下各3U电源框。


NVLink交换机升级到第四代NVSwitch芯片,每台交换机144个端口,每个100GB/s。从英伟达发布的信息来看,DGX GH200发布时的两级NVLink网络又回来了,8台GB200 NVL72组成的DGX SuperPOD可以连接多达576个Blackwell GPU。


BlackWell平台全家福


在更高密度的GPU配置下,机柜内采用铜缆互联方案不仅成本更低,还可以释放更多的供电能力给计算节点。英伟达CEO黄仁勋表示,如果采用光纤方案,仅光模块和Retimer就要耗电20kW。同时,采用冷板式液冷也可以减小粗大的铜缆对风道的不利影响。


相应的,网络配置也来到了72个单口400Gb/s InfiniBand网卡和36个双口200Gb/s(IB和以太网)BlueField-3。


在自有Arm CPU与GPU配比较低(目前不高于1:2)的同时,4U规格的MGX服务器还会把x86 CPU与(英伟达)GPU的配比扩大到2:16,多元化的方案也意味着网络架构要有更高的灵活性。


3.

高带宽存储


在数据采集、数据准备、训练和推理等AI工作流的各个环节,对存储有着不同的要求。


训练过程中会有一些从存储设备中随机读取数据的操作,但对网络和存储压力最大的环节还是设置检查点(Checkpointing)和从中恢复(Restore)数据的操作,大量数据的持续写入和读取,需要网络和存储提供很高的访问带宽。



仍以英伟达为例,从GPU服务器内置的本地存储到共享的网络存储,都突出了高带宽的特性。


DGX系列积极的采用高带宽、低时延的NVMe SSD作为本地存储,如DGX A100和H100均配置了8个3.84TB的NVMe SSD,总容量达30TB。英伟达的GPUDirect Storage(简称GDS)技术允许GPU直接访问(挂接在同一PCIe Switch上的)NVMe SSD或网卡(连接NVMe over Fabric的远程存储),缓解CPU的I/O瓶颈,提高有效访问带宽并降低时延。



在英伟达基于DGX H100系统的DGX SuperPOD参考架构中,存储网络与计算网络使用同样的NDR 400Gb/s InfiniBand交换机,要为每个DGX H100节点提供至少40GB/s(独立400Gbps网口)的存储带宽,最大网络性能达到80GB/s(2个400Gbps端口)更佳。该参考架构给出了建议的性能级别和应用场景。


基于DGXGB200的NVIDIADGXSuperPOD及其液冷配套设施


像Checkpoint这种应用,主要诉求是读写带宽,对时延的要求没有计算集群那么高,共享存储系统可以跨训练集群或机房楼部署,在必要时可以将一个集群的Checkpoint加载到另一个集群中继续训练。


CHAPTER IV


不论如何评论“摩尔定律”,芯片算力提升的贡献越来越来自于先进封装而非制造工艺的改进。于是,在算力密度提升的同时,芯片功耗的上涨也引人关注——2024年,数据中心CPU全面进入百核时代,GPU的功耗则已迈过千瓦大关。


一方面,CPU核心数的持续增长,使得四至八路存在的意义减弱,单路服务器大有抬头之势;另一方面,AI训练集群的规模越来越大,单台服务器8个GPU的配置已嫌不足,整机柜级别的“超级节点”正在涌现。集群内的跨节点通信要求,也使得加速服务器(GPU或加速器为主)配置的网卡不仅数量多,而且端口速率不断攀升,带动网络端口总量及带宽需求剧增,网络基础设施投资变得前所未有的昂贵。


对算力密度的追求,促使单芯片功耗和单位空间内的芯片数量同时增长,这种叠加效应对服务器的散热能力提出巨大挑战,成为液冷技术应用迈上新台阶的主要驱动力。



往期推荐:

 报告连载 | 算力即新质生产力(一)

 报告连载 | 算力即新质生产力(二)

 报告连载 | 算力即新质生产力(三)

 报告连载 | 算力数据驱动 智能驾驶进入下半场

 报告连载 | 多模态大模型促进技术变革

 报告连载 | 智能算力赋能自动驾驶

 报告连载 | 车能路云网融合发展加速落地

 报告连载 | 算力赋能产学研 助力高校技术创新

 报告连载 | 上海交通大学:优化应用部署,关注复合型人才培养

 报告连载 | 华南理工大学:以多元化液冷实践打造高效绿色算力

 报告连载 | 中国农业大学:花小钱办大事,算力强势增长

 报告连载 | 华中农业大学:释放多元算力价值,推动交叉学科应用

 报告连载 | 中国人民大学:升级算力应用,打造“玉兰 10B”大模型

 报告连载 | 北京理工大学:提升大模型价值,“墨子”全新升级

 报告连载 | CPU大小核的三条路径

 报告连载 | Chiplet之模块化CPU

 报告连载 | GPU:合纵连横

 报告连载 | DPU:由云向智(一)

 报告连载 | DPU:由云向智(二)

 报告连载 | DPU:由云向智(三)

 报告连载 | 服务器:重构升级(上)



扫描或者点击文末阅读原文

可下载报告电子版

如需纸质版请注明





关注

获取更多精彩内容






END





中研益企(北京)信息技术研究院有限公司(益企研究院)是面向数据中心、云计算、AI等信息科技领域最新技术和数字化应用的研究机构,长期致力于数据中心与云计算基础设施领域的新技术和新产品研究,帮助企业用户更快更好的接受新技术和新产品方案。通过研究、推广国内外领先的技术和方案,以及专业顾问、咨询等服务,降低市场和用户接受新技术、新方案的成本。在过去几年中发布的《2018中国超大规模云数据中心考察报告》《2021中国云数据中心考察报告》《算力经济时代·2023新型算力中心调研报告》《2024 数字中国万里行暨算力经济中国行考察报告》、参编的《国家“东数西算”工程背景下新型算力基础设施发展研究报告》《国家“东数西算”工程下算力服务发展研究报告》均广受业内好评。目前益企研究院已入驻多家平台,为安谋科技(Arm China)极术社区合作伙伴
看清科技,解读价值

扫描“视频号二维码”

获取更多的技术解析



E企研究院
E企研究院聚焦云计算、AI、数据中心等新技术研究,新产品解析,为厂商顾问,为用户咨询服务,降低用户接受新技术、新方案的成本。
 最新文章