报告连载 | 服务器：重构升级（下）

企业 2024-10-16 18:05 天津

最近，《2024数字中国万里行暨算力经济中国行考察报告》出版，我们将对报告内容开启连载模式。

PART III 技术演进第四章多元算力交织，主要探讨了以下话题：

CPU与GPU配比

2023年5月底，英伟达在COMPUTEX 2023大会上有一系列重量级发布，包括GH200 Grace Hopper超级芯片（Superchip）、DGX GH200，和用于加速计算的开放模块化服务器设计MGX。

英特尔和AMD的x86 CPU只能通过相对低速的PCIe总线与英伟达GPU通信，这限制了GPU访问CPU内存的速度。英伟达基于Arm Neoverse V2开发的Grace CPU加入了NVLink-C2C（ChiptoChip），与其GPU之间建立900GB/s的高速通道，显著提升访问CPU内存的带宽，缓解GPU自身HBM容量不足的困境。

1个Grace CPU与1个Hopper架构GPU通过NVLink-C2C连接并封装为一体，就得到了GH200 Grace Hopper超级芯片（简称GH200）。1U规格的MGX机箱可配置1或2个GH200。

Grace Hooper超级芯片与Grace CPU超级芯片（双CPU）

DGX GH200与之前的DGX不同，是机柜级的架构。一个机柜内有2个15OU（Open U，48mm）的刀片式机箱，各有8个GH200和3台Level 1的NVLink交换机。16个这样的机柜通过36个Level 2的NVLink交换机组成DGX GH200集群，共有256个GH200超级芯片，显存（HBM）总容量达144TB，NVLink总带宽达230TB/s，总算力（FP8）达1EFLOPS。

集群内的网络资源包括单口400Gbps IB网卡和双口200Gbps BlueField-3各256块、24台InfiniBand（IB）交换机、20+22台以太网交换机，光纤总长度达150英里（约240公里）。

2个GH200超级芯片组成的服务器节点

半年之后，2023年11月底召开的AWS re:Invent 2023大会上发布了GH200 NVL32，单机柜组成32个GPU的NVLink域（domain）。GH200 NVL32的机柜内包括：

16个1U的MGX节点，每个节点有2个升级版GH200（GPU为拥有141GB HBM3e、带宽4.8TB/s的H200）；
9台NVLink交换机通过铜缆形成机柜级的“背板”，将32个GH200连为一体。

这是整合在单一机柜内的超级GPU——32颗GPU的NVLink域，HBM 3e总容量达4.5TB，统一内存容量达19.5TB（每块GH200 Superchip提供Grace CPU的480GB LPDDR5X和H200 GPU的144GB HBM3e）。英伟达提供的数据显示，与8卡的HGX H100（NVL8）相比，GH200 NVL32的GPT-3训练性能达到1.7倍，大语言模型推理性能达到2倍。

GH200 NVL32是一种机柜级方案，使用带冷板式液冷的集中供电机柜，设备空间为31U。每台NVLink交换机（NVSwitch Tray）包含2颗第三代NVSwitch芯片，提供128个NVLink端口，每个端口50Gbps。NVLink交换机位于机柜中部，上下各安排8个计算节点，机柜上下再各3U空间安排电源。每颗GPU外联900GB/s的NVLink对应18个NVLink端口，16个节点32颗GPU总共需要576个端口，通过9台NVLink交换机实现完全互联非常轻松。

NVIDIA GH200 NVL32的正视图与后视图

互联方案也与半年前的发布不同，GH200 NVL32不打算通过NVLink Switch级联扩展更多GPU，所有NVLink集中在一个机柜内，线缆长度可以得到有效控制，可以完全使用无源铜缆连接。因此，如果真的想扩展GH200 NVL32，建议使用400Gbps InfiniBand或以太网。

NVLink Switch芯片

500亿晶体管，台积电4NP制程

72端口400G SerDes

4个1.8TB/s NVLink

7.2TB/s全双工带宽

SHARP在网计算，3.6TFLOPS FP8

翻番的节点密度有利于GH200 NVL32转为使用冷板式液冷和能降低机柜内互联成本的铜缆，也给后续推出GB200 NVL72打下了基础。

2024年3月发布的GB200 NVL72依旧是在1U空间内安排两组SuperChip，提供4个GPU和2个CPU，因为每个GB200超级芯片由1个Grace CPU和2个B200 GPU组成，即CPU与GPU的配比从1:1调整为1:2。这样整机柜内有18个GB200超级芯片节点，共36个GB200超级芯片，72个GPU叠加36个CPU，一个GB200 NVL72机柜的HBM3e总容量达到13.3TB，总内存容量更高达30.2TB。

由于GPU（B200）的功率和数量都大幅度增加，每个GB200超级芯片的TDP来到2700W，单柜功率也飙升到120kW，（冷板式）液冷成为必然。

与GH200 NVL32类似，GB200 NVL72的9台交换机也位于机柜中部，上下安排18台GB200 Compute Tray，再上下各3U电源框。

NVLink交换机升级到第四代NVSwitch芯片，每台交换机144个端口，每个100GB/s。从英伟达发布的信息来看，DGX GH200发布时的两级NVLink网络又回来了，8台GB200 NVL72组成的DGX SuperPOD可以连接多达576个Blackwell GPU。

BlackWell平台全家福

在更高密度的GPU配置下，机柜内采用铜缆互联方案不仅成本更低，还可以释放更多的供电能力给计算节点。英伟达CEO黄仁勋表示，如果采用光纤方案，仅光模块和Retimer就要耗电20kW。同时，采用冷板式液冷也可以减小粗大的铜缆对风道的不利影响。

相应的，网络配置也来到了72个单口400Gb/s InfiniBand网卡和36个双口200Gb/s（IB和以太网）BlueField-3。

在自有Arm CPU与GPU配比较低（目前不高于1:2）的同时，4U规格的MGX服务器还会把x86 CPU与（英伟达）GPU的配比扩大到2:16，多元化的方案也意味着网络架构要有更高的灵活性。

高带宽存储

在数据采集、数据准备、训练和推理等AI工作流的各个环节，对存储有着不同的要求。

训练过程中会有一些从存储设备中随机读取数据的操作，但对网络和存储压力最大的环节还是设置检查点（Checkpointing）和从中恢复（Restore）数据的操作，大量数据的持续写入和读取，需要网络和存储提供很高的访问带宽。

仍以英伟达为例，从GPU服务器内置的本地存储到共享的网络存储，都突出了高带宽的特性。

DGX系列积极的采用高带宽、低时延的NVMe SSD作为本地存储，如DGX A100和H100均配置了8个3.84TB的NVMe SSD，总容量达30TB。英伟达的GPUDirect Storage（简称GDS）技术允许GPU直接访问（挂接在同一PCIe Switch上的）NVMe SSD或网卡（连接NVMe over Fabric的远程存储），缓解CPU的I/O瓶颈，提高有效访问带宽并降低时延。

在英伟达基于DGX H100系统的DGX SuperPOD参考架构中，存储网络与计算网络使用同样的NDR 400Gb/s InfiniBand交换机，要为每个DGX H100节点提供至少40GB/s（独立400Gbps网口）的存储带宽，最大网络性能达到80GB/s（2个400Gbps端口）更佳。该参考架构给出了建议的性能级别和应用场景。

基于DGXGB200的NVIDIADGXSuperPOD及其液冷配套设施

像Checkpoint这种应用，主要诉求是读写带宽，对时延的要求没有计算集群那么高，共享存储系统可以跨训练集群或机房楼部署，在必要时可以将一个集群的Checkpoint加载到另一个集群中继续训练。

CHAPTER IV

不论如何评论“摩尔定律”，芯片算力提升的贡献越来越来自于先进封装而非制造工艺的改进。于是，在算力密度提升的同时，芯片功耗的上涨也引人关注——2024年，数据中心CPU全面进入百核时代，GPU的功耗则已迈过千瓦大关。

一方面，CPU核心数的持续增长，使得四至八路存在的意义减弱，单路服务器大有抬头之势；另一方面，AI训练集群的规模越来越大，单台服务器8个GPU的配置已嫌不足，整机柜级别的“超级节点”正在涌现。集群内的跨节点通信要求，也使得加速服务器（GPU或加速器为主）配置的网卡不仅数量多，而且端口速率不断攀升，带动网络端口总量及带宽需求剧增，网络基础设施投资变得前所未有的昂贵。

对算力密度的追求，促使单芯片功耗和单位空间内的芯片数量同时增长，这种叠加效应对服务器的散热能力提出巨大挑战，成为液冷技术应用迈上新台阶的主要驱动力。

往期推荐:

☞ 报告连载 | 算力即新质生产力（一）

☞ 报告连载 | 算力即新质生产力（二）

☞ 报告连载 | 算力即新质生产力（三）

☞ 报告连载 | 算力数据驱动智能驾驶进入下半场

☞ 报告连载 | 多模态大模型促进技术变革

☞ 报告连载 | 智能算力赋能自动驾驶

☞ 报告连载 | 车能路云网融合发展加速落地

☞ 报告连载 | 算力赋能产学研助力高校技术创新

☞ 报告连载 | 上海交通大学：优化应用部署，关注复合型人才培养

☞ 报告连载 | 华南理工大学：以多元化液冷实践打造高效绿色算力

☞ 报告连载 | 中国农业大学：花小钱办大事，算力强势增长

☞ 报告连载 | 华中农业大学：释放多元算力价值，推动交叉学科应用

☞ 报告连载 | 中国人民大学：升级算力应用，打造“玉兰 10B”大模型

☞ 报告连载 | 北京理工大学：提升大模型价值，“墨子”全新升级

☞ 报告连载 | CPU大小核的三条路径

☞ 报告连载 | Chiplet之模块化CPU

扫描或者点击文末“阅读原文”

可下载报告电子版

如需纸质版请注明

▼

关注

获取更多精彩内容

END

中研益企（北京）信息技术研究院有限公司（益企研究院）是面向数据中心、云计算、AI等信息科技领域最新技术和数字化应用的研究机构，长期致力于数据中心与云计算基础设施领域的新技术和新产品研究，帮助企业用户更快更好的接受新技术和新产品方案。通过研究、推广国内外领先的技术和方案，以及专业顾问、咨询等服务，降低市场和用户接受新技术、新方案的成本。在过去几年中发布的《2018中国超大规模云数据中心考察报告》、《2021中国云数据中心考察报告》、《算力经济时代·2023新型算力中心调研报告》、《2024 数字中国万里行暨算力经济中国行考察报告》、参编的《国家“东数西算”工程背景下新型算力基础设施发展研究报告》、《国家“东数西算”工程下算力服务发展研究报告》均广受业内好评。目前益企研究院已入驻多家平台，为安谋科技（Arm China）极术社区合作伙伴。

看清科技，解读价值

扫描“视频号二维码”

E企研究院

E企研究院聚焦云计算、AI、数据中心等新技术研究，新产品解析，为厂商顾问，为用户咨询服务，降低用户接受新技术、新方案的成本。

最新文章

单志广：关于“算力网”和“算力网络”的几点粗浅思考

高效存储应对AI挑战：Solidigm全新大容量QLC SSD，彰显领先实力

2024中国数据中心标准大会｜直面智算挑战新华三探索AI驱动的开放网络技术

大算力智未来 | 2024数据中心标准大会AI算力论坛

2024数据中心标准大会盛大开幕 | AI七色光，照耀智算中心未来路

【11月28日】益企研究院直播间释放互联潜能筑基AI计算

2024 数据中心大会全日程以及参会指南

2024数据中心标准大会倒计时2天 | 大算力智未来携手共绘智蓝图

第六届中国超级算力大会 |技术创新产业联动推动中国算力经济高质量发展

“智算力,大模型,新经济”第六届中国超级算力大会ChinaSC2024在京盛大召开

Solidigm 推出超大容量 122TB PCIe SSD，强化AI产品组合领先优势

更快！更稳！！更可靠！！！智算中心网络新架构

液冷：不只是技术革新，更是散热哲学

精彩预告 |“智算力，大模型，新经济” 第六届中国超级算力大会议程抢先看！

2024数据中心标准大会完整日程发布，直面AIDC变化与未来

报告连载 | “中国云谷世界算谷”“金融云谷”——和林格尔

风生水起智算中心液冷新动能

AI时代，如何升级你的智算中心？

【明晚20:00】益企研究院直播间再谈智算中心关键网络

数据中心标准大会主旨论坛：七大维度解读“AI之光，照耀未来”

构建本地服务器大生态 OCSP 展示社区全景图

【直播预约】11月7日益企研究院直播间再谈智算中心关键网络

智能化战略结硕果东软发布多款创新型解决方案

直播预约 | 智算中心网络深度解析

报告连载 | “草原云谷”——乌兰察布

报告连载 | “算力之都”——张家口

报告连载 | 绿电供给实践

报告连载 | 绿电应用探索实践

冷门知识：Intel 为什么要搞OCSP？

今晚20:00 | 从全球视角看智算中心液冷发展

报告连载 | 大模型助力算电协同创新

《智算中心800G/1.6T网络布线技术白皮书》将在数据中心标准大会上发布并赠阅

明晚20:00 | 从全球视角看智算中心液冷发展

报告连载 | 绿色节能创新实践

AI之光照耀未来 | 报名2024数据中心标准大会抢占行业先机！

报告连载 | 从专业计算到创新实践

10月24日20:00 | 从全球视角看智算中心液冷发展

AI之光照耀未来 | 报名2024数据中心标准大会抢占行业先机！

报告连载 | 全栈液冷技术新突破

报告连载 | 服务器：重构升级（下）

AI网络背景下RDMA的Why，What & How

10月24日益企研究院直播间——全球视角看智算中心液冷发展

报告连载 | 服务器：重构升级（上）

EPYC新篇章 Zen5创新架构引领性能大突破

报告连载 | DPU：由云向智（三）

AI之光照耀未来 | 2024数据中心标准大会报名启动

报告连载 | DPU：由云向智（二）

神雲科技实现MiTAC品牌整合服务器事业奋力跃进

算力存力Buff都叠满，至强6最强形态现身！

异构智算纵横未来 | 2024中国算力大会异构智算产业联盟技术论坛将于9月27日下午举行

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉