首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
高性能GPU服务器硬件拓扑及集群组网
科技
2024-11-24 18:33
北京
大会预告
12月5-6日,2024中国生成式AI大会(上海站)
将举办,30+位嘉宾已确认参会演讲。其中,上海交大副教授、无问芯穹联合创始人兼首席科学家戴国浩,GMI Cloud 亚太区总裁King.Cui,英飞流创始人张颖峰,Jina AI联合创始人兼首席技术官王楠,中昊芯英芯片软件栈负责人朱国梁将在AI Infra峰会带来分享,欢迎报名~
大规模模型训练通常使用单机集群进行,每台机器有 8 张 GPU 卡。集群中使用的机器型号包括8 种:A100、A800、H100、H800,以及可能即将推出的 {4, 8} L40S。以下是具有 8 个 A100GPU 的典型机器的硬件拓扑:
基本介绍 概念和术语
1. PCIe交换芯片
支持PCIe的CPU、内存、存储(NVMe)、GPU、网卡等设备都可以连接到PCIe总线或者专用的PCIe交换芯片上,实现互联互通。
目前PCIe已经有五代产品,最新的是Gen5。
2. NVLink
NVLink 是 Nvidia 开发的有线串行多通道近距离通信链路。与 PCI Express 不同,一个设备可以由多个 NVLink 组成,并且设备使用网状网络而不是中央集线器进行通信。该协议于 2014 年 3月首次发布,使用专有的高速信号互连 (NVHS)。
NVLink 功能:
NVLink是指同一主机内不同GPU之间的高速互联方式。
它提供了短距离通信链路,确保数据包成功传输,并与 PCIe 相比提供更高的性能。
NVLink 作为 PCIe 的替代品,支持多通道,链路带宽随着通道数量的增加而线性增加。
NV Switch在单个节点内,GPU 使用 NVLink 以全网状配置互连,类似于主干叶(leaf-spine)拓扑。
NVIDIA 的专利技术。
NVLink 演进:第 1/2/3/4 代
主要区别在于单个 NVLink 链路中的通道数和每个通道的带宽(图中提供了两个方向)。
例如:
A100 采用 12 通道配置,每通道带宽为 50GB/s,双向带宽为 600GB/s(单向为 300GB/s)。
A800 禁用了 4 个通道,因此具有 8 通道配置,每通道带宽为 50GB/s,双向带宽为400GB/s(单向为 200GB/s)。
此外,还可以基于DCGM(数据中心GPU管理器)收集实时NVLink带宽。
3. NVSwitch
典型的 8 卡 A100 主机硬件拓扑
NV Switch是NVIDIA公司推出的交换芯片,封装在GPU模块上,并不是主机外部独立的交换机。
下面是真机图,图中8个盒子就是8片A100,右边6块超厚散热片在NVSwitch芯片下面:
4. NVLink 交换机
NVSwitch听起来像是一个交换机,但其实它是GPU模块上的一个交换芯片,用于连接同一台主机内的GPU。
2022年,NVIDIA把这颗芯片拿出来,实际上把它做成了一个交换机,叫NVLink Switch,用于跨主机连接GPU设备。
这两个名字很容易让人混淆。
5. HBM(高带宽内存)
HBM 的起源
传统上,GPU 内存与常规 DDR 内存类似,插入主板并通过 PCIe 连接到处理器(CPU 或GPU)。因此,速度瓶颈在于 PCIe,Gen4 提供 64GB/s,Gen5 提供 128GB/s。因此,一些 GPU 制造商(不仅仅是 NVIDIA)采用了将多个 DDR 芯片堆叠在一起并与 GPU 封装在一起的配置(如文中讨论 H100 时后面部分所示)。通过这种配置,当每个 GPU 与其专用内存交互时,无需经过 PCIe 交换芯片,从而显著提高速度。这种配置被称为“高带宽内存”(HBM),可以提供带宽的大幅提升。
目前HBM市场被SK海力士、三星等韩国企业垄断。
演进:
HBM 1/2/2e/3/3e
6. 带宽单位
大规模GPU训练的性能与数据传输速度有直接关系,涉及到PCIe带宽、内存带宽、NVLink带宽、HBM带宽、网络带宽等多个环节。除了使用比特/秒(b/s)表示网络带宽的惯例外,通常只提到单向(TX/RX),其他模块带宽一般以字节/秒(B/s)或交易/秒(T/s)表示,代表双向总带宽。
比较带宽时,区分和转换不同的单位非常重要。
1 主机内拓扑结构:2-2-4-6-8-8
2 个 CPU(以及两侧的内存,NUMA)
2块存储网卡(访问分布式存储、带内管理等)
4 个 PCIe Gen4 交换芯片
6 个 NVSwitch 芯片
8 个 GPU
8块GPU专用网卡
典型的 8 卡 A100 主机硬件拓扑
下图比较专业,需要更详细可以参考
1.1. 存储网卡
通过 PCIe 直接连接到 CPU。
主要应用:
从分布式存储中读取和写入数据,例如读取训练数据和写入检查点。
常规节点管理任务,包括 SSH、监控和数据收集。
官方推荐使用BF3 DPU,但只要满足带宽要求,什么方案都可以,如果想节省成本,可以采用
RoCE组网,如果想最大化性能,可以优先考虑InfiniBand。
1.2. NVSwitch
结构:节点内全网状 Full Mesh
8 个 GPU 通过 6 个 NVSwitch 芯片以全网状配置连接,也称为 NVSwitch 结构。全网状配置中的每个链路的带宽为 n * bw-per-nvlink-lane。
A100 GPU 采用 NVLink3,每通道带宽为 50GB/s。因此,全网格中的每个链路以 12 * 50GB/s =600GB/s 的速度运行。值得注意的是,此带宽是双向的,单向带宽为 300GB/s。
A800 GPU 是精简版,12 个通道缩减为 8 个通道。因此,每个链路的运行速度为 8 * 50GB/s =400GB/s,单向带宽为 200GB/s
1.3. 使用nvidia-smi topo查看拓扑
下面是nvidia-smi在一台8*A800的机器上实际显示的拓扑(网卡两两bond,NIC 0~3全部bond):
GPU 之间(左上区域):全部都是 NV8,表示有 8 个 NVLink 连接。
NIC 之间:
在同一个CPU die上:NODE,表示不需要跨NUMA,但是需要跨PCIe交换芯片。
在不同的CPU die上:SYS,表示需要跨NUMA。
GPU 和 NIC 之间:
位于同一个CPU die上,并且位于同一个PCIe交换芯片下:NODE,表示只需要跨PCIe交换芯片。
在同一个CPU die上,但不在同一个PCIe交换芯片下:NODE,表示需要跨PCIe交换芯片和PCIe host bridge。
在不同的CPU die上:SYS,表示需要跨越NUMA、PCIe交换芯片,以及最长的距离。
2. GPU训练集群组网:IDC GPU fabric
多个NODE之间的连接下图很清楚,GPU之间的计算网络通过下端的网卡每个节点8张连接到计算网路的Leaf 交换机,上端的每个节点的和CPU 连接的2张网卡连接到存储网络的leaf 交换机上。
2.1 计算网络
该网络的目的是实现与其他节点的 GPU 到 GPU 的数据交换。
每个 GPU 通过 PCIe 交换机连接到其各自的网络接口卡 (NIC):GPU <--> PCIe 交换机 <--> NIC。
2.2 存储网络
两块网卡(NIC)直接和CPU连接,连接另一个网络,主要用途是数据读写,以及SSH管理等任务。
2.3 RoCE 与 InfiniBand
无论是计算网络还是存储网络,都需要RDMA(Remote Direct Memory Access)来实现AI所需的高性能。目前RDMA有两种选择:
RoCEv2(RDMA over Converged Ethernet version 2):这是公有云提供商通常为其 8-GPU 实例使用的网络,例如具有 8 * 100Gbps 的 CX6 配置。在满足性能要求的前提下,与其他选项相比,它相对具有成本效益。
InfiniBand(IB):在网卡带宽相同的情况下,InfiniBand 比 RoCEv2 性能提升 20% 以上,但价格较高,大约是 RoCEv2 的两倍。
3. 数据链路带宽瓶颈分析
单机8卡A100 GPU主机带宽瓶颈分析
图中标出了几个关键的链路带宽:
1. 同一主机上的GPU之间:使用NVLink,双向带宽为600GB/s,单向带宽为300GB/s。
2. 同一主机上的 GPU 与各自的网络接口卡 (NIC) 之间:利用 PCIe Gen4 交换芯片,双向带宽为64GB/s,单向带宽为 32GB/s。
3. 跨主机 GPU 之间:数据传输依赖于网卡,带宽取决于具体使用的网卡。目前国内常用的A100/A800 型号网卡单向带宽主流为 100Gbps(12.5GB/s)。因此主机间通信相比主机内通信性能会大幅下降。
200Gbps(25GB/s)接近PCIe Gen4的单向带宽
因此,在这种配置中使用 400Gbps NIC 不会产生显著的好处,因为它需要 PCIe Gen5 性能才能充分利用 400Gbps 带宽。
典型8*H100/8*H800主机
GPU板外形尺寸分为两种:
PCIe Gen5
SXM5:性能更高性能
1. H100芯片布局
以下是H100 GPU芯片的内部结构
4nm工艺;
底行由 18 个 Gen4 NVLink 连接组成;提供 18 通道 * 25GB/s/通道 = 900GB/s 的双向总带宽;
中间的蓝色区域代表L2缓存;
左右两侧是HBM芯片,作为显存。
2. 主机内部硬件拓扑
结构大致与A100 8卡机类似,不同之处在于:
NVSwitch芯片数量由6颗减少为4颗;实机图如下:
与CPU的互连由PCIe Gen4 x16升级为PCIe Gen5 x16,双向带宽达到128GB/s;
3. 网络
和A100类似,不同之处在于现在标配的是400Gbps CX7网卡,否则网络带宽和PCIe Switch、NVLink/NVSwitch相比差距会比较大。
—END—
点击下方名片
即刻关注我们
算力猩
隶属于智猩猩,关注计算芯片创新,解读中国算力突破。
最新文章
公开课预告:大规模智算网络基础架构与部署规划|新华三数据中心网络资深产品经理韦赟主讲
算力网(络),应该是什么
先进封装技术解读 | 台积电
IBM 的大规模 A100/H100 GPU 集群 Infra 建设
22页PPT详解 NVIDIA RTX™ 5880 Ada 及训推一体机【附下载】
AI数据中心:网络设计和选型标准
突破内存墙:DRAM技术演进及3D DRAM革命
SC24|谷歌AI加速器:TPU v6e Trillium技术解析
公开课预告:大规模异构GPU集群的互联、运维与调度|基流科技技术负责人敬阳主讲
揭秘 AWS 10p10u 最新网络架构!
AI时代的以太网:应对大规模GPU集群网络挑战
智算中心正在CDN化
博通3.5D F2F技术:定义AI XPU的未来
NVIDIA RTX™ 5880 Ada 性能解析与私有化大模型部署|在线研讨会直播预告
AI数据中心历史、技术与关键企业
揭秘!世界第一个采用CXL 3.1交换机的AI集群
公开课预告:大模型时代的智算GPU集群|阿里云智能集团智算集群产品专家陈祎主讲
GPU服务器支持的“卡数”由哪些因素决定?
HBM制裁加码下的困境与出路
Meta 万卡 GPU 集群稳定性剖析与最佳实践
通往万亿晶体管GPU之路
亚马逊芯片帝国背后的功臣
比GPU快20倍?d-Matrix推理性价比分析
AWS最强AI芯片,深度解读!
功能安全的图形显示解决方案与汽车制造业模拟数字孪生平台 | NVIDIA 加速汽车制造与智驾开发专场直播预告
公开课预告:OISA构建开放高性能GPU卡间互联体系|中国移动研究院李锴主讲
NVIDIA GH200 内部架构探究
UEC 和 UAL 应该合并吗?
AI Infra峰会与大模型峰会议程全公布!2024中国生成式AI大会上海站本周举行,报名即将截止!
公开课预告:针对先进封装的2.5D/3D Chiplet协同设计仿真EDA工具探讨|硅芯科技创始人赵毅主讲
一文看懂Infinity Fabric
大模型时代:交换机衡量指标、技术演变及性能分析
爱芯元智吴炜:多模态大模型在端侧的创新实践与挑战|GenAICon 2024上海站演讲预告
智算中心:现状、挑战、策略与未来机遇
GenAICon 2024上海站主会场议程公布!34位学者专家全景式解构大模型与AI Infra
追赶NVIDIA,国产AI芯片需努力的5个方面
光羽芯辰创始人周强:通向个人大模型之路|演讲预告
从UALink近期发展再看GPU Scale Up的互连方向
无问芯穹首席科学家戴国浩教授:软硬协同与多元异构,共筑大模型算力底座|演讲预告
公开课预告:智算中心 AI Scale-Up 网络技术|益思芯科技解决方案副总裁唐杰主讲
大规模AI计算时代的存储:挑战与优化
聊一聊算力调度
全球化布局:AI 企业如何补齐算力短板,保障GPU集群稳定性|GMI Cloud 亚太区总裁 King.Cui演讲预告
中国系统级封装大会SiP China 2024周三开启!免费报名~
面向大规模AI计算的高性能网络架构:Enfabrica ACF-S解决方案深度解析
近30家大模型与AI Infra企业来了!年度生成式AI大会上海站公布最新嘉宾,报名进入最后阶段
高性能GPU服务器硬件拓扑及集群组网
GPU互连新标准:UALink联盟能否打破NVIDIA垄断?
高性能智算集群设计思考与实践|阿里云智算集群产品解决方案负责人丛培岩演讲预告
全球化布局:AI 企业如何补齐算力短板,保障GPU集群稳定性?|GMI Cloud 亚太区总裁 King.Cui演讲预告
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉