AI数据中心：网络设计和选型标准

科技 2024-12-20 19:51 北京

公开课预告

12月26日19:30，新华三数据中心网络资深产品经理韦赟将以《大规模智算网络基础架构与部署规划》为主题进行直播讲解，欢迎扫码报名~

文章转载自公众号：架构师技术联盟。本文只做学术/技术分享，如有侵权，联系删文。

随着模型参数量的提高，其对算力和显存都提出了更高的要求。以GPT3为例，千亿参数需要2TB显存，当前的单卡显存容量不够。即便出现了大容量的显存，以现在单卡的算力也要 32 年才能完成训练。为了缩短训练时间，就需要采用多机多卡并行的方式，通过采用分布式训练技术，对模型和数据进行切分，进而并行加速，将训练市场缩短到周或天的级别。

为了最大化分布式训练的效能，就需要构建出一个计算能力和显存能力超大的集群，来应对大模型训练中算力墙和存储墙这两个主要挑战。

而联接这个超级集群的高性能网络直接决定了智算节点间的通信效率，进而影响整个智算集群的吞吐量和性能。要让整个智算集群获得高的吞吐量，高性能网络需要具备低时延、高带宽、长期稳定性、大规模扩展性和可运维等关键能力。

01 AIDC的网络选型

当前 AIDC 的大规模网络架构主要有两种，一种是InfniBand网络，一种是 RoCE 网络，二者各有优势。

InfniBand网络

InfniBand网络自从诞生以来就专注于高性能领域，当前市场主流的 IB 技术为 400Gbps 的 NDR。IB 网络是专门为超算集群设计的网络，它有两个特点：

原生无损网络 :InfniBand 网络采用基于 credit 信令机制来从根本上避免缓冲区溢出丢包。只有在确认对方有额度能接收对应数量的报文后，发送端才会启动报文发送。依靠这一链路级的流控机制，可以确保发送端绝不会发送过量，网络中不会产生缓冲区溢出丢包。

万卡扩展能力 : InfniBand 的 Adaptive Routing 基于逐包的动态路由，在超大规模组网的情况下保证网络最优利用。

目前业内有大量万卡规模超大 GPU 集群的 IB 案例。

RoCE网络

RoCE（RDMA over Converged Ethernet）是在 InfniBand Trade Association（IBTA）标准中定义的网络协议，

允许通过以太网络使用 RDMA（Remote Direct Memory Access，远程直接访问内存）。简而言之，它可以看作是RDMA 技术在超融合数据中心、云、存储和虚拟化环境中的应用。RoCE 网络的特点如下：

生态开放：RoCE 生态基于成熟的以太网技术体系，业界支持厂商众多。相比于 IB 交换系统，RoCE 网络不需要专用硬件，可以基于多厂商开放的硬件网卡 / 交换机等进行部署。同时业务的开通、运维与传统以太网技术一脉相承，配置、维护更为简单。

速率更快：以太网技术广泛应用于数据中心网络、城域网、骨干网，当前速率可以灵活支持 1Gbps~800Gbps，未来有望演进至 1.6Tbps。与 IB 相比，在互联端口速率和交换机总容量上更胜一筹。

成本较低：以太网高端芯片经过多年的技术发展积累，其单位带宽成本更具竞争力，交换机成本整体更低。

具体到实际业务层面，InfniBand 方案一般要优于 RoCE 方案，RoCEv2 是足够好的方案，而 InfniBand 是特别好的方案，以下将从业务层面对比下这两种方案。

业务性能方面，由于 InfniBand 的端到端时延小于 RoCEv2，所以基于 InfniBand 构建的网络在应用层业务性能方面占优。但 RoCEv2 的性能也能满足绝大部分智算场景的业务性能要求。

业务规模方面，InfniBand 能支持单集群万卡 GPU 规模，且保证整体性能不下降，并且在业界有比较多的商用实践案例。

RoCEv2 网络能在单集群支持千卡规模且整体网络性能也无太大的降低。

业务运维方面，InfniBand 较 RoCEv2 更成熟，包括多租户隔离能力，运维诊断能力等。

业务成本方面，InfniBand 的成本要高于 RoCEv2，主要是 InfniBand 交换机的成本要比以太交换机高一些。

业务供应商方面，InfniBand 的供应商主要以 NVIDIA 为主，RoCEv2 的供应商较多。

02 AIDC的网络设计

面对 AIDC 对网络的高要求，通常情况下独立建一张高性能网络来承载智算业务是最好的方案，可同时满足高带宽、无阻塞的需求。

高带宽设计：当前大模型 AI 训练中会涉及大量的数据交互，对带宽有着极高的要求。目前智算服务器主流配置是配置8 张 GPU，并预留一定数量的 PCIe 插槽用于网络设备，视智算集群的网络需求会配置 4 张 100Gbps 以上的网卡，极端情况下甚至会配置 8 张以上的 100Gbps 以上的网卡。尤其是针对 NVLink 机型，当前主流方案是按照 GPU：IB 网卡 1：1 的模式来配置网卡，这种情况下每台机器会配置 8 张 HDR 甚至是 NDR 的网卡以满足 AI 训练中的高带宽需求。

无阻塞设计：无阻塞网络设计的关键是采用 Fat-Tree（胖树）网络架构。交换机下联和上联带宽采用 1：1 无收敛设计，即如果下联有 20 个 200Gbps 的端口，那么上联也有 20 个 200Gbps 的端口。此外交换机要采用无阻塞转发的数据中心级交换机。当前市场上主流的数据中心交换机一般都能提供全端口无阻塞的转发能力。

低延时设计AI-Pool：当前用于 AI 大模型训练的集群通常会采用支持 NVLink+NVSwitch 的 GPU 机型，这样节点内不同编号的 GPU 间可借助 NCCL 通信库中的 RailLocal 技术，可以充分利用主机内 GPU 间的 NVSwitch 的带宽，基于此我们可以优化网络架构，将 8 个节点和 8 个接入交换机作为一组，构成 AI-pool，如此同一个组内不同节点的同编号GPU 之间通讯只需要经过 1 跳就可到达，从而大幅度降低通讯延迟。

03 智算胖树网络设计

网络可承载的 GPU 卡的规模和所采用交换机的端口密度、网络架构相关。网络的层次多，承载的 GPU 卡的规模会变大，但转发的跳数和时延也会变大，需要结合实际业务情况进行权衡。

当节点数量超过交换机的端口数时，为了保证节点之间无阻塞通讯，就需要组成胖树架构，两层胖树架构如图所示，图中 N 代表单台交换机的端口数。单台交换机最大可下联和上联的端口为 N/2 个，即单台交换机最多可以下联 N/2 台服务器和 N/2 台交换机。两层胖树网络可以接入 N*N/2 个节点。

对于采用 8 卡 NVLink+NVSwitch 机型的节点我们可以对二层胖树进行优化，8 个节点为一组采用 AI-pool 的设计模式，如图所示，采用该架构可优化节点间同编号 GPU 的通讯效率，最大可支持 N*N/2 张 GPU 卡互联。

当三层网络架构中会新增汇聚交换机组和核心交换机组。三层胖树架构如图3-11所示，图中N代表单台交换机的端口数，每个组里面的最大交换机数量为N/2。三层胖树网络可以接入N*(N/2)*(N/2)=N*N*N/4个节点。

综上，两层胖树和三层胖树最重要的区别是可以容纳的GPU卡的规模不同。以端口数为40的交换机为例，两层胖树架构最大可容纳的GPU卡的数量是800张卡，三层胖树架构最大可容纳的GPU卡的数量是16000张卡。

来源：超云AIDC基础设施建设白皮书（2024）

—END—

点击下方名片

即刻关注我们

算力猩

隶属于智猩猩，关注计算芯片创新，解读中国算力突破。

算力网（络），应该是什么

先进封装技术解读 | 台积电

IBM 的大规模 A100/H100 GPU 集群 Infra 建设

22页PPT详解 NVIDIA RTX™ 5880 Ada 及训推一体机【附下载】

AI数据中心：网络设计和选型标准

突破内存墙：DRAM技术演进及3D DRAM革命

SC24｜谷歌AI加速器：TPU v6e Trillium技术解析

公开课预告：大规模异构GPU集群的互联、运维与调度｜基流科技技术负责人敬阳主讲

揭秘 AWS 10p10u 最新网络架构！

AI时代的以太网：应对大规模GPU集群网络挑战

智算中心正在CDN化

博通3.5D F2F技术：定义AI XPU的未来

NVIDIA RTX™ 5880 Ada 性能解析与私有化大模型部署｜在线研讨会直播预告

AI数据中心历史、技术与关键企业

揭秘！世界第一个采用CXL 3.1交换机的AI集群

公开课预告：大模型时代的智算GPU集群｜阿里云智能集团智算集群产品专家陈祎主讲

GPU服务器支持的“卡数”由哪些因素决定？

HBM制裁加码下的困境与出路

Meta 万卡 GPU 集群稳定性剖析与最佳实践

通往万亿晶体管GPU之路

亚马逊芯片帝国背后的功臣

比GPU快20倍？d-Matrix推理性价比分析

AWS最强AI芯片，深度解读！

功能安全的图形显示解决方案与汽车制造业模拟数字孪生平台 | NVIDIA 加速汽车制造与智驾开发专场直播预告

公开课预告：OISA构建开放高性能GPU卡间互联体系｜中国移动研究院李锴主讲

NVIDIA GH200 内部架构探究

UEC 和 UAL 应该合并吗？

AI Infra峰会与大模型峰会议程全公布！2024中国生成式AI大会上海站本周举行，报名即将截止！

公开课预告：针对先进封装的2.5D/3D Chiplet协同设计仿真EDA工具探讨｜硅芯科技创始人赵毅主讲

一文看懂Infinity Fabric

大模型时代：交换机衡量指标、技术演变及性能分析

爱芯元智吴炜：多模态大模型在端侧的创新实践与挑战｜GenAICon 2024上海站演讲预告

智算中心：现状、挑战、策略与未来机遇

GenAICon 2024上海站主会场议程公布！34位学者专家全景式解构大模型与AI Infra

追赶NVIDIA，国产AI芯片需努力的5个方面

光羽芯辰创始人周强：通向个人大模型之路｜演讲预告

从UALink近期发展再看GPU Scale Up的互连方向

无问芯穹首席科学家戴国浩教授：软硬协同与多元异构，共筑大模型算力底座｜演讲预告

公开课预告：智算中心 AI Scale-Up 网络技术｜益思芯科技解决方案副总裁唐杰主讲

大规模AI计算时代的存储：挑战与优化

聊一聊算力调度

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性｜GMI Cloud 亚太区总裁 King.Cui演讲预告

中国系统级封装大会SiP China 2024周三开启！免费报名～

面向大规模AI计算的高性能网络架构：Enfabrica ACF-S解决方案深度解析

近30家大模型与AI Infra企业来了！年度生成式AI大会上海站公布最新嘉宾，报名进入最后阶段

高性能GPU服务器硬件拓扑及集群组网

GPU互连新标准：UALink联盟能否打破NVIDIA垄断？

高性能智算集群设计思考与实践｜阿里云智算集群产品解决方案负责人丛培岩演讲预告

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性？｜GMI Cloud 亚太区总裁 King.Cui演讲预告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉