AI大模型智算集群高性能网络优化路在何方？

科技 2024-11-01 08:00 江苏

随着AI大模型参数量激增，面向AI大模型业务的智算集群规模不断扩大。公开资料显示，以OpenAI、微软、xAI、Meta为代表的头部公司都在争相建设超过10万卡规模的GPU智算集群，国内企业由于不可抗原因，大规模智算集群建设虽有滞后但也在利用现有条件积极部署推进。基于智算集群的先进生产力在如火如荼的AI竞争中，已然是当下不可或缺的稀有资源。与此同时，在智算集群建设的过程中，我们发现除了处于焦点位置的算力芯片之外，高性能网络优化几乎在每一个智算集群建设方案中都是必选项，由此可见，网络性能在智算集群建设中占据着极其重要的地位。

智算集群高性能网络面临的挑战

这里智算集群高性能网络特指服务于AI大模型计算过程中GPU数据同步使用的后端网络（Back-End网络或 Scale-Out网络），其业务数据流模型主要是以微突发（瞬时流量满带宽）、低熵（数据流条数少）、大象流（长会话连接）为特征。由于智算集群AI大模型业务对大数据量传输的时延极为敏感，所以提升智算集群网络的有效吞吐性能，对于提升算力有效使用率和降低算力整体成本至关重要。这里我们所面对的核心问题是传统ECMP路由转发模式在低熵、大象流、微突发流量环境中负载均衡能力非常差，引发的网络拥塞迫使整网的有效数据吞吐降低，长尾时延变大，随着智算集群规模扩大，有效算力增长指数急剧降低，这已经成为大规模智算集群建设中高性能网络面临的迫在眉睫要解决的关键问题。

智算集群高性能网络优化方向

在文章开头提到的几个智算集群基础设施头部公司10万卡智算集群规模的解决方案中，针对智算集群高性能网络的优化方案也是各显神通，归纳总结起来主要包括如下几个方面：

网络建设拓扑结构优化

网络建设拓扑结构方面的优化相对比较普及，以常见的多轨道（Rail-Optimized）网络、超订阅比网络、以及阿里云HPN中双平面网络为代表，网络拓扑结构优化主要目的是增加网络接入规模、缓解网络拥塞和增加网络可靠性。

网络运维手段优化

网络运维手段方面的优化是目前AI大规模智算集群的通用方式，主要是以SDN流量工程（精确路由动态调整）和RDMA QP连接数据流熵值选择（预设置/选择/修改源端口号或交换机配置增加QP ID为哈希因子）为代表。基于网络运维手段做网络优化也是当前智算基础设施建设方在采用商业网络芯片产品条件下的最优解，利用已有商业芯片的能力，通过丰富的运维经验开发实现自动化运维服务实现网络最优化。

业务应用软件优化

业务应用软件方面的优化主要是指AI大模型训练框架并行计算机制和集合通信库的优化，通过调整并行计算中TP、PP和DP的节点范围和位置减少Spine和Core交换机上的数据流量，以及优化开源集合通信库增加节点间QP连接数和接收方驱动控制数据发送速率等措施，达到提升网络负载均衡降低网络拥塞程度的目的。该方式是AI大模型业务方私有智算集群网络优化的主要方法，需要在开源软件基础上业务应用结合基础设施网络协作调优。对于没有开源的集合通信库软件，目前该网络优化方式实施会比较困难。

网络协议优化

典型代表是UEC（Ultra Ethernet Consortium），通过对传输协议的针对性设计实现对应业务优异的支持能力，该方式长期收益明显，但实施周期长，需要网络芯片配合实现，产品化过程漫长。同样还有Tesla DOJO的TTPoE协议也类似。

网络芯片设备研发功能优化

通过网络芯片设备研发功能进行网络优化的方式主要由交换机芯片厂商和RDMA网卡芯片厂商主导，当前最具有代表性的即英伟达Spectrum-X方案中Adaptive Routing功能，由交换机网络芯片的逐包负载均衡能力和SuperNIC上RDMA的乱序重排能力，协同工作实现的网络负载均衡。据最新公开信息，该方案在xAI Colossus超级AI集群中被采用。

另外，据市场消息显示，最近国内高性能网络芯片厂商云脉芯联自研的400G AI NIC产品已经启动客户侧规模化灰度测试，该产品提供端侧包喷洒策略驱动多路径传输和乱序接收能力，无需交换机上逐包负载均衡能力，在ECMP路由模式下，就可以实现整网负载均衡，对比交换机逐包负载均衡，Spine层交换机上出端口缓冲区队列深度大幅降低，端到端网络时延有明显收益。如测试数据中体现，4机32卡环境中Ring AllReduce总线带宽达367GBps，400GbE网口秒级统计有效带宽利用率达95%（47.5GBps），交换机上查看网口负载均衡效果表现优异。

图 1 ：4机32卡Ring AllReduce测试命令

图 2 ：4机32卡Ring AllReduce总线带宽能力

图 3：网络负载均衡效果

图 4 ：400GbE网口有效数据吞吐

智算集群高性能网络技术发展未来可期

随着AI大模型业务发展，智算集群基础设施建设有序进行，面向特定业务特征的智算集群高性能网络技术创新势在必行。AI大模型业务方、智算集群基础设施建设方、智算集群基础设施运营方，以及智算集群基础设施设备供应商之间加强紧密合作开展协同技术创新，将是未来智算产业快速发展的重要基础，期待我国高质量智能算力基础设施建设早日实现新的突破。

【活动专栏】

【投稿】：SDNLAB原创文章奖励计划

SDNLAB

SDNLAB是专注网络创新技术的先锋媒体社区和实践应用平台，涵盖AI 网络、DPU/智能网卡、SD-WAN/SASE、Web3.0、零信任、云网融合等相关领域，提供新闻资讯、技术交流、在线实验、行业分析、求职招聘、教育培训等多元服务。

最新文章

未来网络研究与发展思考

为什么 AI 芯片需要 PCIe 7.0 IP 互连？

光联世纪：荣获双奖，引领企业数字化转型与网络安全升级新纪元

Meta 万卡 GPU 集群稳定性剖析与最佳实践

又有中国公司被列入实体清单！

大厂自研白盒交换机：是技术控的倔强，还是钱包君的呼救？

突发！英伟达被立案调查！

十年“变形记”，AMD 如何从英特尔的“平替”发展成强劲对手？

GPU 与 LPU：哪个更适合 AI 工作负载？

P4助力全调度以太网技术（GSE）创新与实践

揭秘 AWS 10p10u 最新网络架构！

2024年全国行业职业技能竞赛-第五届全国电信和互联网行业信息化系统管理员S（云网智能运维与优化方向）全国总决赛在宁圆满落幕

算网融合技术与产业白皮书（附下载！）

英特尔 CEO 帕特·基辛格宣布辞职

美国将136家中国实体列入实体清单（附完整名单）

传140家中国半导体公司被美列入实体清单！

写给小白的大模型入门科普

UEC 和 UAL 应该合并吗？

IDC ：未来 5 年 AI 基础设施支出将超 1000 亿美元

为什么 MPLS 仍是以太网传输技术的首选？

聊一聊算力调度

深度用云——释放企业潜能｜网络先行——云网络卓越架构设计

深度用云——释放企业潜能｜阿里云原生网络AIOps，助力企业深度用好云

阿里云孙成浩：简单易用的智能云网络，让客户专注业务创新

第七届SD-WAN & SASE大会专访——泰信天成刘昱：专注于SD-AIIT，NG-WAN融合算网，让AI为网络所用

从UALink近期发展再看GPU Scale Up的互连方向

天翼云领跑边缘安全加速赛道，斩获品牌、产品创新双料大奖!

狂飙！英伟达营收暴涨 94%！

第一线总经理陈姵妏：构建AI原生可信计算空间助企业加速驰骋智慧浪潮

微软“芯”力全开，首款自研DPU 曝光！

首颗全调度以太网（GSE）DPU芯片发布，中国智算网络发展的又一个里程碑

AI 浪潮下思科“翻船”？网络业务大幅下滑23%！

6G网络内生AI技术白皮书（附下载）

第七届SD-WAN & SASE大会暨云网络大会盛大召开！

倒计时 1 天！丨第七届SD-WAN & SASE大会暨云网络大会报名即将截止

智算网络集群的下一步？Scale-up与Scale-out融合架构成关键

倒计时 3 天！丨第七届SD-WAN & SASE大会暨云网络大会报名即将截止

Arista 财报：AI 后端网络“内卷”成功，前端网络“压力山大”！

参会指南丨第七届SD-WAN & SASE大会暨云网络大会报名倒计时

曝台积电7nm芯片将停供中国大陆！

从云计算技术发展路径看三十年市场用云需求变迁