随着AI大模型参数量激增,面向AI大模型业务的智算集群规模不断扩大。公开资料显示,以OpenAI、微软、xAI、Meta为代表的头部公司都在争相建设超过10万卡规模的GPU智算集群,国内企业由于不可抗原因,大规模智算集群建设虽有滞后但也在利用现有条件积极部署推进。基于智算集群的先进生产力在如火如荼的AI竞争中,已然是当下不可或缺的稀有资源。与此同时,在智算集群建设的过程中,我们发现除了处于焦点位置的算力芯片之外,高性能网络优化几乎在每一个智算集群建设方案中都是必选项,由此可见,网络性能在智算集群建设中占据着极其重要的地位。
智算集群高性能网络面临的挑战
这里智算集群高性能网络特指服务于AI大模型计算过程中GPU数据同步使用的后端网络(Back-End网络 或 Scale-Out网络),其业务数据流模型主要是以微突发(瞬时流量满带宽)、低熵(数据流条数少)、大象流(长会话连接)为特征。由于智算集群AI大模型业务对大数据量传输的时延极为敏感,所以提升智算集群网络的有效吞吐性能,对于提升算力有效使用率和降低算力整体成本至关重要。这里我们所面对的核心问题是传统ECMP路由转发模式在低熵、大象流、微突发流量环境中负载均衡能力非常差,引发的网络拥塞迫使整网的有效数据吞吐降低,长尾时延变大,随着智算集群规模扩大,有效算力增长指数急剧降低,这已经成为大规模智算集群建设中高性能网络面临的迫在眉睫要解决的关键问题。
智算集群高性能网络优化方向
在文章开头提到的几个智算集群基础设施头部公司10万卡智算集群规模的解决方案中,针对智算集群高性能网络的优化方案也是各显神通,归纳总结起来主要包括如下几个方面:
网络建设拓扑结构优化
网络建设拓扑结构方面的优化相对比较普及,以常见的多轨道(Rail-Optimized)网络、超订阅比网络、以及阿里云HPN中双平面网络为代表,网络拓扑结构优化主要目的是增加网络接入规模、缓解网络拥塞和增加网络可靠性。
网络运维手段优化
网络运维手段方面的优化是目前AI大规模智算集群的通用方式,主要是以SDN流量工程(精确路由动态调整)和RDMA QP连接数据流熵值选择(预设置/选择/修改源端口号或交换机配置增加QP ID为哈希因子)为代表。基于网络运维手段做网络优化也是当前智算基础设施建设方在采用商业网络芯片产品条件下的最优解,利用已有商业芯片的能力,通过丰富的运维经验开发实现自动化运维服务实现网络最优化。
业务应用软件优化
业务应用软件方面的优化主要是指AI大模型训练框架并行计算机制和集合通信库的优化,通过调整并行计算中TP、PP和DP的节点范围和位置减少Spine和Core交换机上的数据流量,以及优化开源集合通信库增加节点间QP连接数和接收方驱动控制数据发送速率等措施,达到提升网络负载均衡降低网络拥塞程度的目的。该方式是AI大模型业务方私有智算集群网络优化的主要方法,需要在开源软件基础上业务应用结合基础设施网络协作调优。对于没有开源的集合通信库软件,目前该网络优化方式实施会比较困难。
网络协议优化
典型代表是UEC(Ultra Ethernet Consortium),通过对传输协议的针对性设计实现对应业务优异的支持能力,该方式长期收益明显,但实施周期长,需要网络芯片配合实现,产品化过程漫长。同样还有Tesla DOJO的TTPoE协议也类似。
网络芯片设备研发功能优化
通过网络芯片设备研发功能进行网络优化的方式主要由交换机芯片厂商和RDMA网卡芯片厂商主导,当前最具有代表性的即英伟达Spectrum-X方案中Adaptive Routing功能,由交换机网络芯片的逐包负载均衡能力和SuperNIC上RDMA的乱序重排能力,协同工作实现的网络负载均衡。据最新公开信息,该方案在xAI Colossus超级AI集群中被采用。
另外,据市场消息显示,最近国内高性能网络芯片厂商云脉芯联自研的400G AI NIC产品已经启动客户侧规模化灰度测试,该产品提供端侧包喷洒策略驱动多路径传输和乱序接收能力,无需交换机上逐包负载均衡能力,在ECMP路由模式下,就可以实现整网负载均衡,对比交换机逐包负载均衡,Spine层交换机上出端口缓冲区队列深度大幅降低,端到端网络时延有明显收益。如测试数据中体现,4机32卡环境中Ring AllReduce总线带宽达367GBps,400GbE网口秒级统计有效带宽利用率达95%(47.5GBps),交换机上查看网口负载均衡效果表现优异。
图 1 :4机32卡Ring AllReduce测试命令
图 2 :4机32卡Ring AllReduce总线带宽能力
图 3:网络负载均衡效果
图 4 :400GbE网口有效数据吞吐
智算集群高性能网络技术发展未来可期
随着AI大模型业务发展,智算集群基础设施建设有序进行,面向特定业务特征的智算集群高性能网络技术创新势在必行。AI大模型业务方、智算集群基础设施建设方、智算集群基础设施运营方,以及智算集群基础设施设备供应商之间加强紧密合作开展协同技术创新,将是未来智算产业快速发展的重要基础,期待我国高质量智能算力基础设施建设早日实现新的突破。
【活动专栏】
【投稿】:SDNLAB原创文章奖励计划