公开课预告
传统的“接入-汇聚-核心”三层拓扑结构难以应对云原生应用和虚拟化带来的东西向流量激增,其链路利用率低、带宽损耗严重且VLAN跨域受限。 为了满足AI训练,特别是大型语言模型(LLM)训练对GPU规模和算力的需求,需要采用叶脊架构构建后端网络,通过高速互连技术连接服务器内的GPU(Scale-Up)和跨服务器的GPU集群(Scale-Out)。 以太网因其简单性、可扩展性、模块化、成本效益和与现有数据中心生态系统的兼容性而成为Scale-Out网络的首选。然而,以太网固有的丢包问题对AI工作负载,特别是对数据包丢失敏感的AI工作负载,构成了挑战。
LLM训练需要大量的GPU进行并行计算,包括数据并行、模型并行、流水线并行和张量并行等。 这些并行计算技术都会产生大量的GPU间通信流量,任何任务延迟或网络拥塞都会严重影响性能。 AI架构流量,特别是Scale-Out架构的流量,具有高吞吐量(约100Gbps)、短包长、低往返时间(约10微秒)的特点。因此,需要高效利用所有可用带宽,确保流量均匀分布,并具备快速丢包恢复和重传机制,以及适用于该架构需求的拥塞控制算法。
拥塞避免 数据包喷射(Packet Spraying):将数据包分散到所有可用路径,提高链路利用率,但需要接收方具备乱序数据包重组能力。 自适应负载均衡(Adaptive Load Balancing):基于路径拥塞状态信息,动态选择最佳路径,但需要精确的拥塞状态信息和避免乱序传输。 带内遥测(INT):在数据包中添加拥塞信息,使发送方了解网络拥塞状况并调整传输速率。 拥塞控制 高精度拥塞控制(HPCC):针对高带宽、低往返时间环境优化,包括基于发送方的拥塞控制和基于接收方的拥塞控制。 丢包重传 选择性确认(SACK):仅重传丢失的数据包,优化带宽利用率和降低延迟。 数据包修剪(Packet Trimming):将即将丢弃的数据包修剪至64字节,快速通知接收方进行重传。
回传拥塞 网络内集合操作(In-Network Collectives):将集合操作卸载到交换机上,减轻最后链路负载,但需要注意与数据包喷射结合使用时的路径一致性问题。 UEC与传统RDMA的比较 UEC Transport提供了增强型无损流量、基于流量的拥塞控制、高精度拥塞控制、快速重传、网络内集合操作等功能,以满足AI和HPC网络的需求。 与传统RDMA相比,UEC Transport能够更好地应对AI工作负载带来的挑战,提供更高的带宽利用率、更低的延迟和更强大的拥塞控制能力。
拓扑结构 除了传统的CLOS叶脊拓扑,还有一种轨道优化拓扑(Rail-optimized topology),通过将相同轨道或通道上的GPU连接到同一个轨道交换机,可以减少流量跳数,提高传输效率。 纯轨道拓扑(Rail-only topology)则更进一步,通过在高带宽域内直接转发流量,省去了脊交换机,从而获得更多端口连接GPU。
链路利用率低:STP虽避免了环路,但也导致环路中的部分链路未得到充分利用,甚至闲置。 带宽损耗严重:一旦汇聚或接入交换机发生故障,几乎会导致一半带宽的丢失。 VLAN限制:由于汇聚层以下为单L2域,VLAN无法跨域,意味着两台服务器无法共享同一VLAN,否则将引发冲突。
高可用性:通过叶交换机与脊交换机间的等价多路径(ECMP)实现高可用带宽。与L2的环路预防机制不同,叶脊架构中叶交换机以上的部分为L3层,天然支持多路径路由。 VxLAN技术:支持多租户环境,使得服务器层的VLAN能够跨不同L3域重用。例如,连接至叶交换机1的服务器与连接至叶交换机3的服务器可使用相同VLAN,且分属两个独立网络域。 卓越的可扩展性:网络高度可靠。单个脊交换机故障仅影响其连接部分,其他脊交换机仍能重新路由流量至叶交换机层。多机箱链路聚合(LAG)适用于故障切换。通过增加叶交换机和脊交换机数量,无需影响现有连接,即可轻松扩展网络架构。
前端网络(Frontend Network):这基本上是我们之前提到的CLOS拓扑,用于连接数据中心内的服务器和存储网络。这里没有变化,仍然采用ECMP、VSS、SL等技术。 后端网络(Backend Network):用于连接服务器和机架内的GPU。后端网络有两种类型: Scale-Up网络(Scale-Up Network):这种网络通过高速互连(如NVLink或Infinity Fabric)将同一服务器内的GPU连接起来。该配置可以扩展到60–72个GPU。然而,这与训练LLM所需的GPU规模相比仍然不足。为了实现这种规模,我们采用了第二种类型的后端网络: Scale-Out网络(Scale-Out Network):在这种网络中,每个服务器中的GPU通过网络交换机连接到其他机架或服务器的GPU集群。Scale-Up网络和Scale-Out网络的一个关键区别在于,在Scale-Out网络中,典型的内存访问大多通过RDMA进行,并涉及网络交换机。
基于发送方的拥塞控制(Sender-based):类似于TCP,多个发送方独立运作,采用各自算法检测丢包和拥塞。发生拥塞时,它们调整带宽份额,以较小比例发送数据。Delay Mark和Trim被用作拥塞指示器。该方法受TCP启发,但针对高带宽、低RTT环境进行了优化。 基于接收方的拥塞控制(Receiver-based):在此方法中,接收方为传入的发送方分配信用,并控制发送方的流量发送速率。这对于管理回传拥塞(Incast)情况尤为有效,即多个发送方将数据发送至同一接收方。接收方控制流量,以确保最后一条链路既不过载也不闲置。
—END—
点击下方名片
即刻关注我们