超高性能网络技术包括自适应路由、静态时延优化、端网协同等技术优化了数据传输路径和效率,提升了整体网络的吞吐和算力释放能力。
超高性能网络技术是智算中心实现高效算力运作的核心保障,主要围绕如何提升网络的吞吐能力、降低时延以及确保算力资源的充分利用进行优化。随着人工智能、深度学习和高性能计算任务的规模和复杂性不断增加,传统数据中心的网络技术已经无法满足这些需求。
1. 自适应路由
传统路由问题:
传统的数据中心网络通常采用最短路径算法进行流量转发。在一般的网络流量条件下,这种算法能够提供较好的吞吐率和低延时。但是,当网络中存在大量的**大象流(elephant flow)**时,最短路径会变得拥堵,导致流量负载不均衡,部分链路过载,而其他链路仍然空闲。
自适应路由的引入:
自适应路由技术通过实时监控网络链路的负载情况,根据负载变化自动调整数据包的转发路径。当检测到某些路径出现拥塞时,网络可以动态选择更为空闲的路径进行流量转发,确保网络整体的负载均衡。这种技术显著提升了网络的有效吞吐能力,尤其在高并发、大规模数据流传输时能够有效避免网络瓶颈。
优点:
快速感知网络负载变化:能够实时感知网络链路的负载情况,自动调整路径。
提升吞吐与网络韧性:通过选择轻载链路,提升了网络的整体吞吐能力和网络的容错能力。
路径快速切换:能够在毫秒甚至亚毫秒级别内进行路径的快速切换,保证超高性能网络的可靠性和流畅性。
2. 静态转发时延优化
静态时延的定义:
网络设备的静态转发时延是指由设备硬件本身的处理性能决定的固有时延,主要包括数据包的转发、处理、序列化等操作。现代智算中心的高效运行要求尽量减少这种固有时延,以提高整个网络的响应速度。
时延的组成部分:
SerDes(串并转换器)时延:通常在30纳秒左右。
PHY/MAC(物理层和介质访问控制层)时延:约为300纳秒。
包处理模块时延:约为400纳秒。
缓存管理时延:约为100纳秒。
优化方向:
降低PHY/MAC的时延:引入新的纠错机制(如RS272-FEC),减少纠错的时间,降低处理延时。
优化包处理模块:通过简化转发路径,关闭不必要的功能(如未启用的ACL),减少查表过程的复杂性,从而降低包处理时间。
改进查表算法:采用更并行的查表设计,提高查找效率,减少包处理的时延。
效果:
通过这些静态转发时延的优化,现代交换设备可以实现微秒级的时延,有助于提升智算中心内的整体网络性能和数据传输效率。
3. 端网协同
端网协同技术的核心是通过网络设备和终端设备(如服务器上的智能网卡或DPU)之间的协同工作,实现网络性能的极致优化。其主要包括以下两个方面:
3.1 端网协同流控
网络拥塞是超高性能网络中一个常见的瓶颈问题。传统的拥塞控制机制通常是在检测到网络拥塞信号后,通过调整发送端速率来缓解拥塞。例如,DCQCN算法是通过ECN信号进行反馈,使用AI/MD机制(Additive-Increase/Multiplicative-Decrease)来调整速率,但收敛速度较慢。
改进的端网协同方案:
高精度拥塞控制(HPCC):通过更精细的拥塞信息(如队列长度和带宽利用率)来提高流量控制的精度,避免长时间的试探过程。
主动拥塞控制:如HOMA算法,通过提前为后续的数据包分配资源,防止拥塞的发生。
端网协同的优势:通过将部分拥塞控制任务下放到网络侧,实现毫秒级甚至更短的拥塞控制反馈,从而更精确地调节发送端速率,减少时延和提高带宽利用率。
在极端测试场景(200:1的网络负载)下,端网协同拥塞控制的50%-ile、99.9%-ile缓存排队时延分别为0.155微秒和0.401微秒,相较于其他算法,如HPCC和DCQCN,其性能表现显著优越。
3.2 RoCE协议的改进
RoCEv2(RDMA over Converged Ethernet)是目前广泛应用于智算中心的远程直接内存访问(RDMA)协议,但存在几个限制:
单路径限制:RoCEv2的RC(Reliable Connection)模式将通信映射到固定的路径上,导致路径负载不均衡和故障恢复慢。
连接数限制:网卡芯片的RC连接数受限,限制了高并发连接的性能。
Go Back N重传:该协议在丢包后会重传大量数据,增加了延时。
优化方案:
多路径支持:允许RoCEv2在不同的五元组下进行多路径传输,提高可靠性和网络带宽利用率。
连接池设计:减少对RC模式下单个连接的依赖,通过动态连接池技术提升系统的扩展性。
选择性重传:从Go Back N模式改进为选择性重传,减少丢包后带来的大量数据重传,降低网络负载和延时。
4. 在网计算
随着深度学习和高性能计算任务对数据传输带宽的要求不断增加,单纯依靠网络提升带宽已经无法完全满足需求。**在网计算(In-Network Computing)**技术应运而生,通过在网络交换机或路由器内实现部分计算任务,减少节点间的数据传输量。
工作原理:
在分布式系统中,常见的集合通信操作如AllReduce和Broadcast都涉及到大量的节点间数据交换。通过将部分计算任务(如Reduce计算)下放到网络设备中执行,可以减少网络传输的数据量和次数,提升通信效率。例如,在AllReduce操作中,交换机可以直接在网内完成部分数据的归约计算,从而减少数据回传的次数。
优势:
减少了数据交互次数和入网的数据量。
提升了整个分布式系统的计算效率,特别是当集群规模较大时,网络计算能力成为并行计算性能提升的关键。
5. DPU卸载
**DPU(数据处理单元)**是专门为智算中心设计的一种新型可编程处理器,用于加速网络、存储和计算任务之间的数据处理和传输。DPU可以卸载部分CPU的网络任务,尤其在存储、虚拟化和数据传输上有显著的性能优势。
主要应用:
NVMe-oF卸载:通过DPU卸载NVMe over Fabric的存储协议处理任务,减少主机CPU的占用,同时提升存储网络的整体性能。
GPU Direct RDMA:DPU与GPU的直接通信可以绕过主机内存,直接在GPU和DPU之间进行数据传输,极大地提升了计算任务中的数据传输效率,尤其在AI计算中效果显著。
6. 智能ECN
传统的ECN(Explicit Congestion Notification,显式拥塞通知)机制是静态配置的,无法根据网络流量的变化进行动态调整。智能ECN通过引入AI算法,可以根据网络的实时流量情况进行动态调整,从而在保持低延时的同时,保障网络的高带宽利用率。
工作机制:
网络设备通过Telemetry技术实时采集流量特征,如队列长度、带宽利用率等。
AI算法根据这些特征,调整ECN门限值,动态优化无损队列的流量控制,确保不同类型流量场景下的最佳性能。
7. 基于信元交换的负载均衡
传统的流级负载均衡(如ECMP)在处理大流量时,容易造成网络链路的不均衡负载。基于信元交换的负载均衡技术可以将数据包切分成多个小的信元单元,动态选择不同链路进行传输,实现更细粒度的负载均衡。
优势:
动态分配链路,避免某一条路径的过载。
提高了网络链路的利用率,尤其在大规模AI训练任务中表现尤为显著。
总结:
超高性能网络技术是智算中心在应对大规模人工智能训练、分布式计算和海量数据处理时的关键支撑。自适应路由、静态时延优化、端网协同、RoCE协议改进、在网计算和DPU卸载等技术的引入,确保了智算中心能够以极低的时延和极高的吞吐率完成复杂的计算任务。这些技术不仅提升了智算中心的整体算力利用率,还推动了网络的智能化与自动化发展。