超大规模网络技术是智算中心网络的重要组成部分,旨在解决智算中心内节点数量极其庞大、互联需求复杂、数据传输要求极高等问题。引入新型拓扑(如Dragonfly直连拓扑)以支持更大规模的集群,提升网络带宽利用率和低延时能力。
1. 新型拓扑结构
当前智算中心网络通常采用 CLOS 网络架构,这种架构具有较强的通用性,但在面对超大规模场景时,其低时延和低成本的需求无法完全满足。因此,业界针对这个问题开发了新的拓扑设计。
CLOS 网络架构:CLOS 拓扑是一种多级分层的网络结构,它通过多级交换机相互连接,以提供高带宽和多路径的网络通信能力。虽然它适合一般的计算中心和中小规模网络,但在超大规模集群中,CLOS 架构面临跳数较多、延迟较高的问题。
Dragonfly 直连拓扑:Dragonfly 是一种新型的超大规模直连拓扑结构,它减少了网络的直径,并优化了路径跳数。例如:
Dragonfly 可以实现最多 27万节点 的连接,规模是 3 级 CLOS 组网的四倍。
在 10 万节点规模的集群中,使用 Dragonfly 直连拓扑,可以将 端到端的跳数 从 CLOS 架构的 7 跳减少到 3 跳,交换机台数减少了 40%,极大降低了系统的复杂性和成本。
2. 高效能 IPv6 演进
随着 AI 和机器学习等技术的发展,智算中心的节点数量和 IP 地址需求迅速增加。尤其在智能算力集群中,节点的虚拟化比例较高,这要求网络必须具备海量 IP 地址分配能力,而传统的 IPv4 地址池已无法满足这种需求。
IPv6 的引入:IPv6 可以提供巨量的 IP 地址池,支持智算中心内的各种智能计算设备进行互联。
IPv6 Over IPv6 的 VxLAN 隧道技术:VxLAN(虚拟扩展局域网)通过隧道技术在不同的子网中提供 IP 地址互通能力。智算中心中,通常需要大量的 IP 地址分配,VxLAN 技术可以有效解决跨多租户和跨 TOR(Top-of-Rack)之间的 IP 通信问题。
不过,VxLAN 在 IPv6 网络中的报文封装成本较高,双层 IPv6 头部会增加封装负担,导致报文的转发能效下降。特别是对于小包数据的处理,这种封装开销非常显著。
优化方案:为了提升网络效率,白皮书提出了一种 高能效 IPv6 转发 方案,避免了对原始 IPv6 报文进行冗余封装,仅通过 IPv6 扩展头的方式支持业务需求,实现了高效的 IPv6 转发。这种方式能显著提高智算中心的网络转发性能,同时支持多租户隔离、跨智算中心互通、微分段及业务链能力。
3. 智算中心间的网络连接
随着国家“东数西算”战略的推进,多个智算中心之间的协同计算和分布式算力需求日益增加,跨中心协同成为高效算力利用的关键。这种跨智算中心的网络连接提出了超高的带宽利用率、低丢包率和长距离传输时延控制的要求。
带宽和丢包控制:跨智算中心的网络连接通常需要支持上百 Gbps 甚至到 Tbps 级别的链路,带宽利用效率至关重要。此外,丢包率越低,传输效率越高,因此新的传输层协议和拥塞控制算法被引入以提升带宽利用率和降低丢包率。
TCP BBR 算法:TCP BBR(Bottleneck Bandwidth and Round-trip time)算法可以提高带宽利用率,但丢包率较高。
RDMA 协议的硬件卸载:远程直接数据访问(RDMA)技术被用来应对超长距离传输中的高性能需求,通过硬件卸载的方式可以实现超长距传输的高效性能,确保吞吐能力接近链路带宽。
挑战与技术改进:跨智算中心网络面临的主要问题包括:大带宽时延积(BDP)带来的拥塞问题,超长光纤传输的错包问题,以及高带宽利用的丢包重传挑战。这需要网络设备具备更强的缓存能力和无损流控能力。
全光网络直连 和 广域确定性承载网络 是当前解决智算中心间超长距网络的研究方向,特别是通过引入 空芯光纤,能够大幅降低传输时延和提高确定性,为低延时和高确定性的跨智算中心互联提供了支持。
4. 池化总线级互联
智算中心的核心是算力资源的池化管理,CPU、GPU、内存、存储等各种计算资源通过网络总线级别互联。这种资源池化的网络架构要求智算中心网络具有极高的带宽、低时延和灵活的资源调度能力。网络的性能不仅是计算能力的瓶颈之一,同时也是提升智算中心整体算力的关键。
端网协同:通过智能网卡(SmartNIC)和网络设备协同工作,智算中心实现了低时延和高吞吐量的网络连接。例如,智能网卡可以卸载网络协议栈,从而提升网络性能和规模。
网络态势感知和动态路径调整:通过优化拥塞控制算法、端到端带内遥测等技术,智算中心网络可以实时感知网络负载变化,自动调整路由策略,确保计算资源的高效利用和数据流的高效传输。