大模型时代:交换机衡量指标、技术演变及性能分析

科技   2024-12-01 17:17   北京  

大会预告

12月5日-6日,2024中国生成式AI大会(上海站)将举办。上海交通大学副教授、无问芯穹联合创始人兼首席科学家戴国浩,Jina AI联合创始人兼首席技术官王楠已确认参会,将围绕AI Infra带来分享,欢迎报名。


随着计算机网络的持续升级,协议在数据交换过程中发挥着越来越重要的作用。其中OSI七层协议是一个在20世纪80年代引入的全球标准,旨在规范计算机间通信。该协议通过分层网络模型展示其复杂性。从物理层到应用层,每个网络层都为实现无缝通信做出贡献。本文将深入探讨从传统的TCP/IP协议到面向高性能计算(HPC)的RDMA技术的演变,重点关注高吞吐量和低延迟的需求。同时,还将讨论网络架构、交换机的作用,以及以太网和InfiniBand之间的选择,旨在实现高性能和成本效益的追求。这次探索充分表现出网络技术的动态性,其中适应性是满足现代数据中心不断增长需求的关键。

OSI协议及在高性能计算中向RDMA的过渡


协议是为计算机网络内的数据交换而建立的一组规则、标准或协议。在法律层面,OSI七层协议被视为国际标准。该协议于20世纪80年代引入,旨在通过其七层网络模型标准化计算机间通信,以满足开放网络的要求。
物理层规定硬件之间的通信方式,并为物理设备(包括接口类型和传输速率)建立了标准,便于传输比特流(由0和1表示的数据)。
数据链路层主要负责帧编码和错误控制。它将来自物理层的数据封装成帧并传输到上层。此外它可以将来自网络层的数据拆分为比特流,以便传输到物理层,并通过校验和机制实现错误检测和纠正。
网络层在节点之间创建逻辑电路,利用IP地址解析(每个节点都有一个IP地址)并以数据包传输数据。
传输层监控两个节点之间数据传输的质量,确保正确顺序,并处理丢失、重复和拥塞控制等问题。
会话层管理网络设备中的会话连接,提供会话控制和同步,协调不同设备之间的通信。
表示层负责数据格式转换和加密/解密操作,确保不同设备上的应用程序正确解释和处理数据。
应用层向用户提供直接的网络服务和应用接口,涵盖电子邮件、文件传输和远程登录等各种应用程序。
这些层共同构成了OSI七层模型,每个层具有特定的功能和意义,促进计算机之间的通信和数据交换。
需要注意的是,现实中的网络协议可能会偏离OSI模型,这些协议是根据实际需求和网络架构进行设计和实现的。比如TCP/IP协议,它是一个由各种协议组成的协议套件,大致分为四层:应用层、传输层、网络层和数据链路层。TCP/IP相当于是七层协议的优化版。
在高性能计算(HPC)领域,由于对高吞吐量和低延迟的需求,传统的TCP/IP协议已逐渐被远程直接内存访问(RDMA)技术所取代。TCP/IP同时也存在一些缺陷,如引入延迟和因多个上下文切换、CPU封装导致的显著CPU开销。
RDMA作为一种技术允许通过网络接口直接访问内存数据,无需操作系统的参与。它可实现高吞吐量、低延迟的网络通信,非常适用于大规模并行计算集群。虽然RDMA并没有规定整个协议栈,但它对特定传输方式提出严格的要求,如最小的数据包丢失、高吞吐量和低延迟。基于以太网的RDMA技术有多种变种,如InfiniBand、ROCE和iWARP,每个变种都有其技术细节和成本考虑。

叶脊架构与传统的三层网络架构比较


交换机和网关在不同网络层上运行。交换机在数据链路层工作,利用MAC地址进行设备标识并执行数据包转发。它促进了不同设备之间的通信。而网关在网络层操作,通过使用IP地址连接各种子网络来实现连接。
传统的数据中心通常采用三层架构,包括接入层、汇集层和核心层。接入层通常直接连接服务器,常用的接入交换机是TOR交换机。汇聚层层作为接入层和核心层之间的中间层。核心交换机处理进出数据中心的流量,并与汇聚层建立连接。
然而,在云计算的发展背景下,传统的三层网络架构的缺陷变得越来越明显:
  • 带宽浪费:每个L2交换机组管理一个POD,每个POD具有独立的VLAN网络。使用生成树协议(STP)通常会导致VLAN网络只有一个可活动的L2交换机,其他交换机被阻塞。这阻碍了汇聚层的横向扩展。

  • 故障域过大:由于STP算法,网络拓扑变化在其收敛过程中可能导致潜在网络中断。

  • 高延迟:随着数据中心的扩展,东西向流量的增加导致延迟显著增加。在三层网络架构中,服务器之间的通信经过多个交换机,提升L1和L2交换机的性能也会增加使用成本。
相比之下,叶脊架构提供了显著的优势,包括扁平化设计、低延迟和高带宽。在叶脊网络中,叶交换机代替传统L3交换机,而脊交换机则充当L1交换机。
脊和叶交换机使用等价成本多路径(ECMP)动态选择多条路径。在叶层的接入端口和上行链路没有瓶颈的情况下,这种架构可以实现无阻塞性能。由于每个叶交换机都可以连接到每个脊交换机,如果某个脊交换机出现问题,只会导致数据中心吞吐性能轻微下降。

英伟达(NVIDIA)SuperPOD架构的深入探讨


SuperPOD是指通过连接多个计算节点实现高吞吐性能的服务器集群。以英伟达(NVIDIA)DGX A100 SuperPOD为例,推荐配置QM8790交换机,可提供40个端口,每个端口的速率为200G。
其采用的架构遵循一个无阻塞结构。在初始层中,DGX A100服务器配备了8个接口,每个接口连接到8个叶交换机其中的一个。一个SuperPOD架构由20台服务器组成,形成一个SU。因此总共需要8台SU服务器。在第二层架构中,由于网络是无阻塞的且端口速率是统一的,脊交换机上行端口的数量应大于或等于叶交换机下行端口的数量。因此1个SU对应8个叶交换机和5个脊交换机,2个SU对应16个叶交换机和10个脊交换机,以此类推,当SU的数量超过6个时,建议添加一个L1交换机。
对于DGX A100 SuperPOD,计算网络的服务器与交换机的比例约为1:1.17(基于7个SU)。然而考虑到存储和网络管理的需求,DGX A100 SuperPOD和DGX H100 SuperPOD的服务器与交换机的比例分别约为1:1.34和1:0.50。
从端口来看,DGX H100交换机的推荐配置每个SU配备31台服务器。DGX H100交换机设计4个接口,使用QM9700交换机,可提供64个端口,每个端口速率为400G。
从交换机性能来看,DGX H100 SuperPOD的推荐配置中的QM9700交换机引入了Sharp技术。该技术利用聚合管理器在物理拓扑中构建了流聚合树(SAT)。树中的多个交换机进行并行计算,从而降低延迟并提高网络性能。QM8700/8790+CX6交换机支持最多2个SAT,而QM9700/9790+CX7支持最多64个SAT。随着端口数量的增加,交换机数量减少。

交换机选择:以太网、InfiniBand和RoCE的比较


以太网交换机和InfiniBand交换机之间的根本区别在于TCP/IP协议和RDMA之间的差异。目前以太网交换机更常用于传统数据中心,而InfiniBand交换机在存储网络和高性能计算(HPC)应用环境中更为常见。无论是以太网交换机还是InfiniBand交换机,都可实现400G的最大带宽。
RoCE vs InfiniBand vs TCP/IP
关键考虑因素:
  • 高可扩展性:交换机中的三种网络协议都具有高可扩展性,其中InfiniBand展现了最高的可扩展性。一个单独的InfiniBand子网可以支持数以万计的节点,提供相对可扩展的架构,与InfiniBand路由器相比,可以实现几乎无限的集群规模。

  • 高性能:TCP/IP引入了额外的CPU处理开销和延迟,导致相对较低的性能。通过利用现有的以太网基础设施,RoCE提高了数据中心的速率和效率。然而InfiniBand交换机以串行方式逐位传输数据,并利用交换结构,在更快、更高效的通信方面表现出色。

  • 管理便利性:虽然RoCE和InfiniBand的延迟较低、性能较高,但TCP/IP通常更易于部署和管理。在网络管理中使用TCP/IP进行设备和网络连接即可实现集中管理,节省人力成本。

  • 成本效益:对于注重预算的企业来说,InfiniBand可能带来挑战,因为它依赖于昂贵的IB交换机端口来处理大量的应用程序负载,从而增加了计算和维护成本。相比之下利用以太网交换机的RoCE和TCP/IP提供了更具成本效益的解决方案。

  • 网络设备:RoCE和TCP/IP利用以太网交换机进行数据传输,而InfiniBand利用专用的IB交换机来传输应用程序。IB交换机通常需要与支持IB协议的设备进行互连,使它们相对封闭且难以替换。

现代数据中心对底层互连的带宽和延迟要求非常高。在这种情况下,传统的TCP/IP网络协议表现不佳,引入了CPU可以实现开销处理和较高的延迟。
对于在RoCE和InfiniBand之间进行选择的企业来说,需仔细考虑其个性化需求和成本因素。优先考虑高性能网络连接的企业可能会更倾向于选择InfiniBand,而追求出色性能、易于管理和成本效益的企业则可能选择RoCE来构建数据中心。

—END—


点击下方名片


即刻关注我们


算力猩
隶属于智猩猩,关注计算芯片创新,解读中国算力突破。
 最新文章