书店上新提醒!《SSD闪存技术基础知识全解(终极版)》采用图文并茂,深入全面形式,内容包存储概念和介质介绍、SSD概念和架构、企业级SSD关键技术、SSD架构和基本算法、SSD基本操作和使用、SSD产业链和厂商、SSD存储新介质发展趋势等7个章节。
随着计算机网络的持续升级,协议在数据交换过程中发挥着越来越重要的作用。其中OSI七层协议是一个在20世纪80年代引入的全球标准,旨在规范计算机间通信。该协议通过分层网络模型展示其复杂性。从物理层到应用层,每个网络层都为实现无缝通信做出贡献。本文将深入探讨从传统的TCP/IP协议到面向高性能计算(HPC)的RDMA技术的演变,重点关注高吞吐量和低延迟的需求。同时,还将讨论网络架构、交换机的作用,以及以太网和InfiniBand之间的选择,旨在实现高性能和成本效益的追求。这次探索充分表现出网络技术的动态性,其中适应性是满足现代数据中心不断增长需求的关键。
初识RDMA网络传输技术
InfiniBand,撼动不了以太网?
英伟达Quantum-2 Infiniband平台技术A&Q
一颗Jericho3-AI芯片,用来替代InfiniBand?
RoCE技术在HPC中的应用分析
GPU集群:NVLink、InfiniBand、ROCE、DDC技术分析
InfiniBand高性能网络设计概述
一文了解InfiniBand和RoCE网络技术
关于InfiniBand和RDMA网络配置实践
InfiniBand与RoCE对比分析:AI数据中心网络选择指南
OSI协议及在高性能计算中向RDMA的过渡
协议是为计算机网络内的数据交换而建立的一组规则、标准或协议。在法律层面,OSI七层协议被视为国际标准。该协议于20世纪80年代引入,旨在通过其七层网络模型标准化计算机间通信,以满足开放网络的要求。
物理层规定硬件之间的通信方式,并为物理设备(包括接口类型和传输速率)建立了标准,便于传输比特流(由0和1表示的数据)。
数据链路层主要负责帧编码和错误控制。它将来自物理层的数据封装成帧并传输到上层。此外它可以将来自网络层的数据拆分为比特流,以便传输到物理层,并通过校验和机制实现错误检测和纠正。网络层在节点之间创建逻辑电路,利用IP地址解析(每个节点都有一个IP地址)并以数据包传输数据。传输层监控两个节点之间数据传输的质量,确保正确顺序,并处理丢失、重复和拥塞控制等问题。会话层管理网络设备中的会话连接,提供会话控制和同步,协调不同设备之间的通信。表示层负责数据格式转换和加密/解密操作,确保不同设备上的应用程序正确解释和处理数据。应用层向用户提供直接的网络服务和应用接口,涵盖电子邮件、文件传输和远程登录等各种应用程序。这些层共同构成了OSI七层模型,每个层具有特定的功能和意义,促进计算机之间的通信和数据交换。需要注意的是,现实中的网络协议可能会偏离OSI模型,这些协议是根据实际需求和网络架构进行设计和实现的。比如TCP/IP协议,它是一个由各种协议组成的协议套件,大致分为四层:应用层、传输层、网络层和数据链路层。TCP/IP相当于是七层协议的优化版。在高性能计算(HPC)领域,由于对高吞吐量和低延迟的需求,传统的TCP/IP协议已逐渐被远程直接内存访问(RDMA)技术所取代。TCP/IP同时也存在一些缺陷,如引入延迟和因多个上下文切换、CPU封装导致的显著CPU开销。RDMA作为一种技术允许通过网络接口直接访问内存数据,无需操作系统的参与。它可实现高吞吐量、低延迟的网络通信,非常适用于大规模并行计算集群。虽然RDMA并没有规定整个协议栈,但它对特定传输方式提出严格的要求,如最小的数据包丢失、高吞吐量和低延迟。基于以太网的RDMA技术有多种变种,如InfiniBand、ROCE和iWARP,每个变种都有其技术细节和成本考虑。叶脊架构与传统的三层网络架构比较
交换机和网关在不同网络层上运行。交换机在数据链路层工作,利用MAC地址进行设备标识并执行数据包转发。它促进了不同设备之间的通信。而网关在网络层操作,通过使用IP地址连接各种子网络来实现连接。传统的数据中心通常采用三层架构,包括接入层、汇集层和核心层。接入层通常直接连接服务器,常用的接入交换机是TOR交换机。汇聚层层作为接入层和核心层之间的中间层。核心交换机处理进出数据中心的流量,并与汇聚层建立连接。然而,在云计算的发展背景下,传统的三层网络架构的缺陷变得越来越明显:相比之下,叶脊架构提供了显著的优势,包括扁平化设计、低延迟和高带宽。在叶脊网络中,叶交换机代替传统L3交换机,而脊交换机则充当L1交换机。脊和叶交换机使用等价成本多路径(ECMP)动态选择多条路径。在叶层的接入端口和上行链路没有瓶颈的情况下,这种架构可以实现无阻塞性能。由于每个叶交换机都可以连接到每个脊交换机,如果某个脊交换机出现问题,只会导致数据中心吞吐性能轻微下降。英伟达(NVIDIA)SuperPOD架构的深入探讨
SuperPOD是指通过连接多个计算节点实现高吞吐性能的服务器集群。以英伟达(NVIDIA)DGX A100 SuperPOD为例,推荐配置QM8790交换机,可提供40个端口,每个端口的速率为200G。其采用的架构遵循一个无阻塞结构。在初始层中,DGX A100服务器配备了8个接口,每个接口连接到8个叶交换机其中的一个。一个SuperPOD架构由20台服务器组成,形成一个SU。因此总共需要8台SU服务器。在第二层架构中,由于网络是无阻塞的且端口速率是统一的,脊交换机上行端口的数量应大于或等于叶交换机下行端口的数量。因此1个SU对应8个叶交换机和5个脊交换机,2个SU对应16个叶交换机和10个脊交换机,以此类推,当SU的数量超过6个时,建议添加一个L1交换机。对于DGX A100 SuperPOD,计算网络的服务器与交换机的比例约为1:1.17(基于7个SU)。然而考虑到存储和网络管理的需求,DGX A100 SuperPOD和DGX H100 SuperPOD的服务器与交换机的比例分别约为1:1.34和1:0.50。从端口来看,DGX H100交换机的推荐配置每个SU配备31台服务器。DGX H100交换机设计4个接口,使用QM9700交换机,可提供64个端口,每个端口速率为400G。从交换机性能来看,DGX H100 SuperPOD的推荐配置中的QM9700交换机引入了Sharp技术。该技术利用聚合管理器在物理拓扑中构建了流聚合树(SAT)。树中的多个交换机进行并行计算,从而降低延迟并提高网络性能。QM8700/8790+CX6交换机支持最多2个SAT,而QM9700/9790+CX7支持最多64个SAT。随着端口数量的增加,交换机数量减少。交换机选择:以太网、InfiniBand和RoCE的比较
以太网交换机和InfiniBand交换机之间的根本区别在于TCP/IP协议和RDMA之间的差异。目前以太网交换机更常用于传统数据中心,而InfiniBand交换机在存储网络和高性能计算(HPC)应用环境中更为常见。无论是以太网交换机还是InfiniBand交换机,都可实现400G的最大带宽。RoCE vs InfiniBand vs TCP/IP高可扩展性:交换机中的三种网络协议都具有高可扩展性,其中InfiniBand展现了最高的可扩展性。一个单独的InfiniBand子网可以支持数以万计的节点,提供相对可扩展的架构,与InfiniBand路由器相比,可以实现几乎无限的集群规模。
高性能:TCP/IP引入了额外的CPU处理开销和延迟,导致相对较低的性能。通过利用现有的以太网基础设施,RoCE提高了数据中心的速率和效率。然而InfiniBand交换机以串行方式逐位传输数据,并利用交换结构,在更快、更高效的通信方面表现出色。
管理便利性:虽然RoCE和InfiniBand的延迟较低、性能较高,但TCP/IP通常更易于部署和管理。在网络管理中使用TCP/IP进行设备和网络连接即可实现集中管理,节省人力成本。
成本效益:对于注重预算的企业来说,InfiniBand可能带来挑战,因为它依赖于昂贵的IB交换机端口来处理大量的应用程序负载,从而增加了计算和维护成本。相比之下利用以太网交换机的RoCE和TCP/IP提供了更具成本效益的解决方案。
网络设备:RoCE和TCP/IP利用以太网交换机进行数据传输,而InfiniBand利用专用的IB交换机来传输应用程序。IB交换机通常需要与支持IB协议的设备进行互连,使它们相对封闭且难以替换。
现代数据中心对底层互连的带宽和延迟要求非常高。在这种情况下,传统的TCP/IP网络协议表现不佳,引入了CPU可以实现开销处理和较高的延迟。对于在RoCE和InfiniBand之间进行选择的企业来说,需仔细考虑其个性化需求和成本因素。优先考虑高性能网络连接的企业可能会更倾向于选择InfiniBand,而追求出色性能、易于管理和成本效益的企业则可能选择RoCE来构建数据中心。相关阅读:
转载申明:转载本号文章请注明作者和来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(43本技术资料打包汇总详情可通过“阅读原文”获取)。全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)”和“存储系统基础知识全解(终极版)”pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价489元)。
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。