大模型时代：交换机衡量指标、技术演变及性能分析

科技 2024-11-07 08:17 四川

书店上新提醒！《SSD闪存技术基础知识全解（终极版）》采用图文并茂，深入全面形式，内容包存储概念和介质介绍、SSD概念和架构、企业级SSD关键技术、SSD架构和基本算法、SSD基本操作和使用、SSD产业链和厂商、SSD存储新介质发展趋势等7个章节。

随着计算机网络的持续升级，协议在数据交换过程中发挥着越来越重要的作用。其中OSI七层协议是一个在20世纪80年代引入的全球标准，旨在规范计算机间通信。该协议通过分层网络模型展示其复杂性。从物理层到应用层，每个网络层都为实现无缝通信做出贡献。本文将深入探讨从传统的TCP/IP协议到面向高性能计算（HPC）的RDMA技术的演变，重点关注高吞吐量和低延迟的需求。同时，还将讨论网络架构、交换机的作用，以及以太网和InfiniBand之间的选择，旨在实现高性能和成本效益的追求。这次探索充分表现出网络技术的动态性，其中适应性是满足现代数据中心不断增长需求的关键。

相关阅读：

初识RDMA网络传输技术

InfiniBand，撼动不了以太网？

英伟达Quantum-2 Infiniband平台技术A&Q

一颗Jericho3-AI芯片，用来替代InfiniBand？

RoCE技术在HPC中的应用分析

GPU集群：NVLink、InfiniBand、ROCE、DDC技术分析

InfiniBand高性能网络设计概述

一文了解InfiniBand和RoCE网络技术

关于InfiniBand和RDMA网络配置实践

InfiniBand与RoCE对比分析：AI数据中心网络选择指南

OSI协议及在高性能计算中向RDMA的过渡

协议是为计算机网络内的数据交换而建立的一组规则、标准或协议。在法律层面，OSI七层协议被视为国际标准。该协议于20世纪80年代引入，旨在通过其七层网络模型标准化计算机间通信，以满足开放网络的要求。

物理层规定硬件之间的通信方式，并为物理设备（包括接口类型和传输速率）建立了标准，便于传输比特流（由0和1表示的数据）。

数据链路层主要负责帧编码和错误控制。它将来自物理层的数据封装成帧并传输到上层。此外它可以将来自网络层的数据拆分为比特流，以便传输到物理层，并通过校验和机制实现错误检测和纠正。

网络层在节点之间创建逻辑电路，利用IP地址解析（每个节点都有一个IP地址）并以数据包传输数据。

传输层监控两个节点之间数据传输的质量，确保正确顺序，并处理丢失、重复和拥塞控制等问题。

会话层管理网络设备中的会话连接，提供会话控制和同步，协调不同设备之间的通信。

表示层负责数据格式转换和加密/解密操作，确保不同设备上的应用程序正确解释和处理数据。

应用层向用户提供直接的网络服务和应用接口，涵盖电子邮件、文件传输和远程登录等各种应用程序。

这些层共同构成了OSI七层模型，每个层具有特定的功能和意义，促进计算机之间的通信和数据交换。

需要注意的是，现实中的网络协议可能会偏离OSI模型，这些协议是根据实际需求和网络架构进行设计和实现的。比如TCP/IP协议，它是一个由各种协议组成的协议套件，大致分为四层：应用层、传输层、网络层和数据链路层。TCP/IP相当于是七层协议的优化版。

在高性能计算（HPC）领域，由于对高吞吐量和低延迟的需求，传统的TCP/IP协议已逐渐被远程直接内存访问（RDMA）技术所取代。TCP/IP同时也存在一些缺陷，如引入延迟和因多个上下文切换、CPU封装导致的显著CPU开销。

RDMA作为一种技术允许通过网络接口直接访问内存数据，无需操作系统的参与。它可实现高吞吐量、低延迟的网络通信，非常适用于大规模并行计算集群。虽然RDMA并没有规定整个协议栈，但它对特定传输方式提出严格的要求，如最小的数据包丢失、高吞吐量和低延迟。基于以太网的RDMA技术有多种变种，如InfiniBand、ROCE和iWARP，每个变种都有其技术细节和成本考虑。

叶脊架构与传统的三层网络架构比较

交换机和网关在不同网络层上运行。交换机在数据链路层工作，利用MAC地址进行设备标识并执行数据包转发。它促进了不同设备之间的通信。而网关在网络层操作，通过使用IP地址连接各种子网络来实现连接。

传统的数据中心通常采用三层架构，包括接入层、汇集层和核心层。接入层通常直接连接服务器，常用的接入交换机是TOR交换机。汇聚层层作为接入层和核心层之间的中间层。核心交换机处理进出数据中心的流量，并与汇聚层建立连接。

然而，在云计算的发展背景下，传统的三层网络架构的缺陷变得越来越明显：

带宽浪费：每个L2交换机组管理一个POD，每个POD具有独立的VLAN网络。使用生成树协议（STP）通常会导致VLAN网络只有一个可活动的L2交换机，其他交换机被阻塞。这阻碍了汇聚层的横向扩展。
故障域过大：由于STP算法，网络拓扑变化在其收敛过程中可能导致潜在网络中断。
高延迟：随着数据中心的扩展，东西向流量的增加导致延迟显著增加。在三层网络架构中，服务器之间的通信经过多个交换机，提升L1和L2交换机的性能也会增加使用成本。

相比之下，叶脊架构提供了显著的优势，包括扁平化设计、低延迟和高带宽。在叶脊网络中，叶交换机代替传统L3交换机，而脊交换机则充当L1交换机。

脊和叶交换机使用等价成本多路径（ECMP）动态选择多条路径。在叶层的接入端口和上行链路没有瓶颈的情况下，这种架构可以实现无阻塞性能。由于每个叶交换机都可以连接到每个脊交换机，如果某个脊交换机出现问题，只会导致数据中心吞吐性能轻微下降。

英伟达（NVIDIA）SuperPOD架构的深入探讨

SuperPOD是指通过连接多个计算节点实现高吞吐性能的服务器集群。以英伟达（NVIDIA）DGX A100 SuperPOD为例，推荐配置QM8790交换机，可提供40个端口，每个端口的速率为200G。

其采用的架构遵循一个无阻塞结构。在初始层中，DGX A100服务器配备了8个接口，每个接口连接到8个叶交换机其中的一个。一个SuperPOD架构由20台服务器组成，形成一个SU。因此总共需要8台SU服务器。在第二层架构中，由于网络是无阻塞的且端口速率是统一的，脊交换机上行端口的数量应大于或等于叶交换机下行端口的数量。因此1个SU对应8个叶交换机和5个脊交换机，2个SU对应16个叶交换机和10个脊交换机，以此类推，当SU的数量超过6个时，建议添加一个L1交换机。

对于DGX A100 SuperPOD，计算网络的服务器与交换机的比例约为1:1.17（基于7个SU）。然而考虑到存储和网络管理的需求，DGX A100 SuperPOD和DGX H100 SuperPOD的服务器与交换机的比例分别约为1:1.34和1:0.50。

从端口来看，DGX H100交换机的推荐配置每个SU配备31台服务器。DGX H100交换机设计4个接口，使用QM9700交换机，可提供64个端口，每个端口速率为400G。

从交换机性能来看，DGX H100 SuperPOD的推荐配置中的QM9700交换机引入了Sharp技术。该技术利用聚合管理器在物理拓扑中构建了流聚合树（SAT）。树中的多个交换机进行并行计算，从而降低延迟并提高网络性能。QM8700/8790+CX6交换机支持最多2个SAT，而QM9700/9790+CX7支持最多64个SAT。随着端口数量的增加，交换机数量减少。

交换机选择：以太网、InfiniBand和RoCE的比较

以太网交换机和InfiniBand交换机之间的根本区别在于TCP/IP协议和RDMA之间的差异。目前以太网交换机更常用于传统数据中心，而InfiniBand交换机在存储网络和高性能计算（HPC）应用环境中更为常见。无论是以太网交换机还是InfiniBand交换机，都可实现400G的最大带宽。

RoCE vs InfiniBand vs TCP/IP

关键考虑因素：

高可扩展性：交换机中的三种网络协议都具有高可扩展性，其中InfiniBand展现了最高的可扩展性。一个单独的InfiniBand子网可以支持数以万计的节点，提供相对可扩展的架构，与InfiniBand路由器相比，可以实现几乎无限的集群规模。
高性能：TCP/IP引入了额外的CPU处理开销和延迟，导致相对较低的性能。通过利用现有的以太网基础设施，RoCE提高了数据中心的速率和效率。然而InfiniBand交换机以串行方式逐位传输数据，并利用交换结构，在更快、更高效的通信方面表现出色。
管理便利性：虽然RoCE和InfiniBand的延迟较低、性能较高，但TCP/IP通常更易于部署和管理。在网络管理中使用TCP/IP进行设备和网络连接即可实现集中管理，节省人力成本。
成本效益：对于注重预算的企业来说，InfiniBand可能带来挑战，因为它依赖于昂贵的IB交换机端口来处理大量的应用程序负载，从而增加了计算和维护成本。相比之下利用以太网交换机的RoCE和TCP/IP提供了更具成本效益的解决方案。
网络设备：RoCE和TCP/IP利用以太网交换机进行数据传输，而InfiniBand利用专用的IB交换机来传输应用程序。IB交换机通常需要与支持IB协议的设备进行互连，使它们相对封闭且难以替换。

现代数据中心对底层互连的带宽和延迟要求非常高。在这种情况下，传统的TCP/IP网络协议表现不佳，引入了CPU可以实现开销处理和较高的延迟。

对于在RoCE和InfiniBand之间进行选择的企业来说，需仔细考虑其个性化需求和成本因素。优先考虑高性能网络连接的企业可能会更倾向于选择InfiniBand，而追求出色性能、易于管理和成本效益的企业则可能选择RoCE来构建数据中心。

相关阅读：

转载申明：转载本号文章请注明作者和来源，本号发布文章若存在版权等问题，请留言联系处理，谢谢。

推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(43本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新，现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)”和“存储系统基础知识全解（终极版）”pdf及ppt版本，后续可享全店内容更新“免费”赠阅，价格仅收249元(原总价489元)。

温馨提示：

扫描二维码关注公众号，点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。

http://mp.weixin.qq.com/s?__biz=MzAxNzU3NjcxOA==&mid=2650752850&idx=1&sn=243e0e88a5db20ec7a5d43b28e8eee3b

架构师技术联盟

分享项目实践，洞察前沿架构，聚焦云计算、微服务、大数据、超融合、软件定义、数据保护、人工智能、行业实践和解决方案。

最新文章

AMD，超级计算杀疯了

超大规模集群：CPU&GPU部署与实践

算力网络基础知识全解（收藏版）

服务器内部揭秘（CPU、内存、硬盘）

干货解读：2024云计算白皮书

2024中国AI服务器产业链图谱分析（附产业链全景图）

AMD与Intel处理器综合对比分析

算力网络基础知识全解（收藏版）

AI芯片架构众多，谁会主宰算力芯片？

干货：标准RAG架构和落地实践

2024信创4大领域和15个产业现状调研

机架服务器设计和规格介绍

全国智算基础设施布局概述

交换机：从EOR到TOR架构变迁

SSD闪存技术基础知识全解（终极版）

大模型时代：交换机衡量指标、技术演变及性能分析

AI服务器核心部件产业链剖析（2024）

RAID软硬混战，怎样选最适合？

干货：白牌和品牌服务器之争

SCM新介质：未来方向思考和探讨

下载提醒：SSD闪存技术基础知识全解（终极版）

图解：72个机器学习基础知识点

十年一剑，TPU引领AI芯片时代

直播预告：阿加犀基于SiRider S1芯擎开发板的机器人应用分享

收藏：数据存储和保护技术(110页PPT)

GPU虚拟化：常见技术实现解析

Blackwell GB200：英伟达GPU重塑AI服务器

2024中国智能算力行业白皮书

GPU虚拟化：英伟达&AMD技术分析

大模型技术关键特性与发展趋势

收藏：存储和服务器基础技术

AI网络背景下RDMA的Why，What & How

一文读懂NPU是啥？

GDDR和HBM内存对比

干货：GPU训练和渲染技术

AI芯片算力基础及关键参数

Intel 2025服务器CPU路线图

鲲鹏CPU处理器芯片及架构

AI网络设计：常见误解规避及分析

存储系统基础知识全解（终极版）

国产CPU崛起：一文理解指令集概念

服务器基础知识全解（终极版）

2024年AMD CPU和GPU技术进展

2024中国AI Agent研究综述

服务器CPU：架构、性能及未来趋势

超异构计算技术趋势分析

VMware by Broadcom：虚拟化国产替换是否Ready？

详解服务器磁盘及网卡技术

深入浅出：服务器组成及架构之争

干货：InfiniBand核心技术功能答疑

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉