超大规模下的以太网RDMA的局限与展望

科技 2024-10-29 14:30 江苏

来源：奇异摩尔公司市场部

上期我们讲到了RDMA的WHY，WHAT & HOW（AI网络背景下RDMA的Why，What & How），这一期我们来谈一谈RDMA的不足。

Ethernet & RDMA

在过去30年中，每当我们谈论网络时，无论面对什么问题，答案始终是以太网。为什么？因为它提供了更优的TCO，在可扩展性方面远超任何竞争技术，并且拥有任何其他技术都无法比拟的生态系统：各个供应商的产品能灵活适配、协同工作。它具备极其成熟的技术和极为巨大的规模经济优势。

RDMA网络是AI/ML部署的关键推动者，它允许GPU以高利用率运行，并缩短作业完成时间（JCT）。通过提高效率，RDMA降低了拥有成本，并允许更快的训练时间，这是微软、Open AI、Meta等建设AI基础的关键指标。

（图片来源于网络）

RoCE（RDMA over converged Ethernet）就是允许通过以太网网络实现RDMA功能的技术，它同时具备RDMA的高效和以太网的生态优势，其诸多特性在多种计算场景中发挥了巨大作用。然而，随着机器学习（ML）和人工智能（AI）的迅猛发展，原本并非针对超大规模集群设计的RDMA技术，在应对成千上万节点的大规模组网时，其性能逐渐显现出局限性。随着Mixture of Experts（MoE）等先进模型结构的出现，模型参数迈入万亿规模。AI网络正面临更大规模、更高带宽、更低延迟的一系列性能需求。那么，现有的RoCE技术在应对这些挑战时存在哪些不足？展望未来，RoCE技术又将迎来哪些创新和变革？以下是我们对RoCE技术当前局限性和未来发展趋势的探讨。

当前RDMA RoCE的一些技术局限

首先，虽然运用RoCE已经成功实现了许多规模集群的组网，随着集群规模从万卡向十万卡演进，RoCE在大规模集群场景下面临以下不足：

PFC 需要大量缓冲来实现无损传输

优先级流控（PFC）是融合以太网（Converged Ethernet）的核心，为的是能在每个链路上实现无损传输。使用 PFC 时，接收方会监控可用的输入缓冲区空间（buffer space），一旦缓冲空间低于与带宽-延迟乘积（BDP = BW*RTT）相关的某个阈值，接收端会向发送端发送一个PAUSE帧。此时，BDP/2字节的数据已经在传输中，而在发送端接收到PAUSE帧之前，它还会发送另外的BDP/2字节。因此，完全无损传输的最小缓冲需求是BDP + MTU（最大传输单元），其中MTU为最大数据包大小。（这还只是数据包在接收端立即被处理的情况，任何一点延迟都会显著降低链路利用率。）

覆盖PAUSE消息传输延迟所需的BDP缓冲空间通常被称为“余裕缓冲”（headroom buffer），类似于用于信用机制流量控制的缓冲空间，如InfiniBand或Fibre Channel中使用的流量控制机制。在这些机制中，接收端主动向发送端发送信用额度（缓冲分配），以保持输入缓冲区的平衡，而PFC机制则是在缓冲区过满时才反应。这两种机制各有优点——信用额度可以主动传向源头，而PFC则可以更具反应性（迟绑定），在为不同的源链路分配共享缓冲空间时进行调节。两种机制本质上都需要为每个链路保留BDP的空间，以覆盖链路的往返控制延迟，这部分空间在高效转发中是无法使用的。

实际上，缓冲空间对于处理变化的流量峰值和进行时间和空间上的负载均衡至关重要。仅仅是所需的余裕缓冲，在不冒丢包风险的情况下无法用于其他用途，这对下一代交换机的扩展带来了巨大挑战。

主流的交换机厂商如Broadcom、Marvell和Cisco等都已推出了50T交换机以满足高带宽、低时延、零丢包的网络需求，以RTT 3~5微秒估算，以51.2T（64个800G）的交换机而言，BDP大小约33MB左右。随着未来交换机吞吐量的增加，buffer size（约可以认为是BDP）也会继续增加。（见图a）（图片展示的buffer size是只考虑交换机吞吐量作为变量的情况，实际RTT也会有所变化）

（图源：Datacenter Ethernet and RDMA: Issues at Hyperscale）

而随着传输距离的增加，对buffer size的要求也会急剧增加。（见图b）

受害流、拥塞树、PFC风暴和死锁

另一个问题源于 PFC 会暂停整个流量类别以及其中的所有流量。这会导致受害流的出现：假设有两个流：A和B共享一条链路L。A没有拥塞，可以以全带宽发送。但B在某个下游端口被阻塞，填满了L的输入缓冲区。最终，L 分配的缓冲区会被B的数据包填满，L会发送一个暂停帧。这一帧也会暂停A，而A本可以独立传输——因此，A因B的暂停而受害。即，未发生拥塞的流可能会受到其他拥塞流的影响。这种现象也被称为队首阻塞（Head of Line Blocking）。

由于下游端口的任何拥塞都会填满上游的缓冲区，除非端点拥塞控制协议做出反应，PFC 事件可以快速形成一个“拥塞树”，这种拥塞树会顺着受害流在网络中反向扩展。拥塞树是无损网络中的常见问题，有时也被称为 PFC 风暴。

（图片来源于网络）

而且任何具有有限缓冲的无损方案在路由允许形成循环时都会遭遇死锁问题。

（图片来源于网络）

Go-back-N 重传

RoCE是为遵循 InfiniBand 的有序和基于信用的无损传输而设计的非常简单的硬件。这意味着只有在数据包因比特错误而损坏时，才会丢弃数据包，这种情况非常少见。RoCE的重传逻辑要求所有数据包必须按顺序到达数据流中。这意味着第一个数据包必须在第二个数据包之后到达，第三个数据包必须在第二个数据包之后到达，以此类推。但如果数据包在RDMA数据流中丢失，比方说第五个数据包丢失，但后续数据包（六、七、八）已成功传输，“Go-back-N”重传技术会告诉系统，“你丢失了第五个数据包，所以我需要你重新传输数据包五、六、七和八。”而大量的重传会严重影响网络性能。

简单的 Go-back-N 方案还有一个更大问题是，它不支持多路径或乱序交付。但支持乱序交付的其他方案则需要等待发送方的超时到期，这可能导致更高的恢复时间和抖动。因此，在设计新的传输协议时，必须仔细考虑所有这些权衡。

拥塞控制与其他流量的共存

RoCE 的默认拥塞控制基于一种无损传输前提下的速率控制机制。数据中心通常使用 DCQCN、TIMELY和 HPCC 等机制，构建在 RoCE 的基础上改善流量传输。但现在大多数 RoCE 部署使用非标准的拥塞控制机制，需要精细调整许多参数，例如 ECN 阈值、减速因子、时间间隔等，这使得不同供应商，甚至同一供应商的不同硬件代之间的互操作性变得困难。这是因为拥塞控制仍然是一个艰难的问题，不同的工作负载可能需要经过调优的协议版本。

目前不支持智能协议栈

随着网络开销在数据中心工作负载中的重要性日益增加，需要设计出更加智能的协议栈。新兴的智能网卡 (Smart NIC) 为这一领域带来了新的机会，用户可配置的内核可以在 NIC 上执行数据包和协议处理。

比如论文《sPIN: High-performance streaming Processing In the Network》中提到的“sPIN”新型网络处理模型，它是一种可编程的网络接口控制器（NIC），通过硬件加速在网络层直接处理数据。支持用户自定义的程序在数据到达时进行处理，避免数据包先被传输到服务器端再处理的延迟。该系统结合了网络处理器和可编程硬件（如FPGA）的优势，能够在数据传输过程中执行简单的计算任务，比如数据压缩、过滤等操作。

系统层面的问题

随着链路层和端到端延迟的增加，系统也会面临更多问题。高延迟会导致缓冲区占用增加、能耗上升，并使拥塞控制效率降低。特别是对于那些传输速度超过单个往返时间（RTT）的消息，依赖接收端反馈的拥塞控制机制变得无效，导致小消息引发的不良 incast 问题变得更加严重或频繁。

此外，RDMA固有的语义复杂性和安全性问题也应引起关注。暴露进程本地的虚拟地址会引发安全隐患。路由和负载均衡仍然是挑战，尤其是在数据中心和 HPC 网络中，不同的系统架构需要不同的机制来优化网络流量和消息处理顺序。

那么，现在有哪些改进思路呢？

RoCE改进建议

改进流控机制

当前的PFC机制由于需要大量缓冲区并且无法精细地管理个别流量，可以通过更加细粒度的流量控制方法来解决这些问题。例如，使用基于流的拥塞追踪而不是基于优先级的追踪，可以有效减少受害流现象。同时，通过动态调整拥塞优先级（如拥塞隔离技术）也可以有效缓解拥塞问题。

拥塞管理与路由改进

针对拥塞树和PFC风暴的问题，可以使用更复杂的流量监控和管理机制，例如在交换机中维护每个流的状态，以便更好地追踪拥塞情况。此外，动态调整流量优先级或采用无拥塞路由策略，也可以避免受害流和拥塞树的产生。

增强重传机制

针对Go-back-N机制的局限性，可以采用选择性重传（Selective re-transmission）或支持乱序传输的机制，以减少不必要的数据重传。例如，最新的RoCE适配器已经引入了选择性重传技术，但仍需进一步优化，尤其是在处理多路径传输时。

展望未来

随着计算任务的复杂性和数据规模的增加，AI网络面临的压力也越来越大。未来的发展方向不仅包括改进现有的RoCE技术，还包括探索新的网络拓扑、流控和拥塞管理方法。

RoCE技术的进一步发展需要与新的网络需求相适应，如机密计算、地理复制数据中心和多租户环境等。这些新兴技术和应用场景将推动下一代高性能AI网络的创新，确保智算中心能够在极端工作负载下保持高效稳定的运行。

因此，Ultra Ethernet提出了解决RDMA问题的构想，称之为“Ultra Ethernet Transport”。包括奇异摩尔在内的UEC成员们正在采取一系列措施，目标是建立一个具有高弹性、高性能的令人难以置信的强大网络，在一个非常稳健的网络环境中实现超过十万个节点的可扩展性，并在开放标准框架内运行。（构建更完善、更高效的AI网络基础设施：UEC 超以太联盟最新进展）

Broadcom公司高级副总裁Ram Velaga说，在ML/AI的世界里，不会有一家公司提供所有GPU，也不会有一家公司提供所有互连解决方案。我们实现可扩展性的唯一方法是建立一个生态系统，由多个供应商提供加速器。这个生态系统的生存依赖于构建一个开放的、基于标准的、高性能的和具有成本效益的互连架构。以太网是唯一的选择，无论是昨天、今天还是明天。

参考文献：

Datacenter Ethernet and RDMA: Issues at Hyperscale

sPIN: High-performance streaming Processing In the Network

Ethernet: The Road to Singularity - Modernized RDMA

【活动专栏】

【投稿】：SDNLAB原创文章奖励计划

SDNLAB

SDNLAB是专注网络创新技术的先锋媒体社区和实践应用平台，涵盖AI 网络、DPU/智能网卡、SD-WAN/SASE、Web3.0、零信任、云网融合等相关领域，提供新闻资讯、技术交流、在线实验、行业分析、求职招聘、教育培训等多元服务。

最新文章

未来网络研究与发展思考

为什么 AI 芯片需要 PCIe 7.0 IP 互连？

光联世纪：荣获双奖，引领企业数字化转型与网络安全升级新纪元

Meta 万卡 GPU 集群稳定性剖析与最佳实践

又有中国公司被列入实体清单！

大厂自研白盒交换机：是技术控的倔强，还是钱包君的呼救？

突发！英伟达被立案调查！

十年“变形记”，AMD 如何从英特尔的“平替”发展成强劲对手？

GPU 与 LPU：哪个更适合 AI 工作负载？

P4助力全调度以太网技术（GSE）创新与实践

揭秘 AWS 10p10u 最新网络架构！

2024年全国行业职业技能竞赛-第五届全国电信和互联网行业信息化系统管理员S（云网智能运维与优化方向）全国总决赛在宁圆满落幕

算网融合技术与产业白皮书（附下载！）

英特尔 CEO 帕特·基辛格宣布辞职

美国将136家中国实体列入实体清单（附完整名单）

传140家中国半导体公司被美列入实体清单！

写给小白的大模型入门科普

UEC 和 UAL 应该合并吗？

IDC ：未来 5 年 AI 基础设施支出将超 1000 亿美元

为什么 MPLS 仍是以太网传输技术的首选？

聊一聊算力调度

深度用云——释放企业潜能｜网络先行——云网络卓越架构设计

深度用云——释放企业潜能｜阿里云原生网络AIOps，助力企业深度用好云

阿里云孙成浩：简单易用的智能云网络，让客户专注业务创新

第七届SD-WAN & SASE大会专访——泰信天成刘昱：专注于SD-AIIT，NG-WAN融合算网，让AI为网络所用

从UALink近期发展再看GPU Scale Up的互连方向

天翼云领跑边缘安全加速赛道，斩获品牌、产品创新双料大奖!

狂飙！英伟达营收暴涨 94%！

第一线总经理陈姵妏：构建AI原生可信计算空间助企业加速驰骋智慧浪潮

微软“芯”力全开，首款自研DPU 曝光！

首颗全调度以太网（GSE）DPU芯片发布，中国智算网络发展的又一个里程碑

AI 浪潮下思科“翻船”？网络业务大幅下滑23%！

6G网络内生AI技术白皮书（附下载）

第七届SD-WAN & SASE大会暨云网络大会盛大召开！

倒计时 1 天！丨第七届SD-WAN & SASE大会暨云网络大会报名即将截止

智算网络集群的下一步？Scale-up与Scale-out融合架构成关键

倒计时 3 天！丨第七届SD-WAN & SASE大会暨云网络大会报名即将截止

Arista 财报：AI 后端网络“内卷”成功，前端网络“压力山大”！

参会指南丨第七届SD-WAN & SASE大会暨云网络大会报名倒计时

曝台积电7nm芯片将停供中国大陆！

从云计算技术发展路径看三十年市场用云需求变迁

园区全光网络技术路线：融合才是最优解

我国算力中心大盘点

2024年 SD-WAN & SASE 厂商大盘点!

美政府拟推动英特尔芯片设计业务与AMD或Marvell合并？

AI大模型智算集群高性能网络优化路在何方？

议程发布丨第七届SD-WAN & SASE大会暨云网络大会诚邀您参会

AMD 还需要多久才能超越 Nvidia？

超大规模下的以太网RDMA的局限与展望

一个数据包究竟有多大？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉