01.
数据中心对低延迟和高CPU效率的需求促使RDMA成为云服务提供商的首选解决方案。尽管RDMA已被广泛集成于多种应用,但在以太网为基础的网络中部署RoCEv2时,确保RDMA网络性能满足预期至关重要,以避免性能异常如低吞吐量和暂停帧风暴,这些异常可能导致数据中心网络死锁。尽管供应商对单个设备进行了严格测试,RDMA子系统(包括RNIC和服务器硬件)仍存在异常,主要源于RNIC与其他硬件的交互问题。由于供应商无法访问定制硬件和系统配置,且异常对网络可靠性影响重大,自行进行集成测试是必要的。目前,有两种方法对整个子系统进行测试。第一种方法是运行简单的测试基准(例如,Perftest)进行基本的吞吐量和延迟测试。第二种方法是运行一组代表性的RDMA应用程序。不幸的是,这两种方法都无法全面揭示RDMA子系统的异常。根本问题是这些方法仅测试简单或现有的工作负载。因此,它们无法全面捕捉异常,因为实际的应用工作负载会随时间变化。此外,即使通过应用程序工作负载发现了异常,应用程序开发者也不知道如何修改工作负载以避免异常。
图 1: Collie系统架构图
02.
图 2: Collie发现的RDMA性能异常
03.