港科大 iSING Lab 提出一种数据中心无损网络负载均衡机制获得 ICNP'23 最佳论文奖

文摘   科技   2023-10-18 10:35   广东  


 


关于 ICNP



IEEE International Conference on Network Protocols (ICNP)是涵盖网络协议研究各个方面的国际会议,已于2023年10月11日至13日在冰岛雷克雅未克召开。本次会议中,香港科大智能网络与系统实验室iSING Lab的一篇论文获得最佳论文奖,题目为:Enabling Load Balancing for Lossless Datacenters,作者:Jinbin Hu, Chaoliang Zeng, Zilong Wang, Junxue Zhang, Kun Guo, Hong Xu, Jiawei Huang, Kai Chen




论文简介



近十年来,数据中心网络中各种负载均衡方案被提出来以充分利用等价多路径带宽。然而,这些负载均衡机制在部署了优先级流控(PFC)的数据中心无损网络中不能很好的工作。本文第一次相对系统地揭示其原因是这些机制单独所用的拥塞信号如链路利用率、RTT和ECN、队列长度等不能正确或及时的反应逐跳PFC暂停。

具体来说,1)链路利用率不能正确反应PFC暂停,发生PFC 暂停的低链路利用率路径有可能被误认为是无拥塞的好路径;2)端到端的RTT、ECN信号不能及时反应PFC 暂停,因其至少有一个RTT的反馈回路,PFC 暂停恢复后的大延时路径可能被误认为是仍有拥塞的坏路径;3)本地队列长度不能感知路径上下游交换机的PFC暂停,本地小队列长度的出端口路径并不一定是好路径。

为此,港科大iSING Lab提出一种数据中心无损网络负载均衡机制,称为Proteus。Proteus利用RTT-level信号(RTT和链路利用率)探测路径拥塞状态,将路径分为无拥塞路径、不确定路径和拥塞路径3种状态。Proteus按此3种路径的优先级顺序选择初始转发路径。同时,Proteus利用sub-RTT level信号(累计逗留时间CST,即数据包在路径多个交换机上的累计排队延时)及时反应PFC 暂停,且基于better-late-than-never思想做重路由决策。以这种方式,如果数据包所在路径遇到了PFC 暂停,每个数据包仍然有机会根据累计逗留时间决定是否重路由,即只有当累计逗留时间大于可接受的路径延时时,才重新选择路径。实验表明Proteus在数据中心典型工作负载下能有效处理PFC暂停并可以带来22%-35%的延时性能提升。




近年来,港科大iSING Lab一直关注如何提升数据中心RDMA网络的传输性能,通过软硬件结合和端网协同设计等充分发挥智能网卡和可编程交换机硬件功能,提高数据中心应用的整体性能。Proteus是iSING Lab继SRNIC(USENIX NSDI 2023)之后,在RDMA网络方向发表的又一篇主要论文,实验室将继续探索如何更好地构建低延时和高吞吐率的网络传输系统。


iSING Lab
香港科技大学网络与系统实验室(iSING Lab)专注于数据中心网络和机器学习系统的研究和创新。