智能无损网络是一系列网络技术的集合,它一方面通过流量控制技术和拥塞控制技术来提升网络整体的吞吐量,降低网络时延,另一方面通过智能无损存储网络等技术实现网络和应用系统融合优化。智能无损网络技术为AI人工智能、集中式/分布式存储、HPC(High Performance Computing,高性能计算)等应用场景提供的“无丢包、低时延、高吞吐”网络环境,用于加速计算和存储的效率,为数据中心构建统一融合的网络。
为什么需要智能无损网络?
RDMA技术在数据中心网络中面临的问题
随着数据中心技术与承载业务的发展变化,传统网络的劣势在逐渐放大。高性能计算、AI人工智能、分布式存储等新业务的发展对数据中心的网络提出了新的要求,而传统的基于TCP/IP协议栈的网络通信由于在数据拷贝等关键环节资源消耗较大并且时延过高,已无法满足要求,使得数据中心网络技术不得不迎来变革。RDMA(Remote Direct Memory Access,远程直接内存访问)是一种高速网络互联技术,该技术主要设计目的是减少在数据传输过程中收发端的处理延迟以及资源消耗。RDMA技术使计算机能够直接访问远程计算机的内存,在内存层面进行数据传输而无需CPU频繁介入,从而显著增强网络通信性能。当前分布式存储、HPC高性能计算、AI人工智能等场景均采用RoCEv2(RDMA over Converged Ethernet version 2)作为以太网上的传输协议来降低传输时延和CPU负担。相较于传统TCP/IP通信,RDMA既减少了数据传输过程对资源的占用,也降低了数据的处理时延。但是RoCEv2是一种基于无连接的UDP协议,缺乏完善的丢包保护机制,对于网络丢包异常敏感。同时,分布式高性能应用是多对一通信的Incast流量模型,对于以太网的设备,Incast流量易造成设备内部队列缓存的瞬时突发拥塞甚至丢包,带来时延的增加和吞吐的下降,从而损害分布式应用的性能。所以为了发挥出RDMA的真正性能,突破数据中心大规模分布式系统的网络性能瓶颈,势必要为RDMA搭建一套“无丢包、低时延、高吞吐”的无损网络环境。智能无损网络的优势
智能无损网络通过流量控制技术、拥塞控制技术、流量调度技术和应用融合技术弥补了RDMA的技术痛点,降低网络时延,提升网络吞吐量,实现了零丢包,全方位的提升了网络的应用能力。•无丢包:通过流量控制技术和拥塞控制技术,提升网络整体的吞吐量,降低网络时延,从而实现无丢包的网络环境。•低时延:通过优化网络架构和应用系统融合优化等技术,减少数据传输的延迟,提供低时延的网络环境。•高吞吐:通过流量控制技术和拥塞控制技术,提升网络整体的吞吐量,加速计算和存储的效率,提供高吞吐的网络环境。•支持智能无损存储网络:智能无损网络提供了iNOF(智能无损存储网络)功能,通过对iNOF主机的快速管控,提升存储网络的易用性,实现以太网和存储网络的融合。•支持多种应用场景:通过硬件架构、智能无损算法和一系列的网络技术,为AI人工智能、集中式/分布式存储、高性能计算等应用场景提供统一融合的网络环境,加速计算和存储的效率。智能无损网络包含哪些关键技术?
流量控制技术
流量控制则是一种用于控制数据发送速率的技术,主要目的是防止发送端发送数据的速率超过接收端的处理能力。如果发送端发送数据的速率过快,接收端的缓冲区可能会被占满,导致数据包的丢失。流量控制技术是构建智能无损网络的必要条件。在网络通信中,流量控制用于解决以太网流量传输过程中的丢包问题。•PFC(Priority-based Flow Control,基于优先级的流量控制):逐跳提供基于优先级的流量控制,防止由于拥塞导致的丢包,提升网络的可靠性。•PFC死锁检测:定期检测设备的PFC死锁状态,解决报文无法正常转发的问题。•PFC死锁预防:识别易造成PFC死锁的业务流,修改队列优先级,从而预防PFC死锁的发生。拥塞控制技术
拥塞控制是智能无损网络中的一种关键技术,主要用于避免或减轻网络拥塞。当网络中的数据流量过大,超过了网络设备的处理能力,就会导致网络拥塞,从而引发数据包的延迟或丢失。在网络通信中,拥塞控制的主要目标是防止网络拥塞的发生,或者当拥塞发生时,能够尽快地恢复网络的正常运行。•ECN(Explicit Congestion Notification,显式拥塞通知):拥塞通知技术,ECN功能利用IP报文头中的DS域来标记报文传输路径上的拥塞状态。支持该功能的终端设备可以通过报文中的ECN标记判断出传输路径上是否发生了拥塞,从而调整报文的发送方式,避免拥塞加剧。•ECN Overlay:将ECN功能应用到VXLAN网络中,ECN域标识信息可以在Underlay和Overlay网络中正常传递和识别,使Overlay网络中发生的拥塞也可以被报文接收端感知并降低发送速率。•AI ECN:基于AI人工智能的网络拥塞控制技术,AI ECN会对网络的状态进行实时监控,收集各种网络参数,对当前流程特征进行判断,从而计算出ECN门限的最优值,实现对网络拥塞的精确预测和高效控制。•IPCC(Intelligent Proactive Congestion Control,智能主动拥塞控制):一种以网络设备为核心的主动拥塞控制技术,可以根据设备端口的拥塞状态,准确控制服务器发送RoCEv2报文的速率。IPCC功能在ECN功能基础上进行改进,使转发设备具备发送拥塞通知报文的能力,IPCC功能仅对RoCEv2报文生效。•大小流区分调度:一种网络流量的管理技术,他可以区分不同大小的数据流并进行优化调度,可以有效地提高网络的性能和效率,优化网络资源的使用,提高用户体验。流量调度技术
动态负载分担:在转发数据报文时,根据流量大小、链路情况,和负载分担链路中各成员链路负载轻重情况,来动态选择合适的链路,使得流量分担更均匀,尽量避免出现某个链路负载过重带来过大的队列时延或丢包。存储网络技术
iNOF(Intelligent Lossless NVMe Over Fabric,智能无损存储网络):一种以太网和存储网络的融合优化技术。它能实现海量存储设备的自动发现,网络故障的快速感知,并将存储设备的加入和离开第一时间通知给智能无损网络内的所有设备。智能无损网络中的各项技术如何工作?
PFC
如图3所示,PFC将发送端Device A的接口分为了8个优先级队列,接收端Device B的接口分为8个接收队列,每个队列有一个优先等级,当Device B上某个优先等级的队列缓存空间占满时,会发送一个反压信号(PFC PAUSE帧),Device A将停止发送对应优先级的流量,实现了传输的零丢包。多级设备通信如图4所示,当Device B的接口上某个队列超过缓存门限时,Device B会向各报文来源设备发送反压信号。当上游设备未达到缓存门限时,则不进行动作,如Device E;当上游设备也达到缓存门限时,则继续向更上游设备发送反压信号,如Device A。如此一级一级的发送反压信号,直到抵达网络终端设备,从而消除网络节点因拥塞造成的丢包。图4 多级设备之间的PFC PAUSE帧处理示意图ECN
ECN是一种拥塞通知技术,利用IP报文头中的DS域来标记报文传输路径上的拥塞状态。DS域的最后两个比特位为ECN域。(1) 发送端设置ECN域为10,告知路径上的设备及接收端,发送端设备支持ECN功能。(2) 中间设备发生拥塞并达到门限,拥塞设备将发生拥塞的报文ECN域设置为11,报文正常转发。(3) 接收端收到ECN置位为11的报文,由传输层发送CNP(Congestion Notification Packet,拥塞通知报文)通知发送端。(4) 发送端收到CNP报文,对对应的优先级的队列进行降速处理。(5) 经过一段可配置的时间或者发送一定数量数据,发送端恢复原来的速率。AI ECN
设备内的转发芯片会对当前流量的特征进行采集,比如队列缓存占用率,流量吞吐率,当前大小流占比等特征数据,然后将网络流量实时信息传递给AI业务组件。AI业务组件收到推送的流量状态信息后,将智能的对当前的流量特征进行判断,推算出最优的ECN门限。IPCC
ECN功能提供的拥塞控制机制,是在转发设备上发现拥塞后,转发设备向接收端发送携带拥塞标记的报文,接收端随后向发送端发送拥塞通知报文,以通知发送端服务器降低发送报文的速率。IPCC功能是在ECN功能基础上进行改进,使转发设备直接具备发送拥塞通知报文的能力,无需再通过接收端去发送拥塞通知报文,在网络规模较大时,可以大大提升响应的及时率和准确率。IPCC功能仅对RoCEv2报文生效。(1) 转发设备上启用了IPCC功能的接口会对经过的RoCEv2数据报文进行复制并上送设备CPU处理:a. 首先根据RoCEv2的数据报文中的源IP地址、目的IP地址和目的QP信息建立RoCEv2流表。b. 再根据RoCEv2数据报文将流表与设备的转发接口关联。通过上述步骤持续维护RoCEv2流表,就可以获知每条RoCEv2流的地址信息和转发路径。(2) 转发设备对接口中启用了IPCC功能的队列的队列长度进行检测,根据队列的拥塞状态智能计算主动发送的拥塞通知报文数量:- 当队列长度增加时:如果此时队列缓存占用率较少,需要发送少量拥塞通知报文;如果此时队列缓存占用率较多,需要发送较多的拥塞通知报文,快速缓解队列拥塞,降低转发时延。
- 当队列长度减少时:如果此时队列缓存占用率较少,无需发送拥塞通知报文,防止降速造成吞吐下降;如果此时队列缓存占用率较多,需要发送少量拥塞通知报文,在尽量保证吞吐和时延性能的情况下缓解队列拥塞。
(3) 转发设备按照计算出的报文数目和RoCEv2流表中的地址信息构造拥塞通知报文,并向发送端主动发送拥塞通知报文,发送端收到拥塞通知报文后降低RoCEv2报文的发送速率。IPCC功能避免了ECN功能响应慢的问题,通过计算控制拥塞通知报文的发送数量,达到快速准确缓解网络拥塞的效果。大小流区分调度
网络中充斥着各种各样的流量,我们可以简单的将其分为大流和小流。大流占网络流总数的10%左右,但其承载了网络总数据量的85%,具有尺寸大、占用带宽大、数量较少的特点,但是对时延要求较低,例如视频下载流量。小流的特点是尺寸小、占用带宽小,但是对时延要求较高,希望能得到快速响应,例如查询流量。在无损网络中我们希望将大小流区分调度,以满足小流的延迟需求和大流的吞吐率需求。(1) 网络管理员配置大流识别参数(流速和尺寸),设备根据识别参数将网络流量中的大流识别出来;(2) 网络管理员为大流指定丢弃优先级、本地优先级或dot1q优先级,设备根据本地优先级或者dot1q优先级将识别出来的大流映射到特定的队列中,与其他非大流区分调度。一旦发生拥塞,设备也可以根据配置的丢弃优先级,优先丢弃大流报文,以保证小流的低延迟体验。iNOF能实现海量存储设备的自动发现,网络故障的快速感知,并将存储设备的加入和离开第一时间通知给智能无损网络内的所有设备,可以使智能无损网络能够更好的应用到存储系统。•iNOF主机:支持iNOF协议的网络服务器和磁盘设备,以下简称主机。•iNOF客户机:用于连接主机和iNOF反射器,各客户机之间不建议连接。•iNOF反射器:用于连接主机和各iNOF客户机,不跨交换机组网时可不配置。•iNOF域(Zone):iNOF使用域来管理主机。当域内有主机加入或者离开,iNOF会将这个主机的加入和离开信息通知给同一域内的其它主机,以便其它主机能够感知同一域内任一主机的加入或者离开。自定义iNOF域:用户根据组网需求手工创建的iNOF域,需要手工向其中添加主机。缺省iNOF域:设备出厂即存在的iNOF域,无需用户创建,不能删除。对于未加入自定义iNOF域的主机,用户可以选择是否自动让它加入缺省iNOF域。(1) 主机(磁盘设备)将接入或离开信息以LLDP报文形式发送给相连的iNOF客户机Device A;(2) 客户机Device A收到信息后会向同一iNOF域(Zone 1)中的主机(服务器)发送通知报文,同时向反射器发送iNOF报文,将信息同步给Device B;(3) iNOF反射器Device B收到信息后,以iNOF报文形式将信息同步给与之相连的其他客户机(Device D)和反射器(Device C);(4) 其他客户机(Device D)收到信息后向同一iNOF域(Zone 1)中的主机发送通知报文。(5) 各主机回应ACK报文,表示已获取到主机信息的变化。(6) 最终网络中的所有设备均会获得最新的主机信息,以此快速识别网络故障,为智能无损网络提供支持。智能无损网络的应用场景有哪些?
集中式存储场景
集中式存储是将所有的数据集中存储在一个或者一组存储设备上,这些设备通常位于同一地理位置。用户和应用程序通过网络连接到这些存储设备,进行数据的读写。集中式存储具备数据安全性高、集中管理、高性能和成本低等特点。智能无损网络可以通过智能无损存储网络技术(iNOF)来实现以太网和存储网络的融合,对服务器和存储设备之间的大量数据传输进行优化,实现:•即插即用:主机能迅速发现新加入的主机,并自动和新主机建立连接,迅速实现存储业务的部署。•故障感知:iNOF交换机能够快速检测到故障,并将故障状态信息同步给网络中的其他iNOF交换机。•高可用性:提供统一融合的网络环境,加速计算和存储的效率。分布式存储场景
集中式存储的优点是管理方便,数据一致性容易保证,但它也存在明显的缺点,例如单点故障风险、可扩展性差、性能瓶颈和数据迁移困难等,无法满足大规模存储应用的需要。而分布式存储是将数据分散存储在多个物理设备上,这些设备可以分布在不同的地理位置。通过网络将这些设备连接起来,形成一个统一的存储系统。用户和应用程序可以通过网络访问这个分布式存储系统,就像访问一个本地存储设备一样,不仅提高了系统的可靠性、可用性和存取效率,还易于扩展。智能无损网络为其提供了“无丢包、低时延、高吞吐”的网络环境,实现了数据的高速稳定传输。HPC高性能计算场景
HPC(High Performance Computing,高性能计算)是利用计算机或者并行处理技术,对复杂的计算问题进行大规模计算和高速处理的计算方式。在HPC场景中,计算任务通常会被切分为多个子任务,分布在多个计算节点上并行处理。因此,高速的网络连接和数据传输在HPC应用中至关重要。通过优化资源的使用和分配,智能无损网络可以实现网络资源的高效利用,与对网络设备融合优化,提高网络计算性能,从而降低计算任务的完成时间。AI人工智能场景
AI人工智能目标是让计算机系统通过学习数据,自动改进算法和模型,从而实现特定的任务,如分类、预测、推荐等。在AI人工智能学习中,数据是非常重要的,通过大量的训练数据,计算机系统可以学习到数据中的模式和规律,从而建立预测模型,对新的、未见过的数据进行预测或分类。这种通过从数据中学习的方式,使得AI人工智能系统能够处理复杂的、需要人类智能才能解决的问题。随着深度学习等AI技术的快速发展,越来越多的AI应用要求处理大量的数据和复杂数学模型,多点分布的AI集群进行统一的AI训练对网络性能和效率提出了极高的要求。智能无损网络提供了很好的解决方案,在AI人工智能场景中发挥着重要的作用。下载链接:
中国交换机行业短报告
交换机:算力基座迎来新机遇(2023)
NVMe over RoCEv2 网络优化技术要求和测试规范
云计算研究报告
RDMA技术原理白皮书
NVMe存储基于SPDK加速I/O性能
RDMA技术专题汇总(1)
RDMA技术专题汇总(2)
RDMA技术专题汇总(3)
RDMA技术专题汇总(4)
RDMA技术专题汇总(5)
1、面向分布式AI智能网卡低延迟Fabric技术.pdf
2、RDMA参数选择.pdf
3、RDMA技术白皮书(中文版).pdf
4、RDMA技术在数据中心中的应用研究.pdf
5、华为面向AI时代的智能无损数据中心网络.pdf
《数据中心前沿网络技术合集(1)》
1、超融合数据中心网络智能运维方案.pdf
2、IPv6+系列电子书确定性IP网络.pdf
3、NoF+存储网络解决方案.pdf
4、超融合数据中心网络.pdf"
《数据中心前沿网络技术合集(2)》
1、运营商智能云网解决方案.pdf
2、华为云园区网络生态合作白皮书.pdf
3、华为云园区网络智能运维技术白皮书.pdf
4、华为云园区网络自动化技术白皮书.pdf
RDMA技术原理白皮书
NVMe存储基于SPDK加速I/O性能
《华为:迈向智能世界白皮书2023版(合集)》
1、迈向智能世界白皮书2023版(计算)
2、迈向智能世界白皮书2023版(云计算)
3、迈向智能世界白皮书2023版(数字金融)
4、迈向智能世界白皮书2023版(数据通信)
5、迈向智能世界白皮书2023版(数据存储)
本号资料全部上传至知识星球,更多内容请登录全栈云技术知识星球下载全部资料。‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ END ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。
温馨提示:搜索关注“全栈云技术架构”微信公众号,“扫码”或点击“阅读原文”进入知识星球获取10000+份技术资料。