全闪存时代背景下,传统的FC(Fibre Channel,网状通道)存储网络已经无法满足全闪存数据中心的要求,NVMe(Non-Volatile Memory express,非易失性内存主机控制器接口规范)存储协议的出现极大提升了存储系统内部的存储吞吐性能、降低了传输时延,NoF(NVMe over Fabric)存储网络应运而生。
相关阅读参考“NVMe over Fabric网络技术介绍”、“NVMe over Fabric存储网络技术分析”、“深入剖析NVMe Over Fabrics”、“NVMe over RoCEv2网络技术要求和测试规范”、“NVMe over Fabric协议和I/O流程”、“NVMe Over Fabrics架构概述”、“NVMe over Fabric诞生记——RDMA篇”、“一文浅析NVMe over Fabric技术发展简史”等。
下载链接:
5、面向未来重新定义液冷
1、面向分布式AI智能网卡低延迟Fabric技术.pdf
2、RDMA参数选择.pdf
3、RDMA技术白皮书(中文版).pdf
4、RDMA技术在数据中心中的应用研究.pdf
5、华为面向AI时代的智能无损数据中心网络.pdf
从而产生了NVMe over FC、NVMe over TCP、NVMe over RDMA等不同的技术路线。在多种Fabric技术中,NVMe over RoCE(RDMA over Converged Ethernet)被广大存储厂商所接受,成为业界NoF的主流。
为什么需要NoF+?
随着智能时代的到来,各种业务对海量数据的存储和读写需求,催生了新的存储介质(SSD)和存储协议(NVMe),存储性能提升了百倍。存储节点不是独立存在的,多个存储节点之间通过存储网络互连。存储性能提升后,需要一个更快、更高质量的存储网络与之匹配,这张网络就是NVMe over Fabric,即NoF。
NoF将NVMe协议应用到服务器主机前端,作为存储阵列与前端主机连接的通道,可端到端取代SAN网络中的SCSI协议,构建全以太的存储SAN网络,如图1-2所示。
NoF的产生背景
NVMe over Fabric中的“Fabric”,是NVMe的承载网络,这个网络可以是RoCE、FC或TCP。
NVMe over FC协议标准为FC-NVMe,FC-NVMe和FC-SCSI同样都基于FCP,IO交互基于Exchange。FC-NVMe基于传统的FC网络,通过升级主机驱动和交换机支持,FC-SCSI和FC-NVMe能同时运行在同一个FC网络中。FC-NVMe能最大化继承传统的FC网络,复用网络基础设施,基于FC物理网络发挥NVMe新协议的优势。
NVMe over TCP基于现有的IP网络,采用TCP协议传输NVMe,在网络基础设施不变的情况下实现了端到端NVMe。虽然NVME over TCP网络性能弱于FC和RoCE,但整体性能通过NVMe得到提升,对比iSCSI仍有大幅度的提升。而且NVME over TCP对网络的要求比较低,具有更强大的兼容性,不需要单独建设无损网络,传统以太网即可支持,因此在不追求高性能的情况下,NVMe over TCP将是未来市场的普遍选择。
NVMe over RoCE是NVMe over RDMA的一种,RDMA是承载NoF的原生网络协议,RDMA协议除了RoCE外还包括IB(InfiniBand)和iWARP(Internet Wide Area RDMA Protocol)。其中,基于以太网的RoCE目前已成为RDMA的主流网络承载方式。NVMe over RDMA协议比较简单,直接把NVMe的IO队列映射到RDMA QP(Queue Pair)连接,通过RDMA SEND,RDMA WRITE,RDMA READ三个语义实现IO交互。NVMe over RoCE基于融合以太网的RDMA技术承载NVMe协议。
三种方案相比较,基于以太网的RoCE比FC性能更高(更高的带宽、更低的时延),同时兼具TCP的优势(全以太化、全IP化),因此NVMe over RoCE是NoF最优的承载网络方案,也已成为业界NoF的主流技术。
基于以太网的RoCE在存储性能、带宽方面比FC有显著优势,但替换FC、联接全闪存,标准的NoF(NVMe over RoCE)还需在3个方面加强完善:
网络性能:零丢包
网络零丢包是存储网络的基本需求,传统以太网络拥塞易丢包。
可靠性:秒级主备切换
存储为了可靠性,会构建多个网络平面,切换时间需<1s。
易用性:即插即用
FC存储网络场景单一、配置简单,当前以太网络还需针对存储场景适应性改进。
NoF+与NoF比有哪些优势?
基于当下业界主流的标准NoF方案,华为依靠在网络和存储领域的深厚积累,进一步从网络性能、可靠性和易用性这三点都进行提升,基于智能无损网络面向集中式存储场景提出了NoF+解决方案,将数据中心存储网络进一步推向更广阔的发展空间。
网络性能增强:
华为NoF+方案改变了传统以太网静态水线方式,对网络预测性能力进行专项优化,通过样本计算,针对特定场景,基于独创的iLossless智能无损算法进行精准的控制,从而预判业务对网络的诉求,实时感知网络流量模型,动态调整水线,可实现存储网络高吞吐下的零丢包,进一步提升性能。
可靠性增强:
保障业务系统可靠是存储的根基,比如存储的秒级切换功能就是可靠性的关键保障之一,传统以太网缺乏故障主动发现和通知机制,发生故障时链路切换时间长,造成存储业务中断。华为NoF+方案推出智能感知特性,实现了从事后被动响应到主动通知、提前识别拥塞和故障。当一个节点出现故障,业务会以亚秒级响应速度切换,在高性能运行的前提下,也能维持系统的稳定可靠。
易用性增强:
存储场景下传统以太网需要逐点手工配置,操作复杂且易出错。华为NoF+方案实现存储和交换机的智能联动,支持存储设备的即插即用和一键式扩容。业务变更只需在单点配置,即可自动同步到全网,业务发放效率显著提升,增强了在未来建设时的易用性。
华为NoF+方案是业界唯一零丢包的以太网,基于全闪存数据中心和超融合以太网络,通过最新一代OceanStor Dorado全闪存存储系统和CloudEngine数据中心存储网络交换机的联合创新,针对传统专用存储网络,在性能、可靠性、易用性上均实现了颠覆性改进,是全闪存时代存储网络的的最佳选择。
NoF+的网络架构
在数据中心常规组网里面,存储网络只是其中的一部分,集中式存储是一个独立的网络,与业务网络在物理上隔离,如图1-3所示。
数据中心集中式存储网络架构图
业务网络:是指业务服务器对外提供服务通信网络,该网络与外部网络互连互通。
计算网络:是指运行OLTP/OLAP(Online Transaction Processing/Online Analytical Processing)数据库的后台服务计算节点所组成的物理网络,使用不同的网卡连接业务网络和存储网络,实现业务网络和存储网络之间物理隔离,避免相互影响。
存储网络:是指计算服务器访问存储数据时使用通信网络,该网络一般是独立的物理网络。为了保证数据高可靠,存储网络支持DC级容灾,支持同城双活存储网络,确保业务系统发生设备故障、甚至单数据中心故障时,业务无感知自动切换,实现RPO(Recovery Point Objective)=0,RTO(Recovery Time Objective)≈0。
数据中心为了容灾考虑,需要实现多数据中心互通。同城两个数据中心互为备份,且都处于运行状态。当一个数据中心发生设备故障,甚至数据中心整体故障时,业务自动切换到另一个数据中心,解决了传统灾备中心不能承载业务和业务无法自动切换的问题。提供给用户高级别的数据可靠性以及业务连续性的同时,提高存储系统的资源利用率。
在集中式存储下,DC间同城互联的一般组网如图1-4所示。为了实现同城读写支持NVME over RoCE,需要实现同城无损网络,即需要一套跨DC的无损网络,每个DC部署两台支持智能长距无损的DCI Leaf,中间通过波分设备或者裸光纤直连实现双平面,实现端到端的RoCE无损网络。
DC间同城互联一般组网示意图
NoF+的关键技术
流量控制
流量控制是端到端的,需要做的是抑制发送端的发送速率,以便接收端来得及接收,防止设备端口在拥塞的情况下出现丢包。华为提供了PFC死锁检测和死锁预防,提前预防PFC死锁的发生。
PFC(Priority-based Flow Control,基于优先级的流量控制):是目前应用最广泛的流量控制技术。对于PFC控制的队列,当队列在下游设备发生拥塞时,上游设备会停止发送该队列的流量,从而实现报文的零丢包传输。
PFC死锁检测:通过对PFC死锁进行全程监控,当死锁检测周期内持续收到PFC反压帧时,设备可以通过不响应反压帧的方式去解除PFC死锁现象。
PFC死锁预防:通过识别易造成PFC死锁的业务流,修改队列优先级,改变PFC反压的路径,避免PFC反压帧形成环路,从而预防PFC死锁的发生。
拥塞控制
拥塞控制是指对进入网络的数据总量进行控制,使网络流量保持在可接受水平的一种控制方法。拥塞控制与流量控制的区别在于,流量控制作用于接收者,而拥塞控制作用于网络,往往需要转发设备、流量发送端、流量接收端协同作用,并结合网络中的拥塞反馈机制来调节整网流量才能起到缓解拥塞、解除拥塞的效果。
ECN(Explicit Congestion Notification,显式拥塞通知):是指流量接收端感知到网络上发生拥塞后,通过协议报文通知流量发送端,使得流量发送端降低报文的发送速率,从而从早期避免拥塞而导致的丢包,实现网络性能的最大利用。
AI ECN(Artificial Intelligence Explicit Congestion Notification):是指通过iLossless智能无损算法,根据现网流量模型进行AI训练,以对网络流量变化进行预测,及时推理出最优的ECN门限,并且支持根据现网流量变化实时调整ECN门限,进行无损队列缓存的精确管控,保障整网的最优性能。同时,AI ECN功能与队列调度技术配合使用时,可以实现网络中TCP流量与RoCEv2流量的混合调度,保障RoCEv2流量无损传输的同时实现低时延和高吞吐,让无损业务达到最优性能。
NPCC(Network-based Proactive Congestion Control):是一种以网络设备为核心的主动拥塞控制技术,可以在网络设备上智能识别设备端口的拥塞状态,主动发送CNP(Congestion Notification Packets,拥塞通知报文)报文,准确控制服务器发送RoCEv2报文的速率,既可以确保拥塞时的及时降速,又可以避免拥塞已经缓解时的过度降速,最终确保数据中心互联这种长距场景中RoCEv2业务的低时延和高吞吐。
iNOF
iNOF(Intelligent Lossless NVMe Over Fabric,智能无损存储网络)是指通过对接入主机的快速管控,将智能无损网络应用到存储系统,实现计算和存储网络融合的技术。
存储系统为了存储大量的数据,往往需要管理数量庞大的主机,并且存在新主机陆续接入网络设备的情况。为了让智能无损网络技术更好的服务于存储系统,提出了iNOF技术,通过对接入主机的快速管控,可以第一时间获知新接入的主机,智能的调整智能无损网络的相关配置,并且iNOF技术支持将主机信息通告给存储系统,可以协助存储系统管理主机。
iNOF技术与OceanStor Dorado存储的SNSD(Storage Network Smart Discovery,存储网络智能发现)特性联动,支持即插即用,一键安装建链,简单高效。SNSD开关开启后,主机会感知到该RoCE端口下所有逻辑端口的状态变化,帮助主机根据逻辑端口状态去判断是否自动建立或断开连接。
来源:什么是NoF+?为什么需要NoF+?
1、服务器及存储用液冷部件技术规范 第1部分:冷板 2、服务器及存储用液冷部件技术规范 第2部分:连接系统 3、服务器及存储用液冷部件技术规范 第3部分:冷量分配单元 4、服务器及存储用液冷部件技术规范 第4部分:监控系统
本号资料全部上传至知识星球,更多内容请登录全栈云技术知识星球下载全部资料。
‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ END ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。
温馨提示:搜索关注“全栈云技术架构”微信公众号,“扫码”或点击“阅读原文”进入知识星球获取10000+份技术资料。