干货:什么是NoF和NoF+?

科技   2024-11-19 08:23   四川  

全闪存时代背景下,传统的FC(Fibre Channel,网状通道)存储网络已经无法满足全闪存数据中心的要求,NVMe(Non-Volatile Memory express,非易失性内存主机控制器接口规范)存储协议的出现极大提升了存储系统内部的存储吞吐性能、降低了传输时延,NoF(NVMe over Fabric)存储网络应运而生。

相关阅读参考NVMe over Fabric网络技术介绍”、“NVMe over Fabric存储网络技术分析”、“深入剖析NVMe Over Fabrics”、“NVMe over RoCEv2网络技术要求和测试规范”、“NVMe over Fabric协议和I/O流程”、“NVMe Over Fabrics架构概述”、“NVMe over Fabric诞生记——RDMA篇”、“一文浅析NVMe over Fabric技术发展简史等。

下载链接:

分布式智算中心无损网络技术白皮书

《数据中心液冷技术合集》
1、数据中心液冷解决方案
2、浸没式液冷发展迅速,“巨芯冷却液”实现国产突破
3、液冷需求白皮书
4、液冷构建绿色HPC

5、面向未来重新定义液冷

RDMA技术专题汇总(1)

RDMA技术专题汇总(2)

RDMA技术专题汇总(3)

RDMA技术专题汇总(4)

RDMA技术专题汇总(5)

1、面向分布式AI智能网卡低延迟Fabric技术.pdf

2、RDMA参数选择.pdf

3、RDMA技术白皮书(中文版).pdf

4、RDMA技术在数据中心中的应用研究.pdf

5、华为面向AI时代的智能无损数据中心网络.pdf

《数据中心前沿网络技术合集(1)》

《数据中心前沿网络技术合集(2)》

从而产生了NVMe over FC、NVMe over TCP、NVMe over RDMA等不同的技术路线。在多种Fabric技术中,NVMe over RoCE(RDMA over Converged Ethernet)被广大存储厂商所接受,成为业界NoF的主流。

为什么需要NoF+?

随着智能时代的到来,各种业务对海量数据的存储和读写需求,催生了新的存储介质(SSD)和存储协议(NVMe),存储性能提升了百倍。存储节点不是独立存在的,多个存储节点之间通过存储网络互连。存储性能提升后,需要一个更快、更高质量的存储网络与之匹配,这张网络就是NVMe over Fabric,即NoF。

NoF将NVMe协议应用到服务器主机前端,作为存储阵列与前端主机连接的通道,可端到端取代SAN网络中的SCSI协议,构建全以太的存储SAN网络,如图1-2所示。


NoF的产生背景

NVMe over Fabric中的“Fabric”,是NVMe的承载网络,这个网络可以是RoCE、FC或TCP。

  • NVMe over FC协议标准为FC-NVMe,FC-NVMe和FC-SCSI同样都基于FCP,IO交互基于Exchange。FC-NVMe基于传统的FC网络,通过升级主机驱动和交换机支持,FC-SCSI和FC-NVMe能同时运行在同一个FC网络中。FC-NVMe能最大化继承传统的FC网络,复用网络基础设施,基于FC物理网络发挥NVMe新协议的优势。

  • NVMe over TCP基于现有的IP网络,采用TCP协议传输NVMe,在网络基础设施不变的情况下实现了端到端NVMe。虽然NVME over TCP网络性能弱于FC和RoCE,但整体性能通过NVMe得到提升,对比iSCSI仍有大幅度的提升。而且NVME over TCP对网络的要求比较低,具有更强大的兼容性,不需要单独建设无损网络,传统以太网即可支持,因此在不追求高性能的情况下,NVMe over TCP将是未来市场的普遍选择。

  • NVMe over RoCENVMe over RDMA的一种,RDMA是承载NoF的原生网络协议,RDMA协议除了RoCE外还包括IB(InfiniBand)和iWARP(Internet Wide Area RDMA Protocol)。其中,基于以太网的RoCE目前已成为RDMA的主流网络承载方式。NVMe over RDMA协议比较简单,直接把NVMe的IO队列映射到RDMA QP(Queue Pair)连接,通过RDMA SEND,RDMA WRITE,RDMA READ三个语义实现IO交互。NVMe over RoCE基于融合以太网的RDMA技术承载NVMe协议。

三种方案相比较,基于以太网的RoCE比FC性能更高(更高的带宽、更低的时延),同时兼具TCP的优势(全以太化、全IP化),因此NVMe over RoCE是NoF最优的承载网络方案,也已成为业界NoF的主流技术。

基于以太网的RoCE在存储性能、带宽方面比FC有显著优势,但替换FC、联接全闪存,标准的NoF(NVMe over RoCE)还需在3个方面加强完善:

  1. 网络性能:零丢包

    网络零丢包是存储网络的基本需求,传统以太网络拥塞易丢包。

  2. 可靠性:秒级主备切换

    存储为了可靠性,会构建多个网络平面,切换时间需<1s。

  3. 易用性:即插即用

    FC存储网络场景单一、配置简单,当前以太网络还需针对存储场景适应性改进。

NoF+与NoF比有哪些优势?

基于当下业界主流的标准NoF方案,华为依靠在网络和存储领域的深厚积累,进一步从网络性能、可靠性和易用性这三点都进行提升,基于智能无损网络面向集中式存储场景提出了NoF+解决方案,将数据中心存储网络进一步推向更广阔的发展空间。

  • 网络性能增强

    华为NoF+方案改变了传统以太网静态水线方式,对网络预测性能力进行专项优化,通过样本计算,针对特定场景,基于独创的iLossless智能无损算法进行精准的控制,从而预判业务对网络的诉求,实时感知网络流量模型,动态调整水线,可实现存储网络高吞吐下的零丢包,进一步提升性能。

  • 可靠性增强

    保障业务系统可靠是存储的根基,比如存储的秒级切换功能就是可靠性的关键保障之一,传统以太网缺乏故障主动发现和通知机制,发生故障时链路切换时间长,造成存储业务中断。华为NoF+方案推出智能感知特性,实现了从事后被动响应到主动通知、提前识别拥塞和故障。当一个节点出现故障,业务会以亚秒级响应速度切换,在高性能运行的前提下,也能维持系统的稳定可靠。

  • 易用性增强

    存储场景下传统以太网需要逐点手工配置,操作复杂且易出错。华为NoF+方案实现存储和交换机的智能联动,支持存储设备的即插即用和一键式扩容。业务变更只需在单点配置,即可自动同步到全网,业务发放效率显著提升,增强了在未来建设时的易用性。

华为NoF+方案是业界唯一零丢包的以太网,基于全闪存数据中心和超融合以太网络,通过最新一代OceanStor Dorado全闪存存储系统和CloudEngine数据中心存储网络交换机的联合创新,针对传统专用存储网络,在性能、可靠性、易用性上均实现了颠覆性改进,是全闪存时代存储网络的的最佳选择。

NoF+的网络架构

在数据中心常规组网里面,存储网络只是其中的一部分,集中式存储是一个独立的网络,与业务网络在物理上隔离,如图1-3所示。


数据中心集中式存储网络架构图

  • 业务网络:是指业务服务器对外提供服务通信网络,该网络与外部网络互连互通。

  • 计算网络:是指运行OLTP/OLAP(Online Transaction Processing/Online Analytical Processing)数据库的后台服务计算节点所组成的物理网络,使用不同的网卡连接业务网络和存储网络,实现业务网络和存储网络之间物理隔离,避免相互影响。

  • 存储网络:是指计算服务器访问存储数据时使用通信网络,该网络一般是独立的物理网络。为了保证数据高可靠,存储网络支持DC级容灾,支持同城双活存储网络,确保业务系统发生设备故障、甚至单数据中心故障时,业务无感知自动切换,实现RPO(Recovery Point Objective)=0,RTO(Recovery Time Objective)≈0。

数据中心为了容灾考虑,需要实现多数据中心互通。同城两个数据中心互为备份,且都处于运行状态。当一个数据中心发生设备故障,甚至数据中心整体故障时,业务自动切换到另一个数据中心,解决了传统灾备中心不能承载业务和业务无法自动切换的问题。提供给用户高级别的数据可靠性以及业务连续性的同时,提高存储系统的资源利用率。

在集中式存储下,DC间同城互联的一般组网如图1-4所示。为了实现同城读写支持NVME over RoCE,需要实现同城无损网络,即需要一套跨DC的无损网络,每个DC部署两台支持智能长距无损的DCI Leaf,中间通过波分设备或者裸光纤直连实现双平面,实现端到端的RoCE无损网络。


DC间同城互联一般组网示意图

NoF+的关键技术

流量控制

流量控制是端到端的,需要做的是抑制发送端的发送速率,以便接收端来得及接收,防止设备端口在拥塞的情况下出现丢包。华为提供了PFC死锁检测和死锁预防,提前预防PFC死锁的发生。

  1. PFC(Priority-based Flow Control,基于优先级的流量控制):是目前应用最广泛的流量控制技术。对于PFC控制的队列,当队列在下游设备发生拥塞时,上游设备会停止发送该队列的流量,从而实现报文的零丢包传输。

  2. PFC死锁检测:通过对PFC死锁进行全程监控,当死锁检测周期内持续收到PFC反压帧时,设备可以通过不响应反压帧的方式去解除PFC死锁现象。

  3. PFC死锁预防:通过识别易造成PFC死锁的业务流,修改队列优先级,改变PFC反压的路径,避免PFC反压帧形成环路,从而预防PFC死锁的发生。

拥塞控制

拥塞控制是指对进入网络的数据总量进行控制,使网络流量保持在可接受水平的一种控制方法。拥塞控制与流量控制的区别在于,流量控制作用于接收者,而拥塞控制作用于网络,往往需要转发设备、流量发送端、流量接收端协同作用,并结合网络中的拥塞反馈机制来调节整网流量才能起到缓解拥塞、解除拥塞的效果。

  1. ECN(Explicit Congestion Notification,显式拥塞通知):是指流量接收端感知到网络上发生拥塞后,通过协议报文通知流量发送端,使得流量发送端降低报文的发送速率,从而从早期避免拥塞而导致的丢包,实现网络性能的最大利用。

  2. AI ECN(Artificial Intelligence Explicit Congestion Notification):是指通过iLossless智能无损算法,根据现网流量模型进行AI训练,以对网络流量变化进行预测,及时推理出最优的ECN门限,并且支持根据现网流量变化实时调整ECN门限,进行无损队列缓存的精确管控,保障整网的最优性能。同时,AI ECN功能与队列调度技术配合使用时,可以实现网络中TCP流量与RoCEv2流量的混合调度,保障RoCEv2流量无损传输的同时实现低时延和高吞吐,让无损业务达到最优性能。

  3. NPCC(Network-based Proactive Congestion Control):是一种以网络设备为核心的主动拥塞控制技术,可以在网络设备上智能识别设备端口的拥塞状态,主动发送CNP(Congestion Notification Packets,拥塞通知报文)报文,准确控制服务器发送RoCEv2报文的速率,既可以确保拥塞时的及时降速,又可以避免拥塞已经缓解时的过度降速,最终确保数据中心互联这种长距场景中RoCEv2业务的低时延和高吞吐。

iNOF

iNOF(Intelligent Lossless NVMe Over Fabric,智能无损存储网络)是指通过对接入主机的快速管控,将智能无损网络应用到存储系统,实现计算和存储网络融合的技术。

存储系统为了存储大量的数据,往往需要管理数量庞大的主机,并且存在新主机陆续接入网络设备的情况。为了让智能无损网络技术更好的服务于存储系统,提出了iNOF技术,通过对接入主机的快速管控,可以第一时间获知新接入的主机,智能的调整智能无损网络的相关配置,并且iNOF技术支持将主机信息通告给存储系统,可以协助存储系统管理主机。

iNOF技术与OceanStor Dorado存储的SNSD(Storage Network Smart Discovery,存储网络智能发现)特性联动,支持即插即用,一键安装建链,简单高效。SNSD开关开启后,主机会感知到该RoCE端口下所有逻辑端口的状态变化,帮助主机根据逻辑端口状态去判断是否自动建立或断开连接。

来源:什么是NoF+?为什么需要NoF+? 

下载链接:
精华:信创框架报告(收藏)
金融科技行业系列报告:金融信创
信创和云原生趋势下的未来基础架构展望(2023)
2023信创产业新发展趋势报告及100强

《62+份超融合技术及报告合集》

《超融合行业实战合集》 

国产服务器操作系统发展报告(2023年)

信创专题(数据库):信创的关键环节

超融合信创云基础设施解决方案介绍

VMware国产化替代专题
《5000+份全栈云技术及行业知识汇总》
超融合2节点部署方案介绍
异构融合计算技术白皮书
超融合数据中心网络
下一代超融合架构白皮书

《48+份超融合技术及报告合集》

《数据中心技术合集》

《2024 云栖大会技术分享合集(4)》

《2024 云栖大会技术分享合集(3)》

《2024 云栖大会技术分享合集(2)》

《2024 云栖大会技术分享合集(1)》

《服务器及存储用液冷部件技术规范合集》

1、服务器及存储用液冷部件技术规范 第1部分:冷板 2、服务器及存储用液冷部件技术规范 第2部分:连接系统 3、服务器及存储用液冷部件技术规范 第3部分:冷量分配单元 4、服务器及存储用液冷部件技术规范 第4部分:监控系统


本号资料全部上传至知识星球,更多内容请登录全栈云技术知识星球下载全部资料。

‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧  END  ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。

温馨提示:搜索关注“全栈云技术架构”微信公众号,“扫码”或点击“阅读原文”进入知识星球获取10000+份技术资料。



全栈云技术架构
涵盖微服务架构、云计算、边缘计算、高性能计算、云边协同和训练推理。
 最新文章