NVIDIA DOCA 通过为开发者提供全面的软件框架以利用硬件加速来增强 NVIDIA 网络平台的功能,从而提高性能、安全性和效率。其 API、库和工具生态系统简化了数据中心基础设施的开发,实现了工作负载卸载、加速和隔离,以支持现代、高效的数据中心。
如今,许多主要的 CSP 和 NVIDIA 云合作伙伴(NCP)都在使用 DOCA,并且 DOCA 为快速开发和部署创新解决方案提供了标准化平台。这种方法可加快上市时间、降低成本,并帮助合作伙伴在使用 NVIDIA 硬件加速的同时专注于自身的核心优势。
DOCA 培育的开放生态系统促进了协作和互操作性,创造了各种互补解决方案。合作伙伴可以探索 AI 驱动的网络、高级安全和高性能存储等新兴市场,让自己处于数据中心创新的前沿。
DOCA 2.9 的最新版本标志着 AI 计算网络架构和云计算基础设施的重大进步。这次全面的更新引入了许多新功能和改进功能,有助于改变高性能计算和网络格局。
图 1:DOCA 2.9 架构
利用增强的东西向计算网络架构优化 AI 网络
DOCA 2.9 版本的亮点包括改进的拥塞控制和新的遥测库,这对于优化数据中心内的网络流量至关重要,从而提供更好的性能、效率、可见性和控制。
支持 Spectrum-X 1.2 参考架构
Spectrum-X(SPC-X) 1.2 参考架构针对东西向以太网 AI 云环境进行了多项改进。该更新支持大规模横向扩展能力,可在单个网络架构中容纳多达 128K 个 GPU。该架构使用 NVIDIA BlueField-3 SuperNIC 和 NVIDIA Spectrum-4 交换机的强大组合,连接到 NVIDIA DGX 和 NVIDIA HGX 平台,为 AI 工作负载提供出色的性能和效率。
DOCA 2.9 还改进了 Spectrum-X 的遥测能力和拥塞控制算法。这有助于更精细、更实时地监控网络性能,并改进拓扑检测,这对于优化大规模和长距离的 AI 工作负载至关重要。
DOCA 拥塞控制
DOCA 2.9 提升了适用于高性能计算和 AI 工作负载的拥塞控制算法,即 NVIDIA 网络拥塞控制(NVNCC)。
NVNCC Gen2 和 InfiniBand 拥塞控制 IBCC 的全面推出标志着一个重要的里程碑。IBCC 专门针对 InfiniBand 上的 AI 工作负载进行了优化,而 NVNCC 通过改进的拓扑检测功能增强了 Spectrum-X 拥塞控制算法,现在支持长距离的 RoCE。
DOCA 遥测库
作为此版本的新增功能,DOCA 遥测库引入了高频采样功能,从而提高了 AI 驱动环境的网络监控能力。此更新可实现低于 100 微秒间隔的计数器读取,与之前的 0.5-1 秒间隔相比,实现了巨大飞跃。
主要功能包括用于指定计数器、时间间隔和频率的新 API,以及对多个性能计数器(例如 RX/TX 字节、端口、拥塞通知和 PCIe 延迟)的支持。这些增强功能可满足关键用例的需求,例如用于全集群异常检测的高频遥测(HFT)和用于应用程序分析的本地性能分析。
南北向云计算基础设施
的连接性和安全性正在增强
DOCA 2.9 中的南北向改进侧重于增强云资源与外部网络之间的连接性。
DOCA Flow
DOCA 2.9 为 DOCA Flow 引入了一项令人兴奋的新功能:“tune”性能分析工具。该工具目前处于 alpha 阶段,已无缝集成到 DOCA Flow 软件包之中,为用户提供有关其网络流配置的深入洞察。
“tune"工具可直观呈现已配置的流水线,使用户能够清楚地了解其流结构。这项可视化功能使管理员和开发者能够快速识别和优化流配置。
OVS-DOCA
OVS-DOCA 现已正式发布,它具有本地镜像功能,并在 NVIDIA BlueField DPU 的软件定义网络方面向前迈出了一大步。此长期支持(LTS)版本为用户提供了一种对传统使用 DPDK 或内核数据路径(kernel datapath)的 OVS 解决方案的替代方案,为现代网络环境提供更高的效率和扩展功能。
发布版本引入了一些关键的增强功能,可提升 DOCA 的功能,包括通过 DOCA Flow API 大幅提升连接追踪(CT)功能的性能。用户可将每秒连接数(CPS)提高 100%,每秒数据包数(PPS)提高 50%。可扩展性和吞吐量也得到了增强,最多可支持三个网卡(NIC),从而实现更灵活、更强大的网络配置。
DOCA 基于主机的网络 2.4 版本
DOCA 基于主机的网络(HBN)不断发展,2.4 版本为适用于裸金属及服务环境的无控制器 VPC 网络带来了许多增强功能。DOCA HBN 2.4 以 BGP EVPN 为基础,引入了令人印象深刻的可扩展性改进,支持高达 8K 个 VTEP 和 80K 个 Type-5 路由。
最新版本通过内核下一跳(Next-Hop)组和 OVS-DOCA 故障转移增强了 ECMP 路由,提高了网络弹性和性能。其中一个关键的新增功能是 Overlay 网关的有状态 SNAT+PAT,使私有租户 IP 能够通过共享公共 IP 地址访问外部网络。
DOCA FireFly
增强的 DOCA Firefly 服务通过硬件加速为 NVIDIA DPU(数据处理器)带来先进的时间同步功能。此更新引入了两项显著特性:同步以太网(SyncE)支持和数据传输服务(DTS)集成。
SyncE 可在网络设备之间实现高精度频率同步,对于电信网络(尤其是移动基础设施)至关重要。DTS 支持支持通过遥测通道传输 PTP 信息,从而实现持续的网络时间服务监控。
NVIDIA Rivermax SDK
Rivermax SDK 的增强功能主要侧重于降低延迟、最小化 CPU 使用率,以及最大化数据密集型应用程序的带宽和 GPU 利用率。一项重要的新增功能是支持 Internet Protocol Media Experience(IPMX),这是专业视听环境中新兴的 AV over IP 开放标准。
在 Rivermax 的支持下,DOCA 2.9 还支持 NVIDIA Holoscan for Media,这是一个专为媒体和娱乐行业定制的认证平台。该功能优化了未压缩和压缩视频流的处理,简化了用于高性能媒体处理的 I/O 操作。
NVIDIA DOCA App Shield
DOCA App Shield 库的增强功能提高了其在主机监控和威胁检测方面的能力。一项重要的新增功能是包括了预先生成的操作系统配置文件,使各种操作系统的设置过程更加简化。
对于 Linux 环境,App Shield 现在提供高级容器监控功能,使安全团队能够密切关注容器化工作负载。该服务已得到扩展,可列出网络连接,并提供有关每个进程的网络连接详细信息,从而更深入地洞察潜在的安全威胁。
DOCA SNAP virtio-fs
DOCA SNAP virtio-fs 测试版是一项利用 NVIDIA BlueField-3 DPU 强大功能来提供安全加速文件系统存储的服务。此解决方案使用内置的 virtio-fs 驱动程序向主机公开本地文件系统语义,同时直接在 DPU 上运行远程文件系统存储逻辑。
该版本还引入了 SNAP Virtio-fs 的测试版,作为公共 NGC 服务容器提供。它启用了 NFS Linux 内核文件系统,并集成到 BlueField-3 内核中。开发者可以基于 SPDK FSDEV 创建自定义文件系统堆栈,从而实现灵活性和性能优化。
此解决方案支持在 AI 计算服务器中实现云规模分布式文件系统存储,提供具有隔离和策略实施的安全环境,同时加速性能并卸载虚拟机管理程序任务。
开放虚拟网络裸金属租户隔离
DOCA 2.9 包括一项新的编排服务,增强软件定义网络(SDN)环境中的租户隔离。开放虚拟网络(OVN)裸金属租户隔离功能可保护多租户环境中的南北向流量,确保 AI 工作负载保持安全和独立,即使在密集的计算集群中也是如此。
此服务基于上游 OVN 构建,提供用于租户隔离的简化、强大的 API,以及用于在 BlueField DPU 上轻松部署的 Ansible Playbook。关键创新在于卸载和加速基于 SDN 的租户 BlueField DPU,通过隔离特定进程来提高速度和效率。这种集中组织允许使用 API 调用轻松更改隔离设置,从而更好地控制网络管理。这使得它非常适合希望使用 SDN 创建多租户云的 AI 云和工厂。
设备管理和开发工具
DOCA 2.9 简化了大规模部署所需的设备管理流程。此版本还为开发者提供了新的优化和分析工具,可帮助他们更好地洞察应用程序和数据路径性能。
DOCA 管理服务 (DMS)
DOCA 管理服务(DMS)也升级为发布状态,为管理 BlueField DPU 和 SuperNIC 提供了增强功能。此更新引入了通过单个 API 端点管理多台设备的能力,从而简化了在复杂的多设备环境中的操作。
一项重要改进是支持节点重启后的配置“持久性”,从而确保设备设置在系统重启期间保持不变。此外,还新增了设配配置的批量导入/导出功能,可实现大规模部署的高效管理。
DOCA 数据路径加速器
数据路径加速器(DPA)工具包的增强功能为开发者提供了更强大的性能优化和分析工具。其中一项突出功能是将 DPA 性能计数器与新的 Nsight 工具相集成,从而更深入地洞察应用程序性能。
一个重要的新增功能是 DOCA-DPA-Comms 库,目前处于测试阶段。该库简化了基于 DPA 的数据路径实现,为开发者提供了更高级别的抽象。它可用于 BlueField-3 DPU 和即将推出的 NVIDIA ConnectX-8 SuperNIC,确保 NVIDIA 高级网络硬件产品线具有广泛的兼容性。
用于简化部署和支持的平台和 DOCA 软件包
改善用户体验是 DOCA 发展的核心。本次发布包括许多旨在简化和改进部署的功能,例如 DOCA-Host 配置文件 DOCA-ROCE,它适用于需要 RDMA over Converged Ethernet 功能的环境。
NVIDIA 还针对 BlueField-3 推出了 PLDM 固件更新。该测试版支持使用 PCIe 上的标准 PLDM over MCTP 实现无缝固件更新,使服务器在激活之前能够正常运行。这一零信任功能支持 NIC 和 DPU 模式,并且无需 DPU-BMC 1GbE 连接。
此外,此版本标志着 MLNX_OFED 的最终长期支持(LTS)成为独立版本,该版本现已作为主机配置文件 DOCA-OFED 使用。
从用于 InfiniBand 和以太网解决方案的 MLNX_OFED 驱动和工具套件过渡到 DOCA-OFED,可实现集成在 DOCA 框架内的统一、可扩展和可编程网络堆栈。
想要详细了解更多信息,请查看以下文章:
借助 NVIDIA DOCA-OFED 让您的网络堆栈适应未来
了解详情
NVIDIA DOCA 2.9 标志着 AI 计算网络架构和云计算基础设施的显著进步。
点击“阅读原文”或复制以下链接至浏览器,下载 NVIDIA DOCA:
https://developer.nvidia.cn/doca-downloads
立刻开始您的开发之旅,享受 DOCA 提供的所有优势!