NVIDIA DOCA 2.9 通过新的性能和安全功能来增强 AI 和云计算基础设施

科技   2024-11-25 17:43   北京  

NVIDIA DOCA 通过为开发者提供全面的软件框架以利用硬件加速来增强 NVIDIA 网络平台的功能,从而提高性能、安全性和效率。其 API、库和工具生态系统简化了数据中心基础设施的开发,实现了工作负载卸载、加速和隔离,以支持现代、高效的数据中心。


如今,许多主要的 CSP 和 NVIDIA 云合作伙伴(NCP)都在使用 DOCA,并且 DOCA 为快速开发和部署创新解决方案提供了标准化平台。这种方法可加快上市时间、降低成本,并帮助合作伙伴在使用 NVIDIA 硬件加速的同时专注于自身的核心优势。


DOCA 培育的开放生态系统促进了协作和互操作性,创造了各种互补解决方案。合作伙伴可以探索 AI 驱动的网络、高级安全和高性能存储等新兴市场,让自己处于数据中心创新的前沿。


DOCA 2.9 的最新版本标志着 AI 计算网络架构和云计算基础设施的重大进步。这次全面的更新引入了许多新功能和改进功能,有助于改变高性能计算和网络格局。


图 1:DOCA 2.9 架构


利用增强的东西向计算网络架构优化 AI 网络


DOCA 2.9 版本的亮点包括改进的拥塞控制和新的遥测库,这对于优化数据中心内的网络流量至关重要,从而提供更好的性能、效率、可见性和控制。


支持 Spectrum-X 1.2 参考架构


Spectrum-X(SPC-X) 1.2 参考架构针对东西向以太网 AI 云环境进行了多项改进。该更新支持大规模横向扩展能力,可在单个网络架构中容纳多达 128K 个 GPU。该架构使用 NVIDIA BlueField-3 SuperNIC NVIDIA Spectrum-4 交换机的强大组合,连接到 NVIDIA DGX 和 NVIDIA HGX 平台,为 AI 工作负载提供出色的性能和效率。


DOCA 2.9 还改进了 Spectrum-X 的遥测能力和拥塞控制算法。这有助于更精细、更实时地监控网络性能,并改进拓扑检测,这对于优化大规模和长距离的 AI 工作负载至关重要。


DOCA 拥塞控制


DOCA 2.9 提升了适用于高性能计算和 AI 工作负载的拥塞控制算法,即 NVIDIA 网络拥塞控制(NVNCC)


NVNCC Gen2 和 InfiniBand 拥塞控制 IBCC 的全面推出标志着一个重要的里程碑。IBCC 专门针对 InfiniBand 上的 AI 工作负载进行了优化,而 NVNCC 通过改进的拓扑检测功能增强了 Spectrum-X 拥塞控制算法,现在支持长距离的 RoCE。


DOCA 遥测库


作为此版本的新增功能,DOCA 遥测库引入了高频采样功能,从而提高了 AI 驱动环境的网络监控能力。此更新可实现低于 100 微秒间隔的计数器读取,与之前的 0.5-1 秒间隔相比,实现了巨大飞跃。


主要功能包括用于指定计数器、时间间隔和频率的新 API,以及对多个性能计数器(例如 RX/TX 字节、端口、拥塞通知和 PCIe 延迟)的支持。这些增强功能可满足关键用例的需求,例如用于全集群异常检测的高频遥测(HFT)和用于应用程序分析的本地性能分析。


南北向云计算基础设施

的连接性和安全性正在增强


DOCA 2.9 中的南北向改进侧重于增强云资源与外部网络之间的连接性。


DOCA Flow


DOCA 2.9 为 DOCA Flow 引入了一项令人兴奋的新功能:“tune”性能分析工具。该工具目前处于 alpha 阶段,已无缝集成到 DOCA Flow 软件包之中,为用户提供有关其网络流配置的深入洞察。


“tune"工具可直观呈现已配置的流水线,使用户能够清楚地了解其流结构。这项可视化功能使管理员和开发者能够快速识别和优化流配置。


OVS-DOCA


OVS-DOCA 现已正式发布,它具有本地镜像功能,并在 NVIDIA BlueField DPU 的软件定义网络方面向前迈出了一大步。此长期支持(LTS)版本为用户提供了一种对传统使用 DPDK 或内核数据路径(kernel datapath)的 OVS 解决方案的替代方案,为现代网络环境提供更高的效率和扩展功能。


发布版本引入了一些关键的增强功能,可提升 DOCA 的功能,包括通过 DOCA Flow API 大幅提升连接追踪(CT)功能的性能。用户可将每秒连接数(CPS)提高 100%,每秒数据包数(PPS)提高 50%。可扩展性和吞吐量也得到了增强,最多可支持三个网卡(NIC),从而实现更灵活、更强大的网络配置。


DOCA 基于主机的网络 2.4 版本


DOCA 基于主机的网络(HBN)不断发展,2.4 版本为适用于裸金属及服务环境的无控制器 VPC 网络带来了许多增强功能。DOCA HBN 2.4 以 BGP EVPN 为基础,引入了令人印象深刻的可扩展性改进,支持高达 8K 个 VTEP 和 80K 个 Type-5 路由。


最新版本通过内核下一跳(Next-Hop)组和 OVS-DOCA 故障转移增强了 ECMP 路由,提高了网络弹性和性能。其中一个关键的新增功能是 Overlay 网关的有状态 SNAT+PAT,使私有租户 IP 能够通过共享公共 IP 地址访问外部网络。


DOCA FireFly


增强的 DOCA Firefly 服务通过硬件加速为 NVIDIA DPU(数据处理器)带来先进的时间同步功能。此更新引入了两项显著特性:同步以太网(SyncE)支持和数据传输服务(DTS)集成。


SyncE 可在网络设备之间实现高精度频率同步,对于电信网络(尤其是移动基础设施)至关重要。DTS 支持支持通过遥测通道传输 PTP 信息,从而实现持续的网络时间服务监控。


NVIDIA Rivermax SDK


Rivermax SDK 的增强功能主要侧重于降低延迟、最小化 CPU 使用率,以及最大化数据密集型应用程序的带宽和 GPU 利用率。一项重要的新增功能是支持 Internet Protocol Media Experience(IPMX),这是专业视听环境中新兴的 AV over IP 开放标准。


在 Rivermax 的支持下,DOCA 2.9 还支持 NVIDIA Holoscan for Media,这是一个专为媒体和娱乐行业定制的认证平台。该功能优化了未压缩和压缩视频流的处理,简化了用于高性能媒体处理的 I/O 操作。


NVIDIA DOCA App Shield


DOCA App Shield 库的增强功能提高了其在主机监控和威胁检测方面的能力。一项重要的新增功能是包括了预先生成的操作系统配置文件,使各种操作系统的设置过程更加简化。


对于 Linux 环境,App Shield 现在提供高级容器监控功能,使安全团队能够密切关注容器化工作负载。该服务已得到扩展,可列出网络连接,并提供有关每个进程的网络连接详细信息,从而更深入地洞察潜在的安全威胁。


DOCA SNAP virtio-fs


DOCA SNAP virtio-fs 测试版是一项利用 NVIDIA BlueField-3 DPU 强大功能来提供安全加速文件系统存储的服务。此解决方案使用内置的 virtio-fs 驱动程序向主机公开本地文件系统语义,同时直接在 DPU 上运行远程文件系统存储逻辑。


该版本还引入了 SNAP Virtio-fs 的测试版,作为公共 NGC 服务容器提供。它启用了 NFS Linux 内核文件系统,并集成到 BlueField-3 内核中。开发者可以基于 SPDK FSDEV 创建自定义文件系统堆栈,从而实现灵活性和性能优化。


此解决方案支持在 AI 计算服务器中实现云规模分布式文件系统存储,提供具有隔离和策略实施的安全环境,同时加速性能并卸载虚拟机管理程序任务。


开放虚拟网络裸金属租户隔离


DOCA 2.9 包括一项新的编排服务,增强软件定义网络(SDN)环境中的租户隔离。开放虚拟网络(OVN)裸金属租户隔离功能可保护多租户环境中的南北向流量,确保 AI 工作负载保持安全和独立,即使在密集的计算集群中也是如此。


此服务基于上游 OVN 构建,提供用于租户隔离的简化、强大的 API,以及用于在 BlueField DPU 上轻松部署的 Ansible Playbook。关键创新在于卸载和加速基于 SDN 的租户 BlueField DPU,通过隔离特定进程来提高速度和效率。这种集中组织允许使用 API 调用轻松更改隔离设置,从而更好地控制网络管理。这使得它非常适合希望使用 SDN 创建多租户云的 AI 云和工厂。


设备管理和开发工具


DOCA 2.9 简化了大规模部署所需的设备管理流程。此版本还为开发者提供了新的优化和分析工具,可帮助他们更好地洞察应用程序和数据路径性能。


DOCA 管理服务 (DMS)


DOCA 管理服务(DMS)也升级为发布状态,为管理 BlueField DPU 和 SuperNIC 提供了增强功能。此更新引入了通过单个 API 端点管理多台设备的能力,从而简化了在复杂的多设备环境中的操作。


一项重要改进是支持节点重启后的配置“持久性”,从而确保设备设置在系统重启期间保持不变。此外,还新增了设配配置的批量导入/导出功能,可实现大规模部署的高效管理。


DOCA 数据路径加速器


数据路径加速器(DPA)工具包的增强功能为开发者提供了更强大的性能优化和分析工具。其中一项突出功能是将 DPA 性能计数器与新的 Nsight 工具相集成,从而更深入地洞察应用程序性能。


一个重要的新增功能是 DOCA-DPA-Comms 库,目前处于测试阶段。该库简化了基于 DPA 的数据路径实现,为开发者提供了更高级别的抽象。它可用于 BlueField-3 DPU 和即将推出的 NVIDIA ConnectX-8 SuperNIC,确保 NVIDIA 高级网络硬件产品线具有广泛的兼容性。


用于简化部署和支持的平台和 DOCA 软件包


改善用户体验是 DOCA 发展的核心。本次发布包括许多旨在简化和改进部署的功能,例如 DOCA-Host 配置文件 DOCA-ROCE,它适用于需要 RDMA over Converged Ethernet 功能的环境。


NVIDIA 还针对 BlueField-3 推出了 PLDM 固件更新。该测试版支持使用 PCIe 上的标准 PLDM over MCTP 实现无缝固件更新,使服务器在激活之前能够正常运行。这一零信任功能支持 NIC 和 DPU 模式,并且无需 DPU-BMC 1GbE 连接。


此外,此版本标志着 MLNX_OFED 的最终长期支持(LTS)成为独立版本,该版本现已作为主机配置文件 DOCA-OFED 使用。


从用于 InfiniBand 和以太网解决方案的 MLNX_OFED 驱动和工具套件过渡到 DOCA-OFED,可实现集成在 DOCA 框架内的统一、可扩展和可编程网络堆栈。


想要详细了解更多信息,请查看以下文章:

借助 NVIDIA DOCA-OFED 让您的网络堆栈适应未来


了解详情


NVIDIA DOCA 2.9 标志着 AI 计算网络架构和云计算基础设施的显著进步。 


点击“阅读原文”或复制以下链接至浏览器,下载 NVIDIA DOCA:

https://developer.nvidia.cn/doca-downloads


立刻开始您的开发之旅,享受 DOCA 提供的所有优势!



扫描下方海报二维码,观看 NVIDIA CEO 黄仁勋特别演讲以及和软银集团 CEO 孙正义的炉边谈话回放。

NVIDIA英伟达企业解决方案
NVIDIA,一家全栈计算公司,其一直是加速计算领域的先驱,GPU 驱动了PC游戏市场增长,重新定义现代计算机图形,开启现代AI时代,正在推动工业元宇宙的创造。
 最新文章