最近,《2024数字中国万里行暨算力经济中国行考察报告》出版,我们将对报告内容开启连载模式。
PART III 技术演进 第四章 多元算力交织,主要探讨了以下话题:
• DPU:由云向智(二)
• DPU:由云向智(三)
服务器:重构升级
4.
GPU与AI算力
为了提高管理能力,DPU引入了相对较强的嵌入式CPU,接下来的卖点应该从哪里挖掘呢?那就强化某些方面的能力,尤其是时髦的AI方向吧。在2020年,英伟达和Marvell都明示了这一点,前者规划的产品是BlueField-2X,后者是OCTEON 10。
英伟达当时规划的BlueField-2是8个Arm Cortex-A72核心搭配ConectX-6。在此基础上规划的BlueField-2X计划外挂一颗Ampere GPU。利用Tensor Core的AI算力可以进行实时安全分析,这在当时确实是相当时髦的概念,譬如英特尔vPro中的硬件盾(Intel Hardware Shield)宣称是首款商用的基于芯片的AI威胁检测解决方案,将病毒扫描工作负载从CPU分流到GPU。DPU面对的数据流量巨大得多,看上去很是值得挂上一颗GA102等级的核心处理安全问题。计划中的功能包括识别提示窃取机密的异常流量、线速加密流量分析、恶意活动的主机自检、以及动态的安全编排自动化响应(SOAR)等。回顾英伟达2020年时期的DPU路线图,BlueField提升通用算力和AI算力的思路很明确,BlueField-3的CPU性能要比BlueField-2高4倍,BlueField-3X估计继续使用Ampere GPU;BlueField-4则更激进,CPU和GPU都要在BlueField-3X的基础上实现几倍的提升(就当是GH200的DPU版吧)。
实际上,BlueField-2X和3X这样的命名并没有被采用,类似思路的产品变成了“融合加速器”(Converged Accelerator)产品线。除了前面提到的基于AI的网络安全应用,融合加速器还可以用于5G虚拟无线接入网络(vRAN)进行GPU加速的信号和数据处理,或者用于边缘场景的AI应用(尤其是多实例并行)。
真正把AI算力集成到DPU芯片内部的是Marvell OCTEON 10。Marvell将其DPU家族的历史上溯到2005年,当时主要用于防火墙,早期被定位为“基础设施处理器”。2015年,Marvell宣布OCTEONTX采用Arm核心。OCTEON 10是Marvell的第七代DPU,在2021年透露,采用台积电的N5P制造工艺,支持PCIe 5.0接口,其主要亮点是首批采用Arm Neoverse N2核心的产品之一,并且集成了机器学习引擎。OCTEON 10的24个N2核心每个均有64KB指令Cache和64KB数据Cache,以及1MB L2 Cache,所有核心共享48MB L3 Cache再配合16GB DDR5-5200 ECC DRAM,其处理能力在DPU中相当有优势。
OCTEON 10除了固化密码处理、虚拟化等功能外,还有向量数据包处理(Vector Packet Processing)和机器学习处理器(ML Processor)。向量数据包处理引擎与前一代的标量处理引擎相比,能够将数据包处理吞吐量大幅提高5倍。机器学习处理器支持INT8、FP16数据,主要用于推理应用,如威胁检测、波束成形优化、情境感知服务、预测性维护。这些应用也是比较典型的边缘侧场景,包括无线基站、车载等,这也是Marvell的传统优势领域。对于计算中心,机器学习除了可以识别恶意流量,也有机会做网络流量分析,分析识别延迟、丢包、抖动等;还可以在存储方面分析数据冷、温、热,协助分层、压缩等。
不论是英伟达的融合加速器,还是Marvell OCTEON 10,它们的共同点都是整合了不同程度的AI算力。支撑这种算力需求的现实应用是5G时代大规模MIMO天线阵列相关的趋于复杂的波束成形算法,潜在的应用领域则远不止于此。物联网、数据库等应用都可以用上优化的算力进行加速。如何更高效地整合AI算力,平衡性能、成本、灵活性,将是DPU发展中的重要议题。
5.
DPU也要Chiplet
大语言模型的成功让数据中心的算力和网络带宽都进入到高速发展的阶段,如果要更好地适应这种形势,DPU的迭代速度必须相应加快。类似BlueField的规模较大的SoC方案会面临升级滞后的问题。典型的就是在GTC2024上,英伟达发布了面向高性能AI基础设施的新一代的Quantum-X800网络平台(InfiniBand),其中包括Quantum Q3400交换机(144个800Gbps端口)和ConnectX-8 SuperNIC;以及Spectrum-X800(以太网),包括Spectrum SN5600交换机(64个800Gbps端口)和BlueField-3 SuperNIC。BlueField-3 SuperNIC和BlueField-3 DPU的区别后面介绍,重点是,BlueField-3平台到GTC2024召开之时尚未更新。按照BlueField-2内置ConnectX-6、BlueField-3内置ConnectX-7的“规律”,ConnectX-8应该也会被未来的BlueField-4整合进去的。
不同规模的嵌入式CPU可以定义不同卸载能力,如BlueField-3 SuperNIC与BlueField-3 DPU,前者的CPU核心数为后者的一半;又如Marvell OCTEON 10的CN103与CN106,前者的CPU核心数为后者的三分之一。DPU的发展也面临进一步整合异构算力的问题,除了通用CPU核配合若干数据流加速器,高并行的AI算力也趋于重要,不论是GPU还是NPU形式。
高性能、高灵活性的需求一定会促使DPU也开始考虑Chiplet的思路。相应的,通用CPUIP的总线协议也需要为此做好相应的准备。以Arm的AMBA(Advanced Microcontroller Bus Architecture)为例,这是Arm推出的高级微控制器总线架构,在近30年的历程中不断演进,并获得了广泛的应用。AMBA包括几种不同定位的总线,早期的AHB/ASB是高级高性能总线,通常用于CPU和高性能设备之间的交互;APB是高级外设总线,通常和AHB相连接,来访问一些低速的外设。在AMBA3.0的协议中增加了AXI,可以与高性能外设交互,典型的就是FPGA。AMBA CHI则有更高的性能,用于片上互联,用于应对Chiplet下的CPU Tile之间的一致性整合。进一步的,CHI C2C利用了CHI规范的许多特性,供来自不同供应商的小芯片实现互联,如各种加速器。CHI C2C支持第三方和行业标准,重点之一就是UCIe。简而言之,AMBA CHI C2C实现了对UCIe标准的支持,方便CPU与各种加速器通过高级封装组合起来。这些加速器可能用于AI算力,也可用作加速或卸载网络、存储、数据库的操作。加速器在发展早期会采用FPGA形式提供(AXI),随着应用趋于成熟和规模化,将会逐步固化为AISC(AXI)或者Tile(AXI C2C或CHI C2C)的形式,AMBA涵盖的不同总线协议为不同发展阶段做好了准备。
6.
GPU的新助手:SuperNIC
SuperNIC(超级网卡)的概念在2021年的一篇论文(SuperNIC:A Hardware-Based,Programmable,and Multi-Tenant SmartNIC)中提出。当时的概念是一个新的分布式硬件框架,每个SuperNIC连接一小组端点,并整合这些端点的网络功能。概念的提出者认为,智能网卡无法同时实现多租户支持、可编程性、硬件加速这三个功能。SuperNIC是基于硬件的、可编程的、多租户的智能网卡,支持三种类型的网络计算卸载:
传统网络堆栈功能,例如传输层;
常见的网络功能,例如防火墙和IPSec;
特定应用程序的数据包处理。
这看上去,其实有点儿像DPU的事情。2023年COMPUTEX期间,英伟达发布了Spectrum-X平台,其中包括了Spectrum-4以太网交换机与BlueField-3 DPU。对于高性能集群的网络交互,DPU有很多独特的价值,譬如可以实现计算和通讯的异步(某RDMA发起者的访问请求从本地DPU发出,到目标DPU接收到,即可返回。目标DPU和目标内存的处理不需要发起方参与),籍此有效降低RDMA操作的性能损耗。
到了下半年,英伟达引入了BlueField-3 SuperNIC,并将其定义为一种新型网络加速器,旨在为基于以太网的AI云上运行的超大规模AI工作负载提供助力,可在GPU服务器之间提供可靠、无缝的连接。英伟达宣传的独特属性包括:
NVIDIA BlueField DPU和 SuperNIC
高速数据包重排序可确保数据包的接收和处理顺序与源端发送的顺序相同。这可保持数据流的顺序完整性;
使用实时遥测数据和网络感知算法进行高级拥塞控制,以管理和预防AI网络中的拥塞;
输入/输出(I/O)路径上的可编程计算,可实现AI云数据中心网络基础设施的自定义和可扩展性;
节能高效的半高设计,可在有限的功率预算范围内高效适应AI工作负载;
全栈AI优化,包括计算、网络、存储、系统软件、通信库和应用框架。
以上属性强化了高性能网络的数据处理能力,而不再像DPU那样强调租户、容器管理等控制平面的内容。另外,限制了功耗——或者说是,不需要DPU那么高的功耗。分布式存储和GPU集群对数据中心的RDMA拥塞控制要求越来越高,这也是各大云厂商高性能以太网需要卷算法的重点,相应的算法需要自研的交换机和网卡支持。英伟达的Spectrum-X平台只是其中一个流派,然后将其中配套的网卡赋予了SuperNIC之名——比智能网卡高级,但又不需要DPU那么高的规格。至于InfiniBand网络,并不需要把太多算力消耗在拥塞控制上,用ConnectX系列智能网卡就足够了。
从功能的角度,BlueField-3 DPU和BlueField-3 SuperNIC的异同点可以参见下表。简单说,BlueField-3 SuperNIC主要是围绕提升GPU在以太网中的协同能力设计的。英伟达建议高性能AI集群中,GPU与SuperNIC应该以1:1的比例进行配置。
硬件上,BlueField-3 SuperNIC相对DPU也有了相应的弱化。首先是Arm核心数量,从16个减半为8个,DDR5内存容量也从32GB(128bit + 16bit ECC)降为16GB(64bit + 8bit ECC)。对应的,功耗也降低了,DPU需要使用8pin的外接12V PCIe供电,SuperNIC取消了该辅助供电。BlueField-3全部是全高卡设计,均提供双网络端口,而SuperNIC既有全高卡,也有半高卡,网络端口可单可双。
☞ 报告连载 | 上海交通大学:优化应用部署,关注复合型人才培养
☞ 报告连载 | 华南理工大学:以多元化液冷实践打造高效绿色算力
☞ 报告连载 | 华中农业大学:释放多元算力价值,推动交叉学科应用
☞ 报告连载 | 中国人民大学:升级算力应用,打造“玉兰 10B”大模型
☞ 报告连载 | 北京理工大学:提升大模型价值,“墨子”全新升级
扫描或者点击文末“阅读原文”
可下载报告电子版
如需纸质版请注明
▼