报告连载 | DPU：由云向智（二）

企业 2024-10-09 14:30 山西

最近，《2024数字中国万里行暨算力经济中国行考察报告》出版，我们将对报告内容开启连载模式。

PART III 技术演进第四章多元算力交织，主要探讨了以下话题：

CPU：分而利合
•（一）大小核全面铺开
•（二）Chiplet 走向模块化
GPU：合纵连横
DPU：由云向智
• DPU：由云向智（一）
• DPU：由云向智（二）
• DPU：由云向智（三）
服务器：重构升级

GPU与AI算力

为了提高管理能力，DPU引入了相对较强的嵌入式CPU，接下来的卖点应该从哪里挖掘呢？那就强化某些方面的能力，尤其是时髦的AI方向吧。在2020年，英伟达和Marvell都明示了这一点，前者规划的产品是BlueField-2X，后者是OCTEON 10。

英伟达当时规划的BlueField-2是8个Arm Cortex-A72核心搭配ConectX-6。在此基础上规划的BlueField-2X计划外挂一颗Ampere GPU。利用Tensor Core的AI算力可以进行实时安全分析，这在当时确实是相当时髦的概念，譬如英特尔vPro中的硬件盾（Intel Hardware Shield）宣称是首款商用的基于芯片的AI威胁检测解决方案，将病毒扫描工作负载从CPU分流到GPU。DPU面对的数据流量巨大得多，看上去很是值得挂上一颗GA102等级的核心处理安全问题。计划中的功能包括识别提示窃取机密的异常流量、线速加密流量分析、恶意活动的主机自检、以及动态的安全编排自动化响应（SOAR）等。回顾英伟达2020年时期的DPU路线图，BlueField提升通用算力和AI算力的思路很明确，BlueField-3的CPU性能要比BlueField-2高4倍，BlueField-3X估计继续使用Ampere GPU；BlueField-4则更激进，CPU和GPU都要在BlueField-3X的基础上实现几倍的提升（就当是GH200的DPU版吧）。

实际上，BlueField-2X和3X这样的命名并没有被采用，类似思路的产品变成了“融合加速器”（Converged Accelerator）产品线。除了前面提到的基于AI的网络安全应用，融合加速器还可以用于5G虚拟无线接入网络（vRAN）进行GPU加速的信号和数据处理，或者用于边缘场景的AI应用（尤其是多实例并行）。

真正把AI算力集成到DPU芯片内部的是Marvell OCTEON 10。Marvell将其DPU家族的历史上溯到2005年，当时主要用于防火墙，早期被定位为“基础设施处理器”。2015年，Marvell宣布OCTEONTX采用Arm核心。OCTEON 10是Marvell的第七代DPU，在2021年透露，采用台积电的N5P制造工艺，支持PCIe 5.0接口，其主要亮点是首批采用Arm Neoverse N2核心的产品之一，并且集成了机器学习引擎。OCTEON 10的24个N2核心每个均有64KB指令Cache和64KB数据Cache，以及1MB L2 Cache，所有核心共享48MB L3 Cache再配合16GB DDR5-5200 ECC DRAM，其处理能力在DPU中相当有优势。

OCTEON 10除了固化密码处理、虚拟化等功能外，还有向量数据包处理（Vector Packet Processing）和机器学习处理器（ML Processor）。向量数据包处理引擎与前一代的标量处理引擎相比，能够将数据包处理吞吐量大幅提高5倍。机器学习处理器支持INT8、FP16数据，主要用于推理应用，如威胁检测、波束成形优化、情境感知服务、预测性维护。这些应用也是比较典型的边缘侧场景，包括无线基站、车载等，这也是Marvell的传统优势领域。对于计算中心，机器学习除了可以识别恶意流量，也有机会做网络流量分析，分析识别延迟、丢包、抖动等；还可以在存储方面分析数据冷、温、热，协助分层、压缩等。

不论是英伟达的融合加速器，还是Marvell OCTEON 10，它们的共同点都是整合了不同程度的AI算力。支撑这种算力需求的现实应用是5G时代大规模MIMO天线阵列相关的趋于复杂的波束成形算法，潜在的应用领域则远不止于此。物联网、数据库等应用都可以用上优化的算力进行加速。如何更高效地整合AI算力，平衡性能、成本、灵活性，将是DPU发展中的重要议题。

DPU也要Chiplet

大语言模型的成功让数据中心的算力和网络带宽都进入到高速发展的阶段，如果要更好地适应这种形势，DPU的迭代速度必须相应加快。类似BlueField的规模较大的SoC方案会面临升级滞后的问题。典型的就是在GTC2024上，英伟达发布了面向高性能AI基础设施的新一代的Quantum-X800网络平台（InfiniBand），其中包括Quantum Q3400交换机（144个800Gbps端口）和ConnectX-8 SuperNIC；以及Spectrum-X800（以太网），包括Spectrum SN5600交换机（64个800Gbps端口）和BlueField-3 SuperNIC。BlueField-3 SuperNIC和BlueField-3 DPU的区别后面介绍，重点是，BlueField-3平台到GTC2024召开之时尚未更新。按照BlueField-2内置ConnectX-6、BlueField-3内置ConnectX-7的“规律”，ConnectX-8应该也会被未来的BlueField-4整合进去的。

不同规模的嵌入式CPU可以定义不同卸载能力，如BlueField-3 SuperNIC与BlueField-3 DPU，前者的CPU核心数为后者的一半；又如Marvell OCTEON 10的CN103与CN106，前者的CPU核心数为后者的三分之一。DPU的发展也面临进一步整合异构算力的问题，除了通用CPU核配合若干数据流加速器，高并行的AI算力也趋于重要，不论是GPU还是NPU形式。

高性能、高灵活性的需求一定会促使DPU也开始考虑Chiplet的思路。相应的，通用CPUIP的总线协议也需要为此做好相应的准备。以Arm的AMBA(Advanced Microcontroller Bus Architecture)为例，这是Arm推出的高级微控制器总线架构，在近30年的历程中不断演进，并获得了广泛的应用。AMBA包括几种不同定位的总线，早期的AHB/ASB是高级高性能总线，通常用于CPU和高性能设备之间的交互；APB是高级外设总线，通常和AHB相连接，来访问一些低速的外设。在AMBA3.0的协议中增加了AXI，可以与高性能外设交互，典型的就是FPGA。AMBA CHI则有更高的性能，用于片上互联，用于应对Chiplet下的CPU Tile之间的一致性整合。进一步的，CHI C2C利用了CHI规范的许多特性，供来自不同供应商的小芯片实现互联，如各种加速器。CHI C2C支持第三方和行业标准，重点之一就是UCIe。简而言之，AMBA CHI C2C实现了对UCIe标准的支持，方便CPU与各种加速器通过高级封装组合起来。这些加速器可能用于AI算力，也可用作加速或卸载网络、存储、数据库的操作。加速器在发展早期会采用FPGA形式提供（AXI），随着应用趋于成熟和规模化，将会逐步固化为AISC（AXI）或者Tile（AXI C2C或CHI C2C）的形式，AMBA涵盖的不同总线协议为不同发展阶段做好了准备。

GPU的新助手：SuperNIC

SuperNIC（超级网卡）的概念在2021年的一篇论文（SuperNIC:A Hardware-Based,Programmable,and Multi-Tenant SmartNIC）中提出。当时的概念是一个新的分布式硬件框架，每个SuperNIC连接一小组端点，并整合这些端点的网络功能。概念的提出者认为，智能网卡无法同时实现多租户支持、可编程性、硬件加速这三个功能。SuperNIC是基于硬件的、可编程的、多租户的智能网卡，支持三种类型的网络计算卸载：

传统网络堆栈功能，例如传输层；
常见的网络功能，例如防火墙和IPSec；
特定应用程序的数据包处理。

这看上去，其实有点儿像DPU的事情。2023年COMPUTEX期间，英伟达发布了Spectrum-X平台，其中包括了Spectrum-4以太网交换机与BlueField-3 DPU。对于高性能集群的网络交互，DPU有很多独特的价值，譬如可以实现计算和通讯的异步（某RDMA发起者的访问请求从本地DPU发出，到目标DPU接收到，即可返回。目标DPU和目标内存的处理不需要发起方参与），籍此有效降低RDMA操作的性能损耗。

到了下半年，英伟达引入了BlueField-3 SuperNIC，并将其定义为一种新型网络加速器，旨在为基于以太网的AI云上运行的超大规模AI工作负载提供助力，可在GPU服务器之间提供可靠、无缝的连接。英伟达宣传的独特属性包括：

NVIDIA BlueField DPU和 SuperNIC

高速数据包重排序可确保数据包的接收和处理顺序与源端发送的顺序相同。这可保持数据流的顺序完整性；
使用实时遥测数据和网络感知算法进行高级拥塞控制，以管理和预防AI网络中的拥塞；
输入/输出(I/O)路径上的可编程计算，可实现AI云数据中心网络基础设施的自定义和可扩展性；
节能高效的半高设计，可在有限的功率预算范围内高效适应AI工作负载；
全栈AI优化，包括计算、网络、存储、系统软件、通信库和应用框架。

以上属性强化了高性能网络的数据处理能力，而不再像DPU那样强调租户、容器管理等控制平面的内容。另外，限制了功耗——或者说是，不需要DPU那么高的功耗。分布式存储和GPU集群对数据中心的RDMA拥塞控制要求越来越高，这也是各大云厂商高性能以太网需要卷算法的重点，相应的算法需要自研的交换机和网卡支持。英伟达的Spectrum-X平台只是其中一个流派，然后将其中配套的网卡赋予了SuperNIC之名——比智能网卡高级，但又不需要DPU那么高的规格。至于InfiniBand网络，并不需要把太多算力消耗在拥塞控制上，用ConnectX系列智能网卡就足够了。

从功能的角度，BlueField-3 DPU和BlueField-3 SuperNIC的异同点可以参见下表。简单说，BlueField-3 SuperNIC主要是围绕提升GPU在以太网中的协同能力设计的。英伟达建议高性能AI集群中，GPU与SuperNIC应该以1:1的比例进行配置。

硬件上，BlueField-3 SuperNIC相对DPU也有了相应的弱化。首先是Arm核心数量，从16个减半为8个，DDR5内存容量也从32GB（128bit + 16bit ECC）降为16GB（64bit + 8bit ECC）。对应的，功耗也降低了，DPU需要使用8pin的外接12V PCIe供电，SuperNIC取消了该辅助供电。BlueField-3全部是全高卡设计，均提供双网络端口，而SuperNIC既有全高卡，也有半高卡，网络端口可单可双。

往期推荐:

☞ 报告连载 | 算力即新质生产力（一）

☞ 报告连载 | 算力即新质生产力（二）

☞ 报告连载 | 算力即新质生产力（三）

☞ 报告连载 | 算力数据驱动智能驾驶进入下半场

☞ 报告连载 | 多模态大模型促进技术变革

☞ 报告连载 | 智能算力赋能自动驾驶

☞ 报告连载 | 车能路云网融合发展加速落地

☞ 报告连载 | 算力赋能产学研助力高校技术创新

☞ 报告连载 | 上海交通大学：优化应用部署，关注复合型人才培养

☞ 报告连载 | 华南理工大学：以多元化液冷实践打造高效绿色算力

☞ 报告连载 | 中国农业大学：花小钱办大事，算力强势增长

☞ 报告连载 | 华中农业大学：释放多元算力价值，推动交叉学科应用

☞ 报告连载 | 中国人民大学：升级算力应用，打造“玉兰 10B”大模型

☞ 报告连载 | 北京理工大学：提升大模型价值，“墨子”全新升级

☞ 报告连载 | CPU大小核的三条路径

☞ 报告连载 | Chiplet之模块化CPU

☞ 报告连载 | GPU：合纵连横

☞ 报告连载 | DPU：由云向智（一）

扫描或者点击文末“阅读原文”

可下载报告电子版

如需纸质版请注明

▼

关注

获取更多精彩内容

END

中研益企（北京）信息技术研究院有限公司（益企研究院）是面向数据中心、云计算、AI等信息科技领域最新技术和数字化应用的研究机构，长期致力于数据中心与云计算基础设施领域的新技术和新产品研究，帮助企业用户更快更好的接受新技术和新产品方案。通过研究、推广国内外领先的技术和方案，以及专业顾问、咨询等服务，降低市场和用户接受新技术、新方案的成本。在过去几年中发布的《2018中国超大规模云数据中心考察报告》、《2021中国云数据中心考察报告》、《算力经济时代·2023新型算力中心调研报告》、《2024 数字中国万里行暨算力经济中国行考察报告》、参编的《国家“东数西算”工程背景下新型算力基础设施发展研究报告》、《国家“东数西算”工程下算力服务发展研究报告》均广受业内好评。目前益企研究院已入驻多家平台，为安谋科技（Arm China）极术社区合作伙伴。

看清科技，解读价值

扫描“视频号二维码”

E企研究院

E企研究院聚焦云计算、AI、数据中心等新技术研究，新产品解析，为厂商顾问，为用户咨询服务，降低用户接受新技术、新方案的成本。

最新文章

单志广：关于“算力网”和“算力网络”的几点粗浅思考

高效存储应对AI挑战：Solidigm全新大容量QLC SSD，彰显领先实力

2024中国数据中心标准大会｜直面智算挑战新华三探索AI驱动的开放网络技术

大算力智未来 | 2024数据中心标准大会AI算力论坛

2024数据中心标准大会盛大开幕 | AI七色光，照耀智算中心未来路

【11月28日】益企研究院直播间释放互联潜能筑基AI计算

2024 数据中心大会全日程以及参会指南

2024数据中心标准大会倒计时2天 | 大算力智未来携手共绘智蓝图

第六届中国超级算力大会 |技术创新产业联动推动中国算力经济高质量发展

“智算力,大模型,新经济”第六届中国超级算力大会ChinaSC2024在京盛大召开

Solidigm 推出超大容量 122TB PCIe SSD，强化AI产品组合领先优势

更快！更稳！！更可靠！！！智算中心网络新架构

液冷：不只是技术革新，更是散热哲学

精彩预告 |“智算力，大模型，新经济” 第六届中国超级算力大会议程抢先看！

2024数据中心标准大会完整日程发布，直面AIDC变化与未来

报告连载 | “中国云谷世界算谷”“金融云谷”——和林格尔

风生水起智算中心液冷新动能

AI时代，如何升级你的智算中心？

【明晚20:00】益企研究院直播间再谈智算中心关键网络

数据中心标准大会主旨论坛：七大维度解读“AI之光，照耀未来”

构建本地服务器大生态 OCSP 展示社区全景图

【直播预约】11月7日益企研究院直播间再谈智算中心关键网络

智能化战略结硕果东软发布多款创新型解决方案

直播预约 | 智算中心网络深度解析

报告连载 | “草原云谷”——乌兰察布

报告连载 | “算力之都”——张家口

报告连载 | 绿电供给实践

报告连载 | 绿电应用探索实践

冷门知识：Intel 为什么要搞OCSP？

今晚20:00 | 从全球视角看智算中心液冷发展

报告连载 | 大模型助力算电协同创新

《智算中心800G/1.6T网络布线技术白皮书》将在数据中心标准大会上发布并赠阅

明晚20:00 | 从全球视角看智算中心液冷发展

报告连载 | 绿色节能创新实践

AI之光照耀未来 | 报名2024数据中心标准大会抢占行业先机！

报告连载 | 从专业计算到创新实践

10月24日20:00 | 从全球视角看智算中心液冷发展

AI之光照耀未来 | 报名2024数据中心标准大会抢占行业先机！

报告连载 | 全栈液冷技术新突破

报告连载 | 服务器：重构升级（下）

AI网络背景下RDMA的Why，What & How

10月24日益企研究院直播间——全球视角看智算中心液冷发展

报告连载 | 服务器：重构升级（上）

EPYC新篇章 Zen5创新架构引领性能大突破

报告连载 | DPU：由云向智（三）

AI之光照耀未来 | 2024数据中心标准大会报名启动

报告连载 | DPU：由云向智（二）

神雲科技实现MiTAC品牌整合服务器事业奋力跃进

算力存力Buff都叠满，至强6最强形态现身！

异构智算纵横未来 | 2024中国算力大会异构智算产业联盟技术论坛将于9月27日下午举行

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉