DPU，扮演重要角色

科技 2024-07-24 17:57 广东

编辑：苏子瞻
来源：科技最前线 (kejizqx)

在人工智能席卷全球的浪潮下，我们正在跨入一个新算力时代。

国家工信部等“六部门”在2023年10月联合印发的《算力基础设施高质量发展行动计划》（以下简称“计划”）中指出，要围绕计算力、运载力、存储力以及应用赋能四个方面高质量发展，并提出2025年的发展量化指标。“计划”还强调，将针对智能计算、超级计算和边缘计算等场景，开展数据处理器（DPU）、无损网络等技术升级与试点应用，实现算力中心网络高性能传输。

由此可见，未来需要的不仅仅是单一的算力中心，而是一个高效的面向广泛业务场景的算力集群。这就要求必须要打造一个将算力和网络融合在一起（即算网融合）的基础设施。这当中，DPU将扮演不可或缺的重要角色。

算网融合，必然趋势

正如中国电信和云豹智能等编撰的《云网融合下智能算力网络应用发展白皮书》（以下简称“白皮书”）所述，算力网络是一种架构在IP网之上，以算力资源调度和服务为特征的新型网络技术或网络形态。相关算力网络旨在突破诸如数据中心、超算中心、云计算、边缘计算等“孤岛”状态下的计算能力限制，构建算网云一体的新型智能、高效、按需的算力服务体系。

随着AI大模型训练和推理的复杂性不断增加，训练这些模型所需的计算资源也随之增加，同时需要的训练数据集也非常庞大。而在实时推理场景下，部署在实时环境中的AI应用也要求快速、低延迟的推理能力。为了满足这些实时性要求，同样需要强大的计算资源来执行模型推理。因此，如何提供高效、便捷的智能算力资源将成为算力网络发展的重要落脚点。

作为算力网络的提供者，电信运营商承担着至关重要的责任，为了能在瞬息万变的电信市场中保持领先优势，他们需要在这个算力需求大增的时代一边增强用户体验，一边控制成本。但是，一方面，用户对于网络速度、稳定性和低时延的要求日益提高；另一方面，指数级的流量增长对现有基础设施造成巨大压力，导致维护和升级成本急剧上升；此外，技术的快速更新换代也给电信运营商带来挑战。不断涌现的新技术需要运营商具备强大的研发和应用能力；同时，不同地区和用户群体的需求差异较大，使得网络规划和资源分配变得极为复杂。

为了应对这些挑战，支撑灵活多变的网络资源、算力资源和数据资源调配需求，电信运营商正在积极引入网络虚拟化（NFV）、SRv6等先进技术，实现网络资源的灵活调配和高效利用，建设和发展智能算力网络，提高网络的承载能力和服务质量，从而在满足用户对高速、稳定网络需求的同时，有效控制成本。

针对不同的终端应用，给智能算力网络提出了不同的需求。

“网络边缘区域需要低时延，高算力特性；网络传输区域需要高带宽，低时延特性；核心网络需要高数据吞吐、巨量通用CPU算力和高并行GPU算力的特点。”白皮书举例说。另外，在不同的网络分层结构中，云网需要面对复杂多变的应用场景，现存的网络中包含数据中心、超算中心、边缘云等“孤岛”网络，各自为战，不能有效地最大化算力资源的利用率。

这时候，SRv6网络协议就能发挥重要的作用。

SRv6，势在必行

SRv6，是Segment Routing IPv6的缩写，也就是基于IPv6转发平面的段路由。简单来讲即SR（Segment Routing）+IPv6，是新一代IP承载协议。其采用现有的IPv6转发技术，通过灵活的IPv6扩展头，实现网络可编程。

无论是面对AI还是电信NFV网络功能，都面临跨网络、跨云的云网融合需求。为此，智能算力网络都逐渐开始采用硬件加速和SRv6技术作为智能算力网络建设的底层技术。

作为新一代IP承载协议，SRv6采用现有的IPv6转发技术，通过灵活的IPv6扩展头，可实现网络可编程。又因为简化了网络协议类型，使得SRv6具有良好的扩展性和可编程性，可满足更多新业务的多样化需求，提供高可靠性，在云业务中有良好的应用前景。从应用上来看，SRv6可以被视为对传统的基于 MPLS（多协议标签交换）的流量工程和Segment Routing 技术的升级和扩展。它利用了IPv6地址的灵活性和可编程性，提供了更强大的网络功能和灵活性。因此，在智能算力网络建设的进程中，SRv6 正逐渐展现出愈发关键的作用。

使用基于IPv6的分段路由具备以下四大优势：

第一、可减少网络中实施的协议数量，从而降低运营支出（OPEX）；

第二、分段路由可原生支持网络可编程性，不但可以优化分布式计算场景下的网络性能，也可以无缝支持 NFV 环境；

第三、SRv6 同时支持 SDN、服务链和隧道，可简化 NFV 实施；

第四、SRv6基于源路由技术，可以在不具备SRv6功能的设备和网络环境上进行增量的SRv6部署，实现对现有网络设备环境的无冲击柔性扩展升级，逐步实现云网的有序融合。

然而，传统支持SRv6的网关在数据面和管控面的实现方案主要依赖通用CPU以软件形式实现，虽然这能够快速打通业务功能和逻辑，但却需要额外消耗CPU算力资源。因此，如何设计和利用高性能芯片的硬件加速卸载能力，以提供有效的数据吞吐能力，成为提高智能算力网络功能和性能的重要因素。

随着算力网络的高速发展，这种挑战日益严峻。

首先，算力网络从概念到实际部署验证在近年来也逐步取得发展，与算力网络相关的标准和规范亦都在积极推进中，但是面对快速迭代的技术演进，受困于摩尔定律逐渐失效的CPU就显得有些滞后，但数据的增长步伐依然没有放缓。

其次，随着数据中心业务的发展，云计算技术逐渐演进，不同的虚拟化技术和资源形态被提出。在云计算资源的管理上，无论从“虚拟机”、“裸金属”还是“容器”的角度出发，传统的依托CPU作为中心算力的管控系统都面临挑战。为了满足用户灵活动态的算力服务需求、降低数据中心的建设运维难度，需要统一的资源管控技术来管理计算资源。

第三，在云计算发展过程中，为了满足不同业务对存储功能的需求，存储技术也在不断地完善和加速演进中，存储协议和相应的文件系统变得越来越复杂。随着集群规模的增大，服务器上存储IO负载负担也越来越重。这就让CPU算力资源遭受巨大瓶颈，因为在传统存储技术实现中，针对存储协议处理、存储数据IO操作都是基于CPU的通用算力资源来完成。

“在数据中心内部，由于长期以来数据转发工作都依赖于节点上的CPU，其性能受生产工艺的物理极限限制，导致其性能提升远落后于网络带宽的发展。”白皮书中强调。

于是，DPU横空出世，成为了新的“救世主”。

DPU，走向台前

DPU并不是什么新概念。

全球最大的云服务商亚马逊旗下的AWS早在2013年就开始秘密研发其DPU系统，并从2017年就大规模部署了Nitro DPU系列。借助这个自研产品，他们把网络、存储、安全和监控等功能分解并转移到专用的芯片和软件上，从而将服务器上几乎所有的资源都提供给服务实例，降低了数据中心总体的运行成本。

其后国内各大云服务商，包括阿里云、腾讯云、百度云、火山引擎都在跟随AWS部署DPU来提升云服务算力资源的效率，降低运营成本。

DPU之所以其成为算网融合时代的“救世主”，是因为在数据中心环境中，DPU 可以帮助加速和优化多种网络处理任务，包括SRv6，实现更精细的网络流量管理、服务质量保障和安全策略实施，为基于 SRv6 的网络架构提供更好的性能和功能支持。

作为国内头部DPU企业，云豹智能之前跟中国移动、中国联通、工商银行、火山引擎（字节跳动）等行业头部企业合作，撰写过DPU各种不同应用场景的白皮书。现在，云豹智能携手中国电信天翼云打造《云网融合下智能算力网络应用发展白皮书》，为DPU的技术发展继续添砖加瓦。

白皮书指出，随着网络、算力需求的持续增加，DPU不仅需要高效率提供数据面的加速能力，还需要针对控制面的操作进行解耦和卸载。因此，DPU需要集成通用的多核处理器提供基础设施软件组件的卸载，以及可编程的网络处理引擎提供对网络数据处理的硬卸载能力和多种特定领域的数据面加速。

DPU在云计算应用中将扮演重要角色，是衔接算力（包括CPU+GPU）和网络两大领域的重要枢纽，也是应用驱动下出现的异构计算设计的必然结果和实践。DPU的体系架构解决了在云计算应用中CPU、GPU低效率或者不能完成的技术难点，在整体上提升了运行效率的同时也有效降低了云计算基础设施的投资和运维成本。

这个体系架构还真正实现了对计算资源、网络资源、存储资源的统一运维和管理，并且可以轻松地支持网络、存储和管控的卸载；支持裸金属应用模式下的宕机迁移；支持虚拟机应用模式下的虚拟机热迁移。

总而言之，从技术上看，DPU拥有灵活可编程、统一资源管控、算力卸载、低时延网络和安全可信等特性。具体到智能算力网络支撑方面，DPU不但能够支持SRv6数据面的卸载，也能够支持SRv6控制面板的卸载，还能支持P4的数据面和控制面编程。

得益于这些领先特点，从云豹 DPU 芯片在SRv6 应用实测数据看来，相比传统基于通用CPU技术方案，在处理能力方面有着显著提升，其性能提升超过百倍，能显著提升云计算和网络融合的效率。

这足以体现DPU在推动我国数字经济发展过程中具有重要意义。云豹智能和中国电信等一众本土厂商的相向而行，也必将成为DPU走向算力网络中心的重要推动者。

点击阅读原文或扫描下方二维码可下载完整白皮书

提取码：6666

科技最前线

在这里看见未来！科技互联网头部帐号，深度解读科技产业。

最新文章

保时捷困境，国产新能源的豪车叙事

当内娱给百度网盘充起了会员

台积电断供！国产AI芯未来路在何方？

太疯狂！国产AI 20天狂烧3亿，新“掘金密码”曝光

AR，正逐步进入生产力工具时代

特斯拉创13年来单日最大涨幅！一夜涨了半个茅台

以AI之力应对AI引发的网络挑战——大模型还能这么用

顶流品牌纷纷押注，《和平精英》打响新时代跨界合作又一枪

让OpenAI o1成AI天花板的慢思考模式，360已提前两个月落地

李彦宏内部讲话曝光，谈大模型三大认知误区

资本连夜逃离英伟达

跨界联动？秘塔AI搜索有点意思

巨头即将入局？闺蜜机行业格局或面临“洗牌”？

DPU，扮演重要角色

Robotaxi的尽头是抢夺背后1100万个饭碗？

傲慢的李想

一副耳机，开启AI生产力新时代

大模型面临“饥荒”？三部曲解决高质量数据供给问题

神秘小蓝环，解锁NFC支付新魔法

大模型竞赛？我觉得海螺AI这次还真能赢

“党员”马斯克豪赌的FSD，真有那么神奇？

抖音做AI，真的有一手

电子书下载 | 利用 OpenUSD 和 NVIDlA Omniverse™ 开启物理精确模拟世界 AI 新时代

小米启动，特斯拉急了，谁在围剿国产新能源

AI能管天气？世界模型的一个超级实验

雷军：睡不着觉的痛苦，该轮到你们了

阿里妈妈LMA大模型技术来袭，AI电商迎来“iphone时刻”

能超越英伟达的只有英伟达

视频号创作者联盟 WeGet成立，专注行业交流，打造高品质内容

ChatGPT耗水费电，杨立昆痛批Sora注定失败，生成式成为原罪？

英伟达赢麻的当下，AI初创企业何去何从？

当AI遇上爽文，当套路遇上套路

2023新王已出，2024谁将是新能源车圈第一？

299即享千元体验，百事乐八核L23手机用心倾听每一份需求

电竞发展史：始于正名，兴于规范

自主创新再迎重磅成果：国产数据库为数字政府建设夯基筑底

Google大模型Gemini，全球最强AI模型正式易主？

从亚马逊看中国电商

已进入全面数字化阶段的美的再有新动作！DMS4.0能带来哪些惊喜？

再放王炸！AI版AppStore重磅上线，GPTs才是ChatGPT真正的完全体

国产工业软件的“软肋”与“铠甲”

比亚迪的仰望

营收百亿，大涨4500%，第一批大模型已经赚疯了

科技+匠心，易开得一杯好水的奔赴

星闪技术商用，科技爆品来袭

新能源汽车竞争下半场：在价格，更在智能化

AIGC中场竞赛的决胜点，一定是抓住了好的应用场景

杀回5G的华为，能否再次硬刚苹果？

激光雷达行业新机遇：国内首款面阵SPAD芯片研发落地！

AI大模型的风，终究都吹向了英伟达

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉