百度智能云新一代云原生产品加速 AI 原生应用落地

文摘科技 2024-10-11 11:41 北京

本文整理自百度云智峰会 2024 —— 云原生论坛的同名演讲。

今天为大家分享在过去的一年里，围绕 AI 原生的大背景下，百度智能云在基础公有云的计算、存储、网络以及云原生等产品和技术方面所做出的核心工作。

随着大模型所带来的 AI 技术的代际演化，我们总结在云上存在三种典型的工作负载: 以「数据并行」为核心思想的「大数据」计算负载，以「应用并行」为核心思想的「云原生」工作负载，以及以分布式「张量并行」计算来实现大模型训练和推理的「大模型」工作负载。

为了更好的支撑这三种典型的工作负载，我们以云原生架构和 AI 原生架构的深度技术融合为中心思想，重点围绕云原生计算、云原生网络、云原生存储和云原生应用这 4 个方向来打造新一代的基础公有云产品和技术体系。

云原生计算：基于新一代 CPU 和 GPU 芯片实现算力升级，结合 DPU 技术，打造极致的性价比计算产品；
云原生网络：基于云原生架构和软硬结合技术，在性能和规模上全面升级，实现高效组网；
云原生存储：基于新一代目录树架构，打造云原生数据湖产品体系，为 AI 应用提供数据存储底座；
云原生应用：面向开发者友好，建设云原生应用产品的企业级特性，提升应用部署管理效率。

在云原生计算方向，发布全新一代的计算实例和一系列企业级能力的升级。

在通用计算方面，结合新一代 Intel 和 AMD cpu 芯片，百度智能云上全新一代的 Intel EMR 和 AMD genoa 计算实例已经全面开放售卖。同时我们明年会推出基于 Intel 至强 6 的计算产品，全系产品主频在 3.3GHz 以上，满足对高主频算力有需求的场景。

在异构计算方面，百度智能云提供支持多种异构芯片的计算产品，包括国际主流的 L20/H20 等 GPU，以及自研加速芯片等计算产品，面向推理和训练场景全面优化性能，最高配备 3.2T 的 RDMA 高速网络，实现算力和网络的最佳配比，形成形态丰富的异构算力矩阵。

面向 AI 计算对模型安全的强烈需求，结合 Intel TDX 技术，我们发布了机密计算虚机产品，基于硬件实现内存和显存的数据加密，让应用无需修改就能实现加密能力。同时基于我们在虚拟机技术上的深厚积累，在总线拓扑和设备虚拟化等方面做了大量优化，极致降低了性能损耗，满足大模型训练和推理在计算性能和模型安全方面的双重要求。

百度智能云计算产品还实现了一系列企业级的产品能力升级, 基于大模型技术升级了智能终端，全面集成了 AI 助手，面向开发者完善了实例诊断和健康检查能力；面向短链接等应用场景提供了性能优化，面向不同 CPU 平台的应用迁移提供了专属的性能诊断和优化工具 Btune 等；开放了新版维修平台，实现了可订阅和可编程的事件总线。

AI 计算场景对模型数据安全提出了更高要求，基于 Intel TDX 机密技术我们全新发布企业级密算虚机产品。如左图所示，分别展示了普通虚机、加密的纯 CPU 虚机和加密的 GPU 虚机的形态。

机密虚机可以实现应用程序内存和显存的数据加密，从而保护模型的安全。百度智能云提供了 CPU 机密虚机，保护内存数据的机密性和完整性。基于英伟达 Hopper 架构，提供 GPU 机密虚机保证模型数据的安全。除了内存和显存以外，对本地盘和云盘等持久化数据提供端到端加密能力，保证持久化数据的安全。

基于百度太行 DPU 2.0 实现了计算架构的全面升级。DPU是云基础设施的底座，我们将虚拟化软件全部卸载到 DPU 上，从而提供了全核售卖的虚拟机能力，同时将存储和网络的 I/O 数据流利用 DPU 进行卸载和硬件加速，提供了可预期的存储和网络 I/O 性能，网络带宽升级到 200Gbps，网络转发性能达到 5000 万 PPS。基于 DPU 进一步研发了层级 QoS 能力，保证多租户之间的性能公平和隔离。

基于 DPU 的卸载能力，实现了弹性裸金属实例 BBC 的分钟级创建和删除，只有依托于 DPU 技术才可能高效的管理裸金属产品。

为了更好地满足客户对云上网络的灵活性诉求，我们对虚拟网络的产品和技术进行了全面的升级和重构，实现了虚拟网络 3.0 版本的进阶，更高效地支持企业在云上组网。

网络接入方面，专线接入带宽扩容到百 Tbps 量级，新发布 L2 网关产品，支持云上云下大二层网络的打通。

虚拟网络的规模能力实现了全面提升，单 VPC 支持到 300w 个 IP 地址规模，跨地域带宽和单个实例的服务网卡带宽容量实现了整体提升。

云上网络安全作为企业应用的守护者，也实现了全方位升级。安全防护产品带宽提升至 Tbps 水平，同时能够支持第三方安全设备的接入，满足自定义的安全防护需求。

整体上百度智能云通过虚拟网络 3.0 的全新升级，在弹性、性能、规模和安全等能力上均得到了大幅提升，可以更好的满足企业应用灵活组网的要求。

百度智能云虚拟网络控制器架构基于云原生的设计思想进行了全面的重构，可以更好的满足云原生应用对网络弹性能力的要求。

云原生化的虚拟网络控制器架构主要包括 3 方面的技术改造：通过转发表项的动态学习技术，将 vSwitch 的内存占用降到了最低水平，使得单 VPC 支持的 IP 地址数量达到 300 万个。

通过云原生化声明式架构的设计思想，大幅提升了虚拟网络IP地址和网络设备的创建效率，IP 分配速度提升至 3000 个/秒，最终可以实现分钟级交付 10 万核算力的能力。

虚拟网络 3.0 数据面部分引入了新一代可编程硬件。

传统的可编程芯片存在一定弊端，主要表现在硬件表项不足，私有协议功能弱等问题。

我们通过组合 FPGA、DPU、可编程芯片等多种芯片，研发了新一代软硬一体的可编程网关，形成超快速路径、快速路径、慢速路径三条核心转发平面，进而实现了微秒级报文转发时延、千万级 session 加速、Tb 级接入网关等核心能力，让广大用户享受到超高性能和超稳延迟的网络报文转发能力。

围绕 AI 原生应用场景，百度智能云在数据库和大数据方面做了完整的产品布局。

基于新一代目录树架构技术，进一步提升了云原生数据湖的性能和大数据分析的产品功能。同时我们也发布了自研的向量数据库产品，相比开源版本性能更优，在企业级产品管理能力方面。

百度智能云数据库和大数据产品涵盖数据处理、模型开发、模型训练、推理应用的主流 AI 原生应用场景。

云原生应用产品体系以面向开发者友好为核心思想，我们进行了全系产品升级。

以容器产品为基础，全面加强云原生应用产品的企业级产品特性，简化运维复杂度，做到性能和稳定性的提升，覆盖应用部署、应用可观测和应用可运维的应用全生命周期，释放开发者生产力。

容器产品是云原生的基础，我们围绕容器基础能力进行了全新的设计和优化。

在企业级能力上，全新发布容器集群规格的产品化能力，不同规模的集群关联的配套 IaaS 产品整体交付，实现集群开箱即用。

我们对集群管理核心架构进行了技术重构，集群节点规模提升了 10 倍, 容器网络数据面路径 bypass 了 host 内核协议栈。相比非容器网络情况下，性能损耗降低到 1% 左右。

我们进一步完善集群托管能力，核心控制面组件全部被托管，节点组提供了操作系统升级和维护能力，可以有效降低运维复杂度。

结合 serverless 型容器产品 BCI 可以实现每分钟创建 4000 个容器的能力。

丰富的云上可观测产品矩阵，覆盖从问题发现到问题定位，再到问题解决整个流程，全面提升开发者的自服务能力，可以自助自主的高效解决问题。

问题发现方面，可观测产品的覆盖面和问题分析能力进一步提升。日志服务进行了全面重构，实现了千亿行日志的秒级查询。容器监控丰富了云原生 AI 场景的全栈监控指标。

问题定位方面，包含了容器集群、应用和网络的自助诊断功能。应用性能诊断和优化工具 Btune 中集成了大量性能优化经验，不仅可以快速定位性能瓶颈，还会输出优化建议并一键完成性能优化。

问题解决方面，进一步丰富了问题解决效率和自动化的运维产品。通过大模型加持的 AI 助手，可以快速生成操作命令。通过运维编排产品，实现千台实例的批量操作，提升运维效率。

新一代核心技术和产品能力的提升，让我们更多的客户享受到了技术的红利。

利用虚拟网络性能的提升，搜广推场景的客户应用服务性能得到 2-3 倍提升。基于百度智能云的弹性能力，满足音视频直播类客户极速扩缩容需求，支持国民 3A 游戏大作的热潮。利用可信计算产品，让应用透明地运行在加密虚机内，保障广大金融类客户数据和模型的安全。

在生成式 AI 的技术浪潮下，百度智能云通过不断强化云原生和 AI 原生的双引擎能力，帮助广大企业加速 AI 原生应用的业务落地，共同迎接 AI 原生的新时代。

- - - - - - - - - - END - - - - - - - - - -

点击阅读原文

观看百度云智大会 2024 演讲视频回放

传送门

http://mp.weixin.qq.com/s?__biz=MzkxOTM4MTM3Ng==&mid=2247488344&idx=1&sn=77c80778bec0d0227f139d500c755717

百度智能云技术站

您关心的云技术话题，就是我们想要分享的内容。欢迎大家后台留言，告诉我们您想了解的主题。

最新文章

AI 原生时代，更要上云：百度智能云云原生创新实践

百度智能云千帆 AppBuilder 大模型应用开发解读

计算不停歇，百度沧海数据湖存储加速方案 2.0 设计和实践

百度智能云千帆 ModelBuilder 大模型服务及开发解读

大模型时代，云原生数据底座的创新和实践

百度智能云新一代云原生产品加速 AI 原生应用落地

百度智能云千帆大模型平台技术革新与产业实践

智算基石全栈加速，百度百舸 4.0 的技术探索和创新

数据仓库 Palo 2.0 for Apache Doris 冷热分离原理分析

百度网盘企业版数据快速上云，数据流转平台 CloudFlow 加速大模型训练迭代

HelixFold 3 全球首个完整复现 AlphaFold 3，百度智能云 CHPC 为人类生命探索提供算力平台支撑

百度智能云向量数据库创新和应用实践分享

大模型时代数据底座，百度智能云数据库 DTCC 2024 精彩汇总

90 分钟带你玩转知识库应用

云高性能计算平台 CHPC 让企业的传统 HPC 玩出新花样

如何定量分析 Llama 3，大模型系统工程师视角的 Transformer 架构

无需业务改造，一套数据库满足 OLTP 和 OLAP，GaiaDB 发布并行查询能力

百度智能云将大模型引入网络故障定位的智能运维实践

彻底解决网络哈希冲突，百度百舸的高性能网络 HPN 落地实践

基于 Native 技术加速 Spark 计算引擎

大模型时代数据库技术创新

通过搭建 24 点小游戏应用实战，带你了解 AppBuilder 的技术原理

低代码组件扩展方案在复杂业务场景下的设计与实践

不是GPU买不起，而是多芯混合更有性价比

如何从 0 到 1 研发一款专用向量数据库产品？

长江云 IPTV 融合业务 0 改造平滑迁移上云，《面向 AIGC 的数智广电新质生产力构建白皮书》开放下载

百度百舸 AIAK-LLM 的大模型训练和推理加速实践

大模型驱动的新一代 BI 平台，Sugar BI 开启智慧决策新模式

一次性讲明白，如何搞定一个可以支持多芯混合训练的 AI 集群

多元 CPU 性能调优的技术挑战、产品设计和业务实践

云原生数据库下一站：像 MySQL 一样流行，让更多人受益于新技术的发展

不再等待直接上答案，百度智能云推出数据库 Copilot

百度智能云千帆，产业创新新引擎

百度智能云发布专用向量数据库 VDB 1.0，全新设计内核开启性能狂飙

百度智能云加速「低代码+大模型」融合，爱速搭位居 2023 年 IDC 低代码/无代码领导者象限

专为大模型训练优化，百度集合通信库 BCCL 万卡集群快速定位故障

2023 H1 中国边缘公有云服务市场 Top2，百度智能云加速推动分布式云智能化升级

数据库运维工作量直接减少 50%，基于大模型构建智能问答系统的技术分享

云上业务一键性能调优，应用程序性能诊断工具 Btune 上线

如何实现一个百万亿规模的时序数据库，百度智能云 BTS 架构解析和实践分享

百度 Comate 提升编码效率，释放 10 倍软件生产力

百度智能云千帆 AppBuilder 构建 AI 原生应用开发新范式

智算让大模型触手可及

AI 原生时代的云计算

大模型重构云计算

一站式数据库上云迁移、同步与集成平台 DTS 的设计实践

分布式数据库 GaiaDB-X 金融应用实践

高性能和多级高可用，云原生数据库 GaiaDB 架构设计解析

从互联网到云计算再到 AI 原生，百度智能云数据库的演进

从 MLOps 到 LMOps 的关键技术嬗变

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉