大模型时代，云原生数据底座的创新和实践

文摘科技 2024-10-14 11:57 北京

本文整理自百度云智峰会 2024 —— 云原生论坛的同名演讲。

大模型毫无疑问是当前技术发展的热点，成为大家默认的提升生产力工具。

但是，大模型训练主要使用互联网上的公开数据为主，没有企业内部的数据，所以大模型本质上自带的都是一些通用智能。

缺乏行业知识，以及没有实际企业内部的数据，导致大模型也就无法处理真正的企业业务问题，也没有办法作为生产力工具。

要解决这个问题，业界主要有两种方法，一种是通过精调的方法，一种是通过企业 RAG 的方式；让大模型使用企业的数据，再加上通用模型，从而拥有了企业智能。

要想拥有好的企业智能，会有几个方面的挑战：

大模型要的企业的数据，包括结构化和非结构的数据都在原来的各种存储，数据库里面。需要经过一系列加工，包括采集，清洗，转换，标注等等才能转换成大模型或者向量数据库可以处理的数据，从而支撑后面的各种业务。因此需要有很好的平台和能力可以支撑这些数据的处理、存储、以及查询。
企业业务持续经营，数据规模会同步增长。同时，大模型进一步促进更多的数据增加。这对数据平台的性能，性价比要求进一步提高。
对于企业来说，先人一步构建好的应用，是非常关键的。所以大模型业务天然是敏捷性要求高的业务。那为了更容易的构建业务，平台本身的易用性是非常关键的。

所以，在大模型时代，企业原来生产系统，以及新智能的应用对平台的挑战是越来越大的。更快，更好，更易用的一站式平台作用也更凸显。

接下来我给大家介绍一下在过去一年时间，百度智能云在数据库和大数据领域的重要更新，以便更好地帮助企业更好的在大模型时代迎接数据处理和存储的挑战。

我将从内核和平台两个维度展开介绍。

首先是内核维度。如果我们从企业数据量大小来分，通常也可以认为，越是在线数据，数据量相对较少，价值也相对较高。

通常可以分为缓存数据、关系型数据、文档数据、向量数据、在线分析数据、离线分析数据。企业的数据有不同的类型，所以需要不同能力的引擎才能处理好这些数据。

首先看缓存数据。百度智能云有自研的 KV 数据库 PegaDB，对标开源 Redis 等产品，除了传统的互联网场景，KV 数据库在 AI 场景也有很广泛的应用。缓存数据库核心挑战还是在性能、成本、高可用方面，在过去一年里面，我们核心优化了这些方面，性能上支持批量加载，高用上支持异地多活的能力，成本上支持冷热分离，通过把相对较冷的数据自动迁移到 SSD 上显著降低成本。

在 KV 数据库这个领域， PegaDB 处在业界领先的位置，体现在几个方面：

首先是性价比上，我们通过领先的价格，价格比竞品低 30%～50%。性能上支持超高的内存使用率，单集群超过 100 万 QPS，p999延迟低于 10ms.

产品在头部互联网视频网站、国内快递龙头企业等大规模落地，得到了客户的广泛认可。

第二个就是云原生数据库 GaiaDB。

关系型数据库经过 50 多年的发展，仍能是数据库行业最核心，最重要的细分领域。其中云原生数据库经过各家厂商的努力，取得了相对的共识，那就是云原生数据库是未来的趋势和当前发展的重点。

百度智能云在这个领域也持续投入，今天隆重发布 GaiaDB 5.0 版本。这个版本进一步拉开了和开源数据库的差距，产品能力齐平业界领先数据库。主要有以下几个关键的提升：

首先在计算能力上，扩展了开源数据库处理能力弱的问题，通过支持 HTAP 的能力，解决复杂分析负载的难题；同时，支持列存索引和列存引擎两级。轻负载的使用列存索引即可，如果数据量大，选择使用列存引擎。
第二个是计算引擎的 scale out，云原生数据库是通过存储计算分离解决了存储的扩展性问题。GaiaDB 5.0 正式引入计算节点的扩展能力，从而实现分布式云原生一体化的能力，不管是计算节点，还是存储节点都可以扩展。
第三个是针对开发者，或者有明细业务波动的业务，GaiaDB 支持 Serverless 版本。Serverless 通过计算节点的秒级弹性变配，存储的分级存储，从根本上压榨成本，从而实现用户超过 50% 计算资源和 80% 存储资源的节省。这个产品能力对开发者，以及需要弹性的业务非常友好。

GaiaDB 5.0 的一个里程碑的版本，未来会持续沿着位用户提供能力综合，稳定性强的数据库持续演进。

向量数据本质上是非结构化数据的高维特征，通过向量的相似度比较，成功的解决了非结构数据检索的问题。

随着大模型的火爆，向量数据库重新进入了一个高速发展。

相比在开源数据库基础上简单叠加向量插件，我们选择了自研向量数据库，因为自研向量数据库的天花板更高。

在今年 3 月份的时候我们正式发布了 1.0，截止目前为止有几千个客户。今天我们正式发布 2.0 版本。

2.0 版本相比 1.0 持续提升性价比，包括降低索引大小，提高超过 2.35倍的内存使用率。VDB 性能也处在业界领先，相比开源向量数据库有超过 7 倍的提升。

另外，向量数据库主要服务于 RAG 场景，所以我们针对知识库场景，提供了 AI Search SDK，通过这个 SDK 可以快速的构建知识库应用。

在数据分析领域，根据业务的不同诉求，一般分实时分析和离线分析。

实时分析这个领域，应该很多人了解 doris。doris 是百度开源出去的数据仓库。Palo 就是基于 doris 做的云上服务。

今天我们发布 Palo 2.0 版本，相比开源版本，Palo 2.0 在稳定性上做了很多提升，修复了超过 500 个 bug。

Palo 2.0 版本 TPC-DS 盲测性能相比上一个版本提升超过 10 倍，通过支持冷热分离，存储的成本下降超过 80%。

大家可以到云上体验最新的稳定的 Palo 2.0 版本。

除了前面介绍的各种引擎的能力，平台的作用也非常大，他是决定数据平台是否好用，智能的关键。这部分主要有三个关键的平台。

第一个是 DBSC，一站式数据库的 Devops 平台，实现数据库的开发，管理一体化。
第二个是 EDAP，大数据领域的，实现湖仓一体化开发治理平台，实现开发、治理、运行的一体化。
第三个是 DBStack，这个是数据库的私有化输出平台，支持多云多引擎。是全新推出的数据库轻量化平台。

DBSC 2.0 版本，相比 1.0 支持智能诊断等能力的基础上支持了数据库开发、安全审计等能力，实现了开发、运维、安全的一体化。同时在 1.0 支持MySQL的基础上，支持了如 GaiaDB，Redis ，openGauss 等十多种数据库。

数据湖，湖仓一体化是大数据领域最新的方向。

除了传统结构化数据的处理增强之外，随着大模型的出现，我们观察到业界有几个明显的趋势。

首先是大模型能更好的处理非结构化数据，所以带来非结构化数据的需求增多。
这也就带来了第二点，由于非结构化数据处理增多，大数据和 AI 之间非常多的能力需要打通和结合。
第三个特点是大数据平台原来都是一系列散件，有各类处理能力，开发和处理是分开的。但是对用户来说，一个简单的，容易使用产品是刚需，所以整个业界的整体趋势都是往一体化方向发展，给用户提供完整的开发体验统一的数据湖管理、数据治理的能力。

今天非常高兴宣布我们的 EDAP 2.0 发布，2.0 版本提供了四个方面主要的能力，

首先是数据湖的能力增强，全流程都支持非结构化数据治理，包括数据接入，元数据发现，血缘管理等等。
第二个是和 AI 平台深度打通，通过 EDAP 和 BML 的打通，实现了大数据、AI 在回到数据的闭环。
第三个是一体化的平台实现湖仓管理和开发治理的一体化，并且支持 Iceberg、Hudi、Deltalake 等主流格式。
第三个是计算引擎层全流程支持 serveless，包括数据集成、数据开发如 spark，flink，jdbc 等，以及数据分析和数据服务。

大家会发现，EDAP 2.0 从数据类型、执行能力、管理能力上都有非常大的提升，实现了更智能，更高效的湖仓一体化治理平台。

第三个平台是数据库平台 DBStack。

公有云上提供关系型数据库、NoSQL、数仓、数据开发工具等全套能力。私有化场景下，更多的厂商都是提供单一的产品。产品矩阵相比公有云可以说欠缺较多。但是私有化客户业务同样复杂，需要全套的能力。

DBStack 发布 1.0 就是补充这个 GAP，是目前业界唯一能提供完整数据库，包括开源、云原生、和商业数据库，还支持跨云，多云和混合云部署的能力管理平台。

DBStack 的诞生就是让客户不再受制于环境，可以享受到公有云一样的产品能力。

前面介绍了一系列数据库、大数据产品的重点更新。百度智能云提供一站式云原生数据底座，覆盖完整的数据库的关系型、NoSQL、工具、大数据的开发工具，离线计算，在线中间等全套产品和服务。

百度智能云的云原生数据底座也在持续演进，给客户提供更快、更强、更智能、更易用的能力，使能大模型业务，满足百行千业客户的诉求。

谢谢大家，我今天的分享就是这些。

- - - - - - - - - - END - - - - - - - - - -

点击阅读原文

观看百度云智大会 2024 演讲视频回放

传送门

http://mp.weixin.qq.com/s?__biz=MzkxOTM4MTM3Ng==&mid=2247488379&idx=1&sn=f20f143b300334ef6eb58e19991cb285

百度智能云技术站

您关心的云技术话题，就是我们想要分享的内容。欢迎大家后台留言，告诉我们您想了解的主题。

最新文章

AI 原生时代，更要上云：百度智能云云原生创新实践

百度智能云千帆 AppBuilder 大模型应用开发解读

计算不停歇，百度沧海数据湖存储加速方案 2.0 设计和实践

百度智能云千帆 ModelBuilder 大模型服务及开发解读

大模型时代，云原生数据底座的创新和实践

百度智能云新一代云原生产品加速 AI 原生应用落地

百度智能云千帆大模型平台技术革新与产业实践

智算基石全栈加速，百度百舸 4.0 的技术探索和创新

数据仓库 Palo 2.0 for Apache Doris 冷热分离原理分析

百度网盘企业版数据快速上云，数据流转平台 CloudFlow 加速大模型训练迭代

HelixFold 3 全球首个完整复现 AlphaFold 3，百度智能云 CHPC 为人类生命探索提供算力平台支撑

百度智能云向量数据库创新和应用实践分享

大模型时代数据底座，百度智能云数据库 DTCC 2024 精彩汇总

90 分钟带你玩转知识库应用

云高性能计算平台 CHPC 让企业的传统 HPC 玩出新花样

如何定量分析 Llama 3，大模型系统工程师视角的 Transformer 架构

无需业务改造，一套数据库满足 OLTP 和 OLAP，GaiaDB 发布并行查询能力

百度智能云将大模型引入网络故障定位的智能运维实践

彻底解决网络哈希冲突，百度百舸的高性能网络 HPN 落地实践

基于 Native 技术加速 Spark 计算引擎

大模型时代数据库技术创新

通过搭建 24 点小游戏应用实战，带你了解 AppBuilder 的技术原理

低代码组件扩展方案在复杂业务场景下的设计与实践

不是GPU买不起，而是多芯混合更有性价比

如何从 0 到 1 研发一款专用向量数据库产品？

长江云 IPTV 融合业务 0 改造平滑迁移上云，《面向 AIGC 的数智广电新质生产力构建白皮书》开放下载

百度百舸 AIAK-LLM 的大模型训练和推理加速实践

大模型驱动的新一代 BI 平台，Sugar BI 开启智慧决策新模式

一次性讲明白，如何搞定一个可以支持多芯混合训练的 AI 集群

多元 CPU 性能调优的技术挑战、产品设计和业务实践

云原生数据库下一站：像 MySQL 一样流行，让更多人受益于新技术的发展

不再等待直接上答案，百度智能云推出数据库 Copilot

百度智能云千帆，产业创新新引擎

百度智能云发布专用向量数据库 VDB 1.0，全新设计内核开启性能狂飙

百度智能云加速「低代码+大模型」融合，爱速搭位居 2023 年 IDC 低代码/无代码领导者象限

专为大模型训练优化，百度集合通信库 BCCL 万卡集群快速定位故障

2023 H1 中国边缘公有云服务市场 Top2，百度智能云加速推动分布式云智能化升级

数据库运维工作量直接减少 50%，基于大模型构建智能问答系统的技术分享

云上业务一键性能调优，应用程序性能诊断工具 Btune 上线

如何实现一个百万亿规模的时序数据库，百度智能云 BTS 架构解析和实践分享

百度 Comate 提升编码效率，释放 10 倍软件生产力

百度智能云千帆 AppBuilder 构建 AI 原生应用开发新范式

智算让大模型触手可及

AI 原生时代的云计算

大模型重构云计算

一站式数据库上云迁移、同步与集成平台 DTS 的设计实践

分布式数据库 GaiaDB-X 金融应用实践

高性能和多级高可用，云原生数据库 GaiaDB 架构设计解析

从互联网到云计算再到 AI 原生，百度智能云数据库的演进

从 MLOps 到 LMOps 的关键技术嬗变

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉