大模型时代数据底座,百度智能云数据库 DTCC 2024 精彩汇总

文摘   科技   2024-08-28 11:52   广东  

日前,由 IT168 联合旗下 ITPUB、ChinaUnix 两大技术社区主办的第 15 届中国数据库技术大会(DTCC 2024)在北京顺利举行。

作为国内数据库领域的技术风向标,本届大会以「自研创新、数智未来」为主题,汇集国内外众多数据库厂商和行业专家,重点围绕向量数据库与向量检索技术实践、数据治理与数据资产管理、云原生数据库开发与实践、特定场景下的数据库管理与优化、大数据平台建设等内容,一起探讨新时代下各类型数据库的最新动态和应用实践。
百度智能云数据库团队受邀出席本届 DTCC 大会,与 3000 余位数据库技术人和开发者们齐聚一堂,分享百度智能云数据库最新的产品体系、技术成果及实践经验,共话数据库领域的现状与发展。

1    百度智能云向量数据库创新和应用实践分享

大模型和 AIGC 的崛起,进一步推动了业务和应用对向量数据库的需求。在「向量数据库与向量检索技术实践」专场中,百度智能云数据库&大数据产品总架构师朱洁带来了《百度智能云向量数据库创新和应用实践分享》。

我们看到,大模型展现出来的理解、生成、逻辑和记忆的能力,激发了数据库与 AI 的深度融合。在大模型技术栈中,应用、模型、数据三者缺一不可;其中应用和模型工具平台发展得更早,当前我们恰好处于数据工具平台发展的初始阶段。
RAG 技术弥补了大模型的数据更新不及时、回答幻觉等问题,和大模型长文本能力是互相补充的关系。而 RAG 要做好,是一个系统级的问题,包括数据提取、数据索引、检索、生产各个环节。向量数据库已经投入到很多生产实践中,切实产生了业务价值。但是,当前 RAG 技术还处于早期,还有很多细节优化的空间,百度智能云的向量数据库 VDB 逐步积累了大量解决经验。
百度智能云选择从零开始自研一款 Native 向量数据库,虽然相比在原有数据库中增加向量插件更难,但是天花板更高,可以带来更好的扩展性、性能、以及企业能力。
未来,数据工程将会成为热点,会出现一个平台解决非结构化数据的采集和存储、数据处理、数据清洗、数据增强、智能数据管理和共享等全流程的数据治理能力。

2    云原生数据库 GaiaDB 极致成本与复杂查询加速技术实践

随着云计算的不断深入发展,云数据库呈现云原生化的发展趋势。在「云原生数据库开发与实践」专场中,百度智能云云原生数据库负责人邱学达分享了《云原生数据库 GaiaDB 极致成本与复杂查询加速技术实践》。

我们观察到云原生数据库的降本能力越来越被市场所看重,数据库设计也应兼顾性价比能力,才能实现普惠、普适硬件部署架构。这涉及到架构的设计优化、增强系统各环节的并行度、整合重复角色功能等,比如使用分布式架构优化将两跳网络交互缩短为一跳,这样可以降低对网络设备与基础部署环境的要求,也带来更好的风险抵御能力。
云原生数据库 GaiaDB 通过使用「计算-存储自适应动态回放技术」,解决了分布式系统中的慢节点问题;同时架构设计上将日志、存储节点都设计为对等架构,这样任意节点故障都不会对其他节点造成影响,也省去了复杂的节点间同步流程,避免了故障的扩散问题。
数据库的重中之重还是数据的可靠性。云原生数据库 GaiaDB 使用「计算-日志-存储解耦架构」,将日志流统一,降低了数据库日志、分布式框架日志、存储引擎日志的数据库格式转换带来的风险。同时使用全局和数据页双级别链式校验,不但可以抵御已知丢包、磁盘损坏风险,还能防范未知风险。当任意环节出现预期外事件导致数据流不一致,系统可快速检测并重试,防止数据损坏。
此外,今年大会的另一个热点是列式存储在 HTAP 场景下的全面落地。云原生数据库 GaiaDB 同样做了很多探索和深度实践,将部分算子下推至列存索引,加速 SQL 执行速度,加速效果可以达到百倍以上,大大丰富了数据库可以提供的使用场景,降低了业务开发成本。

3    百度智能云大容量KV数据库 PegaDB 的设计与实践

在「NoSQL数据库技术实践」专场中,百度智能云数据库 Redis 研发专家商雄分享了《百度智能云大容量 KV 数据库 PegaDB 的设计与实践》,重点介绍了 PegaDB 在集群水平伸缩、批量数据导入(Bulkload) 以及异地多活架构方面的设计。

我们观察到 Share-Nothing 分布式架构的典型问题之一是水平伸缩过程中数据迁移和正常业务请求形成资源抢占而影响业务请求。
百度智能云大容量 KV 数据库 PegaDB 从降低资源消耗和隔离访问的角度出发,将数据搬迁流程从「逻辑迁移」优化为「物理迁移」,去除不必要的编解码和读写过程,将目标端的数据写入收敛到统一接口,最终实现相同 CPU 和磁盘 I/O 资源下,数据迁移效率的数倍提升,同时能够精准控制对线上访问的影响。
此外,对于批量数据导入场景,常见的 Bulkload/Fastload 方案为先注入后缓慢 Compaction,该方案注入过程会对线上访问造成影响,也无法满足对数据时效性有较高要求的场景。PegaDB 的 Bulkload 方案,在数据生成阶段支持数据标签,实现在引擎层待注入文件 key 范围与 DB 中的 key 范围完全不重叠,使用 RocksDB 的 Delete File In Range 实现老版本数据文件的快速删除,使得整个 Bulkload 过程对业务的影响降低到最小,支持高频次的批量数据导入。
另外值得关注的是,PegaDB 的 Bulkload 在数据注入生效后支持秒级回滚,大大降低业务风险。
在当今全球化和数字化的时代,企业对高可用性和灾难恢复的需求日益增加,对数据库产品也提出了更高的要求。PegaDB 的异地多活的架构是通过在多个地理位置(机房)部署实例,使得每个实例都可以独立处理读写请求。这不仅提高了系统的容错能力,还能显著减少因网络延迟导致的性能问题。
此外,异地多活架构还能够在某个数据中心发生故障时,业务迅速切换到其他数据中心,从而最大限度地减少业务中断时间。异地多活的设计需要解决的关键问题包含断点续传、数据回环和据冲突,PegaDB 通过在 WAL 的 LogData 中为每一次写入添加必要的辅助信息,方便在数据同步过程中进行逻辑判断和处理。此外,在许多的设计中,WAL 的 LogData 可以得到很好的运用。

- - - - - - - - - - END - - - - - - - - - - 

点击阅读原文,了解向量数据库 VDB 更多信息
传送门

百度智能云技术站
您关心的云技术话题,就是我们想要分享的内容。欢迎大家后台留言,告诉我们您想了解的主题。
 最新文章