图灵奖得主 Stonebraker 带你回顾数据库技术二十年的周期性演进

文摘   2024-07-16 08:30   北京  


最近,数据库行业唯一在世的图灵奖得主 Michael Stonebraker 和 CMU 知名教授 Andrew Pavlo (Andy) 教授联合发表了数据库论文《What Goes Around Comes Around... And Around》。过去 20 年,数据库领域诞生了众多新技术,这对数据库届的王炸组合对这些技术的看法是怎样的呢?


由图灵奖得主 Michael Stonebraker 和 CMU 知名教授 Andrew Pavlo (Andy)教授创作的最新论文《What Goes Around Comes Around...And Around...》,标题着实特别,“What Goes Around Comes Around”中文翻译过来是「种瓜得瓜,种豆得豆」、「因果报应」。而后面的 Around,暗示着这其实是一篇续作。


早在 2006 年,Stonebraker 教授和他的学生,UC 伯克利的 Joseph M. Hellerstein 合著了一篇《What Goes Around Comes Around》,而 Andy 教授也是这篇文章的粉丝。



这篇 20 年前的文章创作的起因,是当时数据库界兴起了一股“反关系型”,“反 SQL” 的浪潮。Stonebraker 和 Joseph 两位教授认为,关系模型和 SQL 因其击败了包括层次文件系统、面向对象数据库和 XML 数据库等在内的其他理念,成为了数据库管理系统的最佳选择。


这次的新论文,发表在 2024 年 6 月的 SIGMOD Record 上,Stonebraker 与 Andy 两位教授分析了过去 20 年数据库的演进,展望了数据库技术的发展。那么,2005 年到现在,数据库界发生了哪些事呢?下文将对这篇论文进行摘录,帮助大家了解这篇论文的主要内容。



论文的 Introduction 部分,首先呼应了一下当年的论文,列出了数据库从 1960 年的层次结构到 2000 年诞生的半结构化数据模型的演进史。



接着,在论文中分析了数据库近 20 年的发展,分别从数据模型&查询语言(Data Models & Query Languages),以及系统架构(System Architectures) 两部分入手进行分析。

01. 数据模型和查询语言 / Data Models & Query Languages

在这一章节,两位教授将数据库中的数据模型和查询语言的研究和开发分为八个类别,包括 MapReduce、键值存储、文档数据库、列式数据库、文本搜索引擎、数组数据库、向量数据库和图数据库。

在谈及 MapReduce 时,两位教授认为:MR 的缺陷如此之大,以至于尽管其开发者社区充满热情,它也无法得救。与此同时,分布式 RDBMS 正在蓬勃发展,特别是在云上。HDFS 已经失去它的光彩,因为企业意识到有更好的分布式存储替代品。

关于向量数据库,两位教授预计,向量 DBMS 将经历与文档 DBMS 类似的演变过程,通过增加包括 SQL、事务、可扩展性等功能,变得更像关系型数据库。而关系型数据库厂商在现有的关系型数据库中添加向量索引也将成为趋势。


两位教授认为:

non-SQL、非关系型系统要么是小众市场,要么正在迅速成为SQL/RM 系统。具体来说:


 MapReduce:多年前就已经消亡,目前充其量是“遗留技术”。

 键值存储:许多键值系统要么已经发展成为关系型系统,要么仅被用于特定问题。这些系统通常可以被现代高性能关系型数据库管理系统所替代或超越。

 文档数据库:这些 NoSQL 系统正与关系型数据库管理系统往相类似的发展轨道上前进。随着时间的推移,这两种系统之间的差异已经减少,并且预计在未来将几乎没有区别。

 列式数据库:将仍是小众市场。如果没有谷歌的存在,本文可能不会讨论这个类别。

 文本搜索引擎:这些系统用于多存储架构中的文本字段。如果关系型数据库管理系统在搜索方面有更好的解决方案,那么这些就不必是单独的产品。

 数组数据库:科研领域的应用将继续忽视关系型数据库管理系统,转而使用定制的数组系统。由于即使关系数据库有新的 SQL/MDA 增强功能,但却无法高效地存储和分析数组,数组数据库可能变得更加重要。

 向量数据库:它们是专用的数据库管理系统,具有加速最近邻搜索的索引。关系型数据库应该很快能够提供对这些数据结构和搜索方法的原生支持,使用它们可扩展的类型系统,这将使得这些专门的数据库变得不必要。

 图形数据库:OLTP 图形应用程序将主要由关系型数据库提供服务。此外,分析图形应用程序有独特的需求,最好使用专门的数据结构在主内存中完成。关系型数据库将提供基于 SQL 的图形中心 API 或通过扩展。我们预计专门的图形数据库管理系统不会是一个大市场。

02. 数据库系统架构 / System Architecture

在数据库系统架构章节中,Stonebraker 和 Andy 除了就“关系型或非关系型”的争论表达了看法之外,还分享了他们对数据库架构最新趋势的看法。内容涵盖列式存储、云数据库、数据湖/湖仓一体、NewSQL 数据库、硬件加速器、区块链数据库六大技术领域。

在谈及云数据库时,两位教授认为:云计算对 DBMS 产生了深远的影响,导致它们被彻底重新设计。过去 20 年里,数据库设计的最大变革发生在云端。由于网络带宽的增长速度相对于磁盘带宽具有巨大飞跃,通过 NAS 在对象存储中存储数据变得越来越有吸引力,推动了计算和存储的分离。计算从本地环境转移到云端,加上无服务器计算(Serverless Computing) 技术的兴起,为企业带来了巨大的机会。

云平台促进的另一个趋势上从单一、专用的数据仓库转向由对象存储支持的数据湖。Stonebraker 和 Andy 认为数据湖/湖仓一体是 2010 年初“大数据”运动的继任者。Apache Iceberg、Apache Hudi 和 Databricks Delta Lake 等表格式技术,让“允许任何应用程序往中央存储里写入任意数据”这个原本看起来“糟糕”的想法变得可行。很多传统 OLAP 厂商(例如 Teradata、Vertica)已经扩展了产品功能,以支持从对象存储中读取数据。还有一些独立的系统也在这个领域有所建树,包括 Databricks 等。

两位教授认为:

● 列存储系统:列存储的变革彻底改变了 OLAP 数据库管理系统的架构。

● 云数据库:云计算颠覆了传统的构建可扩展数据库管理系统方式。除了嵌入式数据库管理系统外,任何不提供云服务的产品都可能会失败。

 数据湖/湖仓一体:使用开源格式构建基于云的对象存储系统,将成为未来十年 OLAP 数据库管理系统的典范。

● NewSQL 数据库:找到了新的想法,但仍然未能产生与列式数据库和云数据库管理系统相同的影响。NewSQL 数据库导致了新的分布式数据库管理系统的出现:可支持更强的 ACID 语义,以解决 NoSQL 较弱的 BASE 特性。

● 硬件加速器:除了主流的云供应商外,我们没有看到其他专门的硬件用例,不过初创公司将继续尝试探索。

● 区块链数据库:这是一种还在寻找应用场景的效率低下的技术。历史表明,这是系统发展的错误途径。


正如论文标题《What Goes Around Comes Around...And Around...》所示,Stonebraker 和 Andy 认为数据库领域正在并将继续经历周期性的变化:

新一代的开发者将会宣称 SQL 和关系型模型(RM)不足以应对新兴的应用领域,随后会提出新的查询语言和数据模型来克服这些问题。探索新的数据库管理系统(DBMS)理念和概念具有巨大的价值(这也是 SQL 获得新特性的来源),数据库研究社区和市场因此而更加强大。然而,两位教授并不期望这些新的数据模型会取代关系型模型。

此外,两位教授也表达了“为了加速下一代 DBMS 的发展,社区应促进开源可重用组件和服务的开发。”

最后,他们提醒开发者要向历史学习,要站在前人的肩膀上,而不是踩在他们的脚趾上。

虽然 Stonebraker 已经 81 岁高龄,我们依旧期待如文末所提到的,能够在 2044 年看到这篇论文的后续。



参考文献:

— 1 —

2024年《What Goes Around Comes Around... And Around...》论文原文

链接:

https://db.cs.cmu.edu/papers/2024/whatgoesaround-sigmodrec2024.pdf


— 2 —

2006年《What Goes Around Comes Around》论文原文

链接:
https://15721.courses.cs.cmu.edu/spring2020/papers/01-intro/whatgoesaround-stonebraker.pdf

— 3 —

二十年大数据到 AI,图灵奖得主眼中的数据库因果循环》-Bytebase

链接:

https://mp.weixin.qq.com/s/Tk-iKWikqyev59rUu67dPQ



关于 PieCloudDB


拓数派大模型数据计算系统(PieDataCS)首款计算引擎 PieCloudDB 实现了分析型数据数仓上云虚拟化,可按需灵活计算,打破数据孤岛,支撑更大模型所需的数据和计算。PieCloudDB 存储和计算可各自作为两个独立变量,在云里弹性伸缩,实现瞬间扩缩容,解决了基于PC的传统MPP的缺陷。在 eMPP 分布式专利技术、服务器无感知(Serverless)及 TDE (透明数据加密)等多项核心技术加持下,为企业构建高安全,高可靠,高在线的云原生虚拟数仓,助力企业实现数据价值最大化,成为新一代 AI 数据计算基础设施的典范。


PieCloudDB 技术派
拓数派大模型数据计算系统(PieDataCS)首款数据计算引擎 PieCloudDB,采用领先的数仓虚拟化技术,为企业构建高安全,高可靠,高在线「坚如磐石」的云原生虚拟数仓。
 最新文章