Lakehouse一词最早见于2021年的一篇技术博客,其将Lakehouse定义为统一数据仓库与高级分析(Advanced Analytics)的新一代开放平台,这种新的架构模式具有三个典型特征:① 具有开放读写访问的数据格式如Apache Parquet或者ORC;② 提供对机器学习与数据科学高效的支持能力;③ 提供最高水平的(state-of-the-art)处理性能。
这一字眼明显迎合了当时对Hadoop进行优化改造的市场呼声以及初步的实践成果,而Gartner也将这一概念引入了当年其所发布的数据管理成熟度曲线报告,并结合自身的趋势理解将Lakehouse定义为:结合了数据湖的语义灵活性(Semantic Flexibility)与数据仓库的优化度及可交付性,代表了一种日趋收敛的基础架构环境,用以支持全过程的数据处理,即从原始的数据到精炼的数据再到交付优化的数据以供最终消费。
数据仓库之父Bill Inmon在其2021年出版的新书《Building Data Lakehouse》中将Lakehouse描述为:为避免数据沼泽(Data Swamp)而新兴的一种数据架构,基于全新的开放式与标准化系统设计,能够容纳结构化、非结构化、IoT等异构数据并提供了统一的分析处理机制,从而让那些数据仓库中的数据结构及数据管理优良特性能够直接运行在低成本的数据湖上。
毫无疑问,Lakehouse作为一种新兴的试图融合统一数据仓库与数据湖的各自优点并摒弃各自缺点的数据平台架构仍在持续演进之中,其现存的概念定义更多是从基本特性角度的描述并尚未形成业界的普遍共识。
偶数认为,湖仓一体(Data Lakehouse)是一个将数据湖的灵活性和数据仓库的规范性统一起来的开放型融合架构,无物理的或逻辑的数据孤岛。可以高效支持海量实时高频的原始数据采集、存储及管理,并一致地支持高并发、多模态的数据深度加工和最终数据的使用。
偶数的湖仓定义创新性的强化了对实时和高并发特性的要求,以支撑越来越普及的实时场景以及AGI带来的爆发的高并发数据访问场景,我们把能够很好支持实时高并发特性的湖仓数据平台称为实时湖仓(Realtime Lakehouse)。
根据这一定义,偶数总结出了实时湖仓数据平台的六大特征即ANCHOR,其中6个字母分别代表:All Disparate Data(多源异构数据)、Native on Cloud(云原生)、Consistency(数据一致性)、High Concurrency(超高并发)、One Data in Open Format(一份开放格式数据)、Real-Time(实时T+0)。ANCHOR 的中文含义是“锚”,而ANCHOR六大特性可以用来判定某一数据平台设计是否真正满足实时湖仓建设要求,即“锚”定实时湖仓。
偶数所建议的实时湖仓数据平台ANCHOR标准进一步简述如下:
All Disparate Data(多源异构数据)
支持关系表、文本、图像、视频等结构化数据和非结构化数据的存储及管理。
Native on Cloud(云原生)
适合云环境,自由增减计算和存储资源,按用量计费,节约成本。
Consistency(数据一致性)
通过完善的事务机制,保障不同用户同时查询和更新同一份数据时的一致性。
High Concurrency (超高并发)
支持数十万用户使用复杂分析并发查询访问同一份数据。
One Data in Open Format(一份开放格式数据)
通过开放的数据格式,让所有用户(BI 用户、数据科学家等)可以共享同一份数据,避免数据孤岛。
Real-Time(实时T+0)
通过全量数据T+0的流处理和实时按需查询,满足基于数据的事前预测、事中判断和事后分析。
往期推荐