经历了开立期和蓬勃期,数据平台发展至新兴期,湖仓开始融合,逐步释放数据价值。
经过前两个阶段的发展,众多企业实际上独立构建了大数据平台与数据仓库平台两套不同的技术架构,通过统一或分离的数据采集,实现数据汇聚并支持不同类型的分析应用,基于不同的搭配模式(如先湖后仓、先仓后湖、湖仓并行等)完成数据湖与数据仓库的混合部署,即所谓的湖仓分体模式。
湖仓分体的最大痛点就是数据孤岛,进而产生了多集群冗余存储、集群规模受限、数据处理实时性不足、应用开发敏捷性不足等问题,这些都进一步促进了从湖仓分体向湖仓一体的演进。
技术特性
湖仓一体简而言之就是在数据的存储管理和分析计算层面提供一体化的支撑架构,彻底解决实时性与并发度欠缺、集群规模受限、非结构化数据无法有效整合、建模路径冗长、数据一致性弱、高负载处理性能瓶颈等湖仓分体模式下的典型问题,同时能够有效降低数据冗余、IT运维成本和数据管理技术门槛。由此,新兴的湖仓一体数据平台需要具备单一存储、批流一体、混合负载、超高并发、资源弹性等基本特性。
阶段特点
云的普及让业务上云成为趋势,为了实现数据湖的灵活性和数据仓库的易用性、规范性、高性能结合起来的融合架构,并且保证存储和计算可以独立的弹性扩展和伸缩,数据平台的设计出现了一个崭新的架构,即存算分离架构。在此阶段,偶数等企业相继突破了传统 MPP 和 Hadoop 的局限性,实现了存算分离。相对于湖仓分体和湖仓逻辑一体(湖仓逻辑一体指的是在分离的湖和仓上面搭建一个数据虚拟化层,形成逻辑上的湖仓一体),更为彻底的湖仓原生一体架构在未来将更加契合用户对于数据价值融合挖掘的诉求。
基于对湖仓技术发展的总结,我们不难得到湖仓一体的定义,湖仓一体(Data Lakehouse)是一个将数据湖的灵活性和数据仓库的规范性统一起来的开放型融合架构,无物理的或逻辑的数据孤岛。可以高效支持海量实时高频的原始数据采集、存储及管理,并一致地支持高并发、多模态的数据深度加工和最终数据的使用。
在偶数的湖仓一体实践中,湖仓定义创新性的强化了对实时和高并发特性的要求,以支撑越来越普及的实时场景以及AGI带来的爆发的高并发数据访问场景,我们把能够很好支持实时高并发特性的湖仓数据平台称为实时湖仓(Realtime Lakehouse)。
往期推荐