《实时湖仓建设方法》连载之四:新兴期湖仓一体融合

文摘   科技   2024-10-24 11:40   北京  

经历了开立期和蓬勃期,数据平台发展至新兴期,湖仓开始融合,逐步释放数据价值。

发展背景

经过前两个阶段的发展,众多企业实际上独立构建了大数据平台与数据仓库平台两套不同的技术架构,通过统一或分离的数据采集,实现数据汇聚并支持不同类型的分析应用,基于不同的搭配模式(如先湖后仓、先仓后湖、湖仓并行等)完成数据湖与数据仓库的混合部署,即所谓的湖仓分体模式。


湖仓分体的最大痛点就是数据孤岛,进而产生了多集群冗余存储、集群规模受限、数据处理实时性不足、应用开发敏捷性不足等问题,这些都进一步促进了从湖仓分体向湖仓一体的演进。



技术特性

湖仓一体简而言之就是在数据的存储管理和分析计算层面提供一体化的支撑架构,彻底解决实时性与并发度欠缺、集群规模受限、非结构化数据无法有效整合、建模路径冗长、数据一致性弱、高负载处理性能瓶颈等湖仓分体模式下的典型问题,同时能够有效降低数据冗余、IT运维成本和数据管理技术门槛。由此,新兴的湖仓一体数据平台需要具备单一存储、批流一体、混合负载、超高并发、资源弹性等基本特性。


阶段特点

云的普及让业务上云成为趋势,为了实现数据湖的灵活性和数据仓库的易用性、规范性、高性能结合起来的融合架构,并且保证存储和计算可以独立的弹性扩展和伸缩,数据平台的设计出现了一个崭新的架构,即存算分离架构。在此阶段,偶数等企业相继突破了传统 MPP 和 Hadoop 的局限性,实现了存算分离。相对于湖仓分体和湖仓逻辑一体(湖仓逻辑一体指的是在分离的湖和仓上面搭建一个数据虚拟化层,形成逻辑上的湖仓一体),更为彻底的湖仓原生一体架构在未来将更加契合用户对于数据价值融合挖掘的诉求。

湖仓一体定义


基于对湖仓技术发展的总结,我们不难得到湖仓一体的定义,湖仓一体(Data Lakehouse)是一个将数据湖的灵活性和数据仓库的规范性统一起来的开放型融合架构,无物理的或逻辑的数据孤岛。可以高效支持海量实时高频的原始数据采集、存储及管理,并一致地支持高并发、多模态的数据深度加工和最终数据的使用。

在偶数的湖仓一体实践中,湖仓定义创新性的强化了对实时高并发特性的要求,以支撑越来越普及的实时场景以及AGI带来的爆发的高并发数据访问场景,我们把能够很好支持实时高并发特性的湖仓数据平台称为实时湖仓(Realtime Lakehouse)。






往期推荐

偶数发布对话式数据分析平台Kepler,会聊天就会数据分析

一次讲清楚实时湖仓数据处理架构如何落地

《分析型数据库技术要求》标准发布,偶数科技等厂商深度参与


大模型、实时需求推动湖仓平台走向开放

Gartner发布2023年最新技术成熟度曲线,偶数科技位列湖仓一体代表厂商

OushuDB × 东方证券:数据仓库信创国产化最佳实践

从北京到南京:偶数在能源行业的数据迁移实践

信通院联合偶数科技等企业发布《云原生湖仓一体白皮书》


↑扫描上方二维码↑
拉你进入技术交流群

偶数成立于2016年,是国家级专精特新“小巨人”企业。专注于云数据平台产品和解决方案,自主研发云原生分布式数据库OushuDB及实时湖仓数据平台Skylab。总部位于北京,在上海、南京、广州、武汉等地设有分支机构。偶数服务了国家电网、中国移动、建设银行等众多世界500强客户。获得国际著名投资机构红杉中国、腾讯、红点中国与金山云的四轮投资,是微软加速器和腾讯加速器成员企业。被评为福布斯中国企业科技50强,Gartner Cool Vendor,IDC Innovator。



点击下方阅读原文获取行业报告

偶数
专注于云数据平台产品和解决方案
 最新文章