在企业数字化转型的背景下,数据平台已成为信息化建设中的重要基础设施,在转型过程中发挥着关键的支撑赋能作用,并对数据价值挖掘及数据驱动的业务创新产生越来越重要的影响。为了应对企业发展所需的基于数据分析的各种应用需求,数据平台在过去20多年里一直持续进行着技术演进并出现过不同的架构类型,而湖仓一体(Data Lakehouse)则是最新兴起的一种数据平台形态。湖仓一体不仅强调湖和仓的融合,也强调对实时和高并发特性的要求,以支撑越来越普及的实时场景和AGI爆发带来的高并发数据访问场景,所以大家也把湖仓一体称为实时湖仓(Realtime Lakehouse),或者简称为湖仓。
根据国际著名咨询机构Gartner最新的数据管理领域技术成熟度曲线(Hype Cycle for Data Management),实时湖仓作为一种新兴(Emerging)技术正处于快速上升期。而在国内,越来越多的企业已经开始投身于湖仓的建设,实时湖仓正逐步取代既有的数据仓库、大数据平台、数据中台等不同类型数据平台而成为新的选项。可以预见,实时湖仓将深刻影响企业对数据这一新兴生产要素的应用能力,并对企业数字化转型的成败起到至关重要的作用。
从偶数在多个项目的实践来看,实时湖仓这一概念已为诸多行业客户所熟悉(尽管对其概念存在一定分歧),但对于实时湖仓数据平台的建设过程与实施方法,众多行业客户也很想找到一套可落地的指导原则与工作规范,用以保障实时湖仓数据平台实施项目的顺利部署及长远发展。鉴于此,我们结合自身在实时湖仓数据平台建设的探索经验,尝试推出一系列聚焦实时湖仓数据平台建设方法的连载内容。期望既能继承传统数据仓库和数据湖实施方法的优点,又能规避过往数据仓库和数据湖落地过程中的一些弊端;既考虑众多企业已建数据平台多年的现实情况,又能抓住技术变化演进的前瞻趋势,助力企业的数字化转型发展愿景。
本连载从阐述基本概念的“认知篇”入手,以确立总体框架的“方法篇”开题,进而以“规划篇”、“实施篇”、“运营篇”详述不同建设阶段的典型任务及关键步骤,力图结合理论与实践,为广大数据平台从业者或企业数据平台管理者提供一本具备实际价值的建设参考指南。
往期推荐