实时数仓分层架构超全解决方案

科技 2024-09-23 08:01 北京

传统意义上的数据仓库主要处理T+1数据，即今天产生的数据分析结果明天才能看到，T+1的概念来源于股票交易，是一种股票交易制度，即当日买进的股票要到下一个交易日才能卖出。

随着互联网以及很多行业线上业务的快速发展，让数据体量以前所未有的速度增长，数据时效性在企业运营中的重要性日益凸现，企业对海量数据的处理有了更高要求，如非结构化数据处理、快速批处理、实时数据处理、全量数据挖掘等。由于传统数据仓库侧重结构化数据，建模路径较长，面对大规模数据处理能力有限，企业急需提升大数据处理时效，以更经济的方式发掘数据价值。

数据的实时处理能力也成为企业提升竞争力的一大因素。

数据处理流程

在了解数仓如何实时处理之前，我们先来了解数据的分层。每个企业根据自己的业务需求可以分成不同的层次，但是最基础的分层思想，理论上数据分为三个层：贴源层（ODS)、数据仓库层（DW）、数据服务层(APP/DWA)。基于这个基础分层之上满足不同的业务需求。

ODS：Operation Data Store，也称为贴源层。数据仓库源头系统的数据表通常会原封不动的存储一份，这称为ODS层，是后续数据仓库加工数据的来源。
DW数据分层，由下到上一般分为DWD，DWB，DWS。

DWD：Data Warehouse Details 细节数据层，是业务层与数据仓库的隔离层。主要对ODS数据层做一些数据清洗(去除空值、脏数据、超过极限范)和规范化的操作。
DWB：Data Warehouse Base 数据基础层，存储的是客观数据，一般用作中间层，可以认为是大量指标的数据层。
DWS：Data Warehouse Service 数据服务层，基于DWB上的基础数据，主要是对用户行为进行轻度聚合，整合汇总成分析某一个主题域的服务数据层，一般是宽表。用于提供后续的业务查询，OLAP分析，数据分发等。

数据服务层/应用层(APP/DWA)：该层主要是提供数据产品和数据分析使用的数据，我们通过说的报表数据，或者说那种大宽表，一般就放在这里。

实时数仓的常见方案

当前，数据仓库被分为离线数仓和实时数仓，离线数仓一般是传统的T+1型数据ETL方案，而实时数仓一般是分钟级甚至是秒级ETL方案。并且，离线数仓和实时数仓的底层架构也不一样，离线数仓一般采用传统大数据架构模式搭建，而实时数仓则采用Lambda、Kappa等架构搭建。

目前，实时处理有两种典型的架构：Lambda 和 Kappa 架构。出于历史原因，这两种架构的产生和发展都具有一定局限性。

1、Lambda架构

Lambda架构：在离线大数据架构的基础上增加新链路用于实时数据处理，需要维护离线处理和实时处理两套代码；

Lambda 架构通过把数据分解为服务层（Serving Layer）、速度层（Speed Layer，亦即流处理层）、批处理层（Batch Layer）三层来解决不同数据集的数据需求。在批处理层主要对离线数据进行处理，将接入的数据进行预处理和存储，查询直接在预处理结果上进行，不需再进行完整的计算，最后以批视图的形式提供给业务应用。

在实际生产环境中的部署通常可以参见下图，一般要通过一系列不同的存储和计算引擎 (HBase、Druid、Hive、Presto、Redis 等) 复杂协同才能满足业务的实时需求，此外多个存储之间需要通过数据同步任务保持大致的同步。Lambda 架构在实际落地过程中极其复杂，使整个业务的开发耗费了大量的时间。

缺点：

(1) 由多个引擎和系统组合而成，批处理 (Batch)、流处理 (Streaming) 以及合并查询 (Merged Query) 的实现需要使用不同的开发语言，造成开发、维护和学习成本较高；

(2) 数据在不同的视图 (View) 中存储多份，浪费存储空间，数据一致性的问题难以解决。

2、 Kappa 架构

Kappa架构：希望做到批流合一，离线处理和实时处理整合成一套代码，减小运维成本。Kappa 架构在 Lambda 架构的基础上移除了批处理层，利用流计算的分布式特征，加大流数据的时间窗口，统一批处理和流处理，处理后的数据可以直接给到业务层使用。因为在 Kappa 架构下，作业处理的是所有历史数据和当前数据，其产生的结果我们称之为实时批视图（Realtime_Batch_View）。

Kappa 架构的流处理系统通常使用 Spark Streaming 或者 Flink 等实现，服务层通常使用MySQL 或 HBase 等实现。

Kappa 架构部署图

缺点：

(1) 依赖 Kafka 等消息队列来保存所有历史，而Kafka 难以实现数据的更新和纠错，发生故障或者升级时需要重做所有历史，周期较长；

(2) Kappa 依然是针对不可变更数据，无法实时汇集多个可变数据源形成的数据集快照，不适合即席查询。

因为上述的缺点，Kappa架构在现实中很少被应用。

湖仓一体能否解决实时问题

时下热门的湖仓一体能否解决实时问题呢？湖仓一体有何标准？Gartner 认为湖仓一体是将数据湖的灵活性和数仓的易用性、规范性、高性能结合起来的融合架构，无数据孤岛。

作为数据湖和数据仓库的完美结合，新一代的湖仓一体架构重点关注和解决了近年来数字化转型带来的业务需求和技术难点，具体包括如下以下方面：

实时性成为了提升企业竞争力的核心手段。目前的湖、仓、或者湖仓分体都是基于 T+1 设计的，面对 T+0 的实时按需分析，用户的需求无法满足。
所有用户（BI 用户、数据科学家等）可以共享同一份数据，避免数据孤岛。
超高并发能力，支持数十万用户使用复杂分析查询并发访问同一份数据。
传统 Hadoop 在事务支持等方面的不足被大家诟病，在高速发展之后未能延续热度，持续引领数据管理，因此事务支持在湖仓一体架构中应得到改善和提升。
云原生数据库已经逐渐成熟，基于存算分离技术，可以给用户带来多种价值：降低技术门槛、减少维护成本、提升用户体验、节省资源费用，已成为了湖仓一体落地的重要法门。
为释放数据价值提升企业智能化水平，数据科学家等用户角色必须通过多种类型数据进行全域数据挖掘，包括但不限于历史的、实时的、在线的、离线的、内部的、外部的、结构化的、非结构化数据。

云原生+Omega实时湖仓方案

1、云原生数据库实现完全的存算分离

云原生数据库如 OushuDB 和 Snowflake 突破了传统 MPP 和 Hadoop 的局限性，实现了存算完全分离，计算和存储可部署在不同物理集群，并通过虚拟计算集群技术实现了高并发，同时保障事务支持，成为湖仓一体实现的关键技术。

以 OushuDB 为例，实现了存算分离的云原生架构，并通过虚拟计算集群技术在数十万节点的超大规模集群上实现了高并发，保障事务支持，提供实时能力，一份数据再无数据孤岛。

2、基于Omega实时框架的湖仓方案

我们前面提到，既然 Kappa 架构实际落地困难，Lambda 架构又很难保障数据的一致性，两个架构又都很难处理可变更数据（如关系数据库中不停变化的实时数据），那么自然需要一种新的架构满足企业实时分析的全部需求，这就是 Omega 全实时架构，Omega 架构由偶数科技根据其在各行业的实践提出，同时满足实时流处理、实时按需分析和离线分析。

Omega 架构由流数据处理系统和实时数仓构成。相比 Lambda 和 Kappa，Omega 架构新引入了实时数仓和快照视图 (Snapshot View) 的概念，快照视图是归集了可变更数据源和不可变更数据源后形成的 T+0 实时快照，可以理解为所有数据源在实时数仓中的镜像和历史，随着源库的变化实时变化。

因此，实时查询可以通过存储于实时数仓的快照视图得以实现。实时快照提供的场景可以分为两大类：一类是多个源库汇集后的跨库查询，比如一个保险用户的权益视图；另一类是任意时间粒度的分析查询，比如最近 5 分钟的交易量、最近 10 分钟的信用卡开卡量等等。

另外，任意时间点的历史数据都可以通过 T+0 快照得到（为了节省存储，T+0 快照可以拉链形式存储在实时数仓 ODS 中，所以快照视图可以理解为实时拉链），这样离线查询可以在实时数仓中完成，离线查询结果可以包含最新的实时数据，完全不再需要通过传统MPP+Hadoop湖仓分体组合来处理离线跑批及分析查询。

Omega 架构逻辑图

流处理系统既可以实现实时连续的流处理，也可以实现 Kappa 架构中的批流一体，但与Kappa 架构不同的是，OushuDB 实时数仓存储来自 Kafka 的全部历史数据（详见下图），而在 Kappa 架构中源端采集后通常存储在 Kafka 中。

Omega 架构部署图

因此，当需要流处理版本变更的时候，流处理引擎不再需要访问 Kafka，而是访问实时数仓 OushuDB 获得所有历史数据，规避了 Kafka 难以实现数据更新和纠错的问题，大幅提高效率。此外，整个服务层也可以在实时数仓中实现，而无需额外引入 MySQL、HBase 等组件，极大简化了数据架构，实现了湖仓市一体（数据湖、数仓、集市一体）。实现了全实时 Omega 架构的湖仓一体，我们也称之为实时湖仓一体。

Omega vs. Lambda vs. Kappa

写在最后的话：

面对复杂多变的新业务场景，随着数据技术不断成熟，新的实时技术栈会出现，数据技术也会经历分离与融合。目前，融合的趋势比较明显，如实时湖仓一体，将实时处理能力融入数据仓库中。不论企业如何选型实时数仓，数据平台技术栈的建设一般都应该遵循三条基本原则：

架构层面要保持灵活开放，支持多种技术兼容性并存。目前，企业已经部署了多个系统，有自己的一套架构体系，技术融合落地时需要最大化利用企业原有IT资产，保护客户投资。
有效利用资源，降本增效。原来传统的技术栈，所有资源参与计算，造成IT资源浪费。比如，云原生资源池化，可以实现资源隔离与动态管理，便于最大化利用资源。
满足更高的用户体验。从用户角度来看，在技术条件具备的前提下，比如高性能、高并发、实时性更强，便具备了更强的信息加工能力，能够在很短的时间内满足用户各种各样的数据服务需求，提升用户体验。

随着实时分析场景日益增多，实时数仓等具备实时处理能力的产品与解决方案将会得到更广泛的应用。

一群人聚在一起，创造超越个体的价值，欢迎你的加入👉 加入大数据最强社群，限时开放！

http://mp.weixin.qq.com/s?__biz=Mzg2MzU2MDYzOA==&mid=2247505714&idx=1&sn=8d42295099c03ae768fc4f0f6a0ff290

五分钟学大数据

大数据领域原创技术号，专注于大数据研究，包括 Hadoop、Flink、Spark、Kafka、Hive、HBase 等，深入大数据技术原理，数据仓库，数据治理，前沿大数据技术

最新文章

超全大数据保姆级教程更新

为数据仓库设计一个完美的指标体系

大数据架构平台搭建指南及数据仓库演进

数据指标体系建设方法 (干货建议收藏)

Spark底层执行原理详细解析

超万字的BI数字化转型案例《2024企业敏捷经营实践合集》

阿里数据仓库架构与模型设计

优质大数据学习面试提高资料(超全)

数仓之路：数仓中的问题与解决方案

字节跳动大裁员的背后。。。

超全大数据技术宝典更新

超全面数仓建设规范指南（建议收藏）

SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

实时数仓分层架构超全解决方案

大数据星球重磅更新

如何避免数仓模型“烟囱式”建设

最强大数据群聊开放+最新大数据面试宝典

一文读懂Hive底层数据存储格式（好文收藏）

数据仓库架构落地版

应届生炒到66.8w年薪，真心建议冲冲这个新兴领域！

百万字大数据精华知识库：面试宝典、实战项目、专家答疑，全方位提升你的大数据技能栈！

数据开发流程规范及数据监控

40+指标银行BI指标体系！万字详述银行实现全面自助分析

取代后端岗，中国又一新兴岗位在崛起！这才是程序员未来5年最好的就业方向！

数据仓库：详解维度建模之事实表

探索超全大数据知识库：百万字秘籍助你掌握大数据核心技能

2024企业级BI平台白皮书（附下载）

进字节了！46k*15薪！

超全面的大数据知识库，包含大数据组件、数仓、大数据项目、最新面试题等

五万字 | Flink知识体系保姆级总结

PDF | 五万字Flink保姆级总结PDF文档获取

数仓中指标-标签，维度-度量，自然键-代理键等常见的概念术语解析

超1000000字的大数据知识库又双叒更新了

超全面的数据指标体系搭建（附赠15个行业数据指标体系）

大数据之数据治理体系全面指南

年薪没25W全额退！算法工程师培养计划出台

分享一个可写到简历的高价值有亮点的大数据项目

升维：用数据重塑企业经营的“不二法门”

详解大厂实时数仓建设

解析GreenPlum 闭源，国内 MPP 数据库市场迎来新竞争格局

10万字、近20家企业智能分析决策合集

Hive知识体系保姆级教程

数据治理“知易行难”？来看看《数据治理实践者手记》

和一位年薪千万的朋友聊完，原来职场晋升也有"潜规则"

涨薪50%，这个新岗位封神了

数字资产，一场颠覆性的商业革命

年薪96w！真心建议大家冲一冲新兴领域，工资高前景好

Hive SQL底层执行过程详细剖析

Spark知识体系五万字讲解，学习与面试收藏这篇就够了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉