实时数仓建设

科技 2024-11-27 08:30 陕西

传统的数据仓库主要处理T+1的数据，即今天产生的数据分析结果明天才能看到。这一概念源于股票交易，是一种股票交易制度，即当日买进的股票要到下一个交易日才能卖出。

然而，随着数据时效性在企业运营中的重要性越来越凸显，数据的实时处理能力成为企业提升竞争力的一大因素。在最初阶段，企业主要采用一种实时计算任务的方式来处理实时数据。随着需求不断增加，计算任务也相应增多。而且，不同任务的开发人员也不同，导致开发风格的差异化。

因此，这一阶段的实时数据处理缺乏统一的规划，代码风格差异化严重，对于维护成本和开发效率造成了很大的障碍。为了避免上述问题，人们参照数据仓库的概念和模型重新规划和设计实时数据处理。在此基础上，构建实时数仓应运而生。

实时数仓的定义

实时数仓（Real-time Data Warehouse）是一个用于存储和处理实时数据的系统。它的主要特点是数据的处理和分析是即时进行的，数据几乎立即进入数仓并可以立即用于分析和决策。

实时数仓的特点

●低延迟：实时数仓能够在数据产生后迅速将其捕捉和处理，通常以秒或亚秒级的速度。

●数据流处理：实时数仓通常使用流式处理技术来处理数据，这允许数据在进入仓库时立即进行转换和计算。

●实时分析：数据可以用于实时监控、仪表板、预测和决策支持。

●高吞吐量：实时数仓需要处理大量的数据流，因此需要具备高吞吐量的性能。

●复杂性：由于需要处理实时数据流，实时数仓的架构和技术通常比较复杂。

数仓架构的演变

从1990年 Inmon 提出数据仓库概念到今天，数仓架构经历了最初的传统数仓架构、离线大数据架构、Lambda 架构、Kappa 架构以及由Flink 的火热带出的流批一体架构，数据架构技术不断演进，本质是在往流批一体的方向发展，让用户能以最自然、最小的成本完成实时计算。

1. 传统数仓架构

这是比较传统的一种方式，结构或半结构化数据通过离线ETL定期加载到离线数仓，之后通过计算引擎取得结果，供前端使用。这里的离线数仓+计算引擎，通常是使用大型商业数据库来承担，例如Oracle、DB2、Teradata等。

2. 离线大数据架构

随着数据规模的不断增大，传统数仓方式难以承载海量数据。随着大数据技术的普及，采用大数据技术来承载存储与计算任务。数据源通过离线的方式导入到离线数仓中。下游应用根据业务需求选择直接读取 DM 或加一层数据服务，比如 MySQL 或 Redis。

数据仓库从模型层面分为三层：

●ODS，操作数据层，保存原始数据；

●DWD，数据仓库明细层，根据主题定义好事实与维度表，保存最细粒度的事实数据；

●DM，数据集市/轻度汇总层，在 DWD 层的基础之上根据不同的业务需求做轻度汇总。

当然，也可以使用传传统数据库集群或MPP架构数据库来完成。例如Hadoop+Hive/Spark、Oracle RAC、GreenPlum等。

3. Lambda架构

随着业务的发展，随着业务的发展，人们对数据实时性提出了更高的要求。此时，出现了Lambda架构，其将对实时性要求高的部分拆分出来，增加条实时计算链路。从源头开始做流式改造，将数据发送到消息队列中，实时计算引擎消费队列数据，完成实时数据的增量计算。与此同时，批量处理部分依然存在，实时与批量并行运行。最终由统一的数据服务层合并结果给于前端。一般是以批量处理结果为准，实时结果主要为快速响应。

4. Kappa架构

而Lambda架构，一个比较严重的问题就是需要维护两套逻辑。一部分在批量引擎实现，一部分在流式引擎实现，维护成本很高。此外，对资源消耗也较大。随后诞生的Kappa架构，正是为了解决上述问题。其在数据需要重新处理或数据变更时，可通过历史数据重新处理来完成。方式是通过上游重放完成(从数据源拉取数据重新计算)。

可Kappa架构最大的问题是流式重新处理历史的吞吐能力会低于批处理，但这个可以通过增加计算资源来弥补。

5. 混合架构

上述架构各有其适应场景，有时需要综合使用上述架构组合满足实际需求。当然这也必将带来架构的复杂度。用户应根据自身需求，有所取舍。在一般大多数场景下，是可以使用单一架构解决问题。现在很多产品在流批一体、海量、实时性方面也有非常好的表现，可以考虑这种“全能手”解决问题。

http://mp.weixin.qq.com/s?__biz=MzIxMzAxNzEwNQ==&mid=2648126589&idx=1&sn=233f289f32f8b8450ae9bdae6b0a766c

一个数据人的自留地

数据人交流和学习的社区，关注我们，掌握专业数据知识、结识更多的数据小伙伴。

最新文章

Python 代码 Debug 的 10 个实用技巧

还在纠结每天的波动？用户活跃分析这么做！

实时数仓建设

数据分析终极一问：指标波动有多大，才算是大！

高手的数据分析方法之三：趋势分析法

滴滴ChatBI技术实践：智能数据分析的前沿探索与应用

AutoConsis：UI内容一致性智能检测

干货 | 性能指标提升50%+，携程数据报表平台查询效率治理实践

四个方法，拯救你枯燥的数据日报

为什么大数据和数据中台“落寞”了？

数据民主化的“神话”

AI横行，它越战越勇！

大模型时代下的私有数据安全与利用

【急聘】七猫-后端开发工程师

代码复用率99%，携程市场洞察平台Donut跨多端高性能技术实践

腾讯、抖音、百度、快手、携程、小米、工行、平安集团如何在大数据架构、数据库管理、运维保障中落地AI技术？丨DAMS峰会

太卷了吧，这份【运营分析】思路真是到位

四大行业、零跑汽车等12家企业BI数字化转型实践

数据驱动？我们连数据都跑不通，更别提驱动了

搞清楚毛利这些指标，总算会做经营分析了！

腾讯语音合成技术：模型优化与推理加速实践

资深PM必懂的项目管理4大模型！

【数据分析干货】一种基于匹配思想的因果分析方法

用户分析，找到一份完整的攻略

终于有人，把数字化转型的本质讲清楚了！

72k，确实可以封神了！

还在错误地统计AB实验效果？快来了解正确方法避坑吧

腾讯基于 LLM 的智能数据分析平台 OlaChat 的落地实践

携程弱网识别技术探索

数据分析十大模型之决策模型

一个基于Python的自动化邮件日报模版

零售消费行业20项BI最佳实践（附下载）

快手电商数据指标体系建设与实践

一种基于贡献度的除法指标异动归因方法

解码智能推荐：多模态大模型在网易云音乐的创新应用

大前端：如何突破动态化容器的天花板？

我们要做数据治理，预算 500 万，到底如何实施工作计划？ | DGI治理框架（七）

卷死他们！数据赋能运营，就得这么干

数据仓库实践之任务调度

大呼专业！找到一个【数据指导运营】的思路

如何提升用户画像标签质量及信任度？

银行快速数智化转型的改革先锋——视频分析大模型技术

用户画像：OneID是如何实现的？

关于你不知道的 Python import 10 件事

深圳数据人线下沙龙活动

数据分析，如何诊断业务问题

深圳数据人线下沙龙活动

一文读懂：数据如何从要素变为资产？

深圳数据人线下沙龙活动

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉