从0到1建设电商项目数据湖实战教程

文摘   2024-11-21 00:01   重庆  
今天给大家推荐一套数据湖建设实战项目代码,该项目以电商系统为业务数据来源,通过整合MySQL+Seatunnel+Doris+Dolphinscheduler+DataRT构建ods/dwd/dim/dws/ads四层离线数仓;通过整合KAFKA+FlinkCDC+Flink+Dinky +Paimon+Hudi+Iceberg+DataRT构建实时数据湖,并在湖上创建ods/dwd/dim/dws/ads四层实时数仓。这两套数仓/数据湖架构使用的业务逻辑是一样的,降低了使用过程中的难度。方便大家可以上手不同的组件。

所有的代码都进过了验证,拿来即用,在参考使用的过程的有任何的问题欢迎文末添加作者,加群讨论。代码地址如下:

GitHub/Gitee 地址

https://github.com/Mrkuhuo/data-warehouse-learning

https://gitee.com/wzylzjtn/data-warehouse-learning

欢迎大家送上小星星 ✨


01

离线数仓建设部分(Doris)

 涉及组件:MySQL+ Flink Kafka + Doris + Seatunnel + Dolphinscheduler 

01

数据采集

MySQL 数据通过 SeaTunnel 接入 Doris

Kafka 数据通过 Flink 接入 Doris

 

02

Doris ODS 层建设

 数据采集进 Doris ODS 层,实现效果如下图所示

 

03

Doris DIM 层建设

 开发 DorisSQL 进行 DIM 层数据处理

 

04

Doris DWD 层建设

 开发 DorisSQL 进行 DWD 层数据处理

 

05

Doris DWS 层建设

 开发 DorisSQL 进行 DWS 层数据处理

 

06

Doris ADS 层建设

 开发 DorisSQL 进行 ADS 层数据处理

 

07

任务编排

 最终的任务概览如下图所示

 

08

数据展示

 DataRT链接Doris进行数据展示

 

02

实时数仓(数据湖)建设部分(Paimon/Hudi/Iceberg)

 涉及组件:Kafka + Flink(CDC/SQL/UDF) + Paimon/Hudi/Iceberg + Hive + Dinky 

01

Paimon/Hudi/Iceberg ODS 层建设

Kafka 数据通过 FlinkSQL 接入 Paimon/Hudi/Iceberg ,实际数据落到 Hive
MySQL 数据通过 FlinkCDC 接入 Paimon/Hudi/Iceberg ,实际数据落到 Hive

 

02

Paimon/Hudi/Iceberg DWD 层建设

 开发 FlinkSQL 进行 DWD 层数据处理

 

03

Paimon/Hudi/Iceberg DIM 层建设

 开发 FlinkSQL 进行 DIM 层数据处理

 

04

Paimon/Hudi/Iceberg DWS 层建设

 开发 FlinkSQL 进行 DWS 层数据处理

 

05

Paimon/Hudi/Iceberg ADS 层建设

 开发 FlinkSQL 进行 ADS 层数据处理

 

06

Doris Catalog 连接 Paimon + DataRT 进行数据展示


进群请添加作者:苦获

大数据技能圈
分享大数据前沿技术,实战代码,详细文档
 最新文章