请不要自己写,这款数据质量可视化配置工具用起来够方便!

文摘   2024-10-29 00:00   重庆  
数据质量检查是数据处理中不可或缺的一个环节,用来保证流向下游的数据的准确性。Datavines 是专注于数据可观测性的开源项目,核心能力提供了元数据管理和数据质量监控。
github:https://github.com/datavane/datavines
官网地址:https://datavane.github.io/datavines-website/

01

平台特性

01

数据目录管理

  自动获取数据源元数据,构造企业级数据目录;定时监听数据变更情况

02

数据质量监控

 平台内置多个数据质量检查规则,开箱即用;提供告警消息管理帮助你更好把握质量情况

03

插件化设计

 平台以插件化设计为核心,支持数据源、规则、执行引擎、告警组件、错误数据存储和注册中心等插件扩展

04

数据概览

 让你能够更快更轻松地了解每个数据集的情况,做到心里有数

05

多种运行模式

 不仅提供平台帮助你观测数据,也支持本地模式集成到调度系统的工作流中

06

容易部署&高可用

 平台依赖少,容易部署;支持水平扩容,自动容错

这或许是一个对你有用的开源项目data-warehouse-learning 项目是一套基于 MySQL + Kafka + Hadoop + Hive + Dolphinscheduler + Doris + Seatunnel + Paimon + Hudi + Iceberg + Flink + Dinky + DataRT + SuperSet 实现的实时离线数仓(数据湖)系统,以大家最熟悉的电商业务为切入点,详细讲述并实现了数据产生、同步、数据建模、数仓(数据湖)建设、数据服务、BI报表展示等数据全链路处理流程。

https://gitee.com/wzylzjtn/data-warehouse-learning

https://github.com/Mrkuhuo/data-warehouse-learning

https://bigdatacircle.top/

项目演示:

02

快速上手

01

创建数据源

点击创建数据源按钮,输入数据源的名称,然后选择数据源类型。以mysql为例,输入mysql的连接信息,点击测试连接按钮。如果成功,请单击保存

02

查看数据源信息

 点击已创建好的数据源,进入数据源详情页面

03

选择列

例如,点击表dv_catalog_entity_instance的properties列,进入列的详情页面

04

添加规则

点击 添加规则 按钮, 选择空值检查规则, 选择 固定值 期望值类型、输入期望值 10 , 选择 实际值 检查公式 、> 比较符并输入阈值 10, 这样选择的意思就是当实际值 > 10 ,那么检查结果为成功,否则是失败。配置完成以后可以直接保存进行保存或者点击保存并运行来执行检查作业。 

返回到列的详情页面,你可以看到你刚刚所创建的规则作业列表。你可以在这里看到这个检查作业的运行趋势图。

05

查看规则作业的信息

点击规则名则可以进入到规则作业的详情页面。

点击 运行结果 页面, 你可以看到执行历史列表。

点击日志按钮,你可以看到规则执行的日志信息

点击检查结果按钮,你可以看到规则执行的检查结果。

点击错误数据按钮,你可以看到规则执行的错误数据。

安装部署等信息请文末阅读原文

03

进交流群群添加作者

推荐阅读系列文章

如果喜欢 请点个在看分享给身边的朋友

大数据技能圈
分享大数据前沿技术,实战代码,详细文档
 最新文章