导读 本文简单介绍了“抖音集团数据资产管理平台”全貌,数据资产管理平台是抖音集团在复杂业务场景中思考的新方向,启发大家对于元数据以及数据资的全新思考。文章重点展开介绍了“抖音集团大数据血缘的演进和应用”部分,让大家以更宏观视角认识血缘,并在如何建设好数据血缘给出建设性的思路。
本次分享将聚焦于资产体系中的全链路血缘,文章将围绕下面四点展开:
1. 抖音集团血缘整体介绍
2. 抖音集团血缘系统架构
3. 抖音集团血缘应用场景
4. 未来展望
分享嘉宾|刘浩阳 字节跳动 大数据研发专家
编辑整理|吃货小八
内容校对|李瑶
出品社区|DataFun
抖音集团血缘整体介绍
1. 整体概览
2. 建设背景
看链路:整个大数据是一个超大的数据链路,集团内有百万级别的任务,需要结合血缘看清楚这些业务之间的关系。 保质量:生产任务每天都在线上迭代,每天有万级别的线上任务变更,该如何评估好这些迭代对线上是否会产生影响,需要结合血缘链路去评估,以保障整个生产的质量。 保安全:安全是企业数据数据的生命线,如何高效发现企业中的敏感数据,需要依赖血缘数据传播能力。 降成本:超大规模集群规模背后是大量的计算、存储资源,如何合理利用资源,并精准发现低价值资源,并驱动治理,也需要依赖血缘实现。
3. 血缘整体链路
数据源或数据采集的血缘:埋点血缘 数据生产链路的血缘:实时数仓血缘、离线数仓血缘 应用端的血缘:服务/产品应用的血缘
4. 血缘模型抽象
5. 血缘衡量指标
血缘覆盖率:考虑任务成功解析的数量,覆盖多少任务; 血缘准确率:成功解析并不代表完全正确,会在覆盖基础上近一步排除异常解析的情况。 血缘完整率:成功解析也不一定完整,最终通过完整率来看清楚血缘是否完全覆盖。
6. 血缘整体生态体系
抖音集团血缘系统架构
1. 血缘系统建设挑战
首先,如何精准化解析细粒度血缘; 其次,如何覆盖非结构化数据源,比如实时链路中会有 Redis、Kafka 等; 然后,如何覆盖跨 region 的机房血缘; 最后,如何覆盖调用较大的应用端调用血缘。
2. 血缘系统解决方案架构
数据源:覆盖各种上游数据源的有价值信息,包括任务代码、配置信息、离线表以及人工补录的数据。 采集:元数据链路和血缘链路,元数据链路重点关注元信息采集到元数据的体系里面;血缘链路,重点结合解析服务和 Catalog,提取血缘数据; 存储:通过图库存储血缘数据,开源图库有JanusGraph、Neo4j、NebulaGraph 等。离线链路通过图库 Dump 任务到 hdfs,并构建数仓; 分析:通过实时数据和离线数据,以通用的血缘分析服务,支持实时以及离线的分析场景。
3. 统一解析服务
4. 血缘接入服务 -生产血缘
5. 血缘接入服务 -跨 Region 血缘
6. 血缘接入服务 -应用血缘
抖音集团血缘应用场景
1. 血缘应用整体介绍
2. 数据开发场景的应用
数据变更影响面评估:提供全链路任务、表、列的血缘关系查询、筛选和展示,支持切换 select 血缘及 non-select 血缘,帮助用户看清数据之间的关系。 快速查看字段或者指标加工口径:通过血缘能力计算数据开发链路,并根据指定字段进行代码裁剪, 只展示该字段相关逻辑,大幅减少无关代码,提高阅读效率。 实时开发任务提效:基于指定任务,使用血缘能力为下游任务链路创建影子链路,提供测试链路数据预览功能及线上数据比对功能,预览最终产品的变动。 精准选择待回溯链路:基于列级别的回溯范围计算,同时支持用户指定首尾节点、根据特征进行二次筛选等,提升回溯的整体效率和准确性。 上游数据变化及时感知:监听元数据埋点变更,根据血缘关系判断影响范围,并实时发送通知,帮助开发人员及时感知上游变更。 数据模型重构高校切换:基于用户配置好待切换模型后,根据血缘计算出待切换任务列表,自动生成切换代码,自动完成数据比对。
3. 数据治理场景的应用
低价值/风险资产识别:通过血缘发现耗费大量资源、下游使用很少的,低 ROI 的资产,以及一些高风险资产。 成本计算:基于链路级别血缘计算全链路成本。 及时性保障:构建链路级别的时效性保障能力。 准确性保障:检测高风险、高优先级价值的资产质量是否符合预期,是否存在风险。 安全保障:高效发现高密数据,检测安全风险。
未来展望
1. 数据血缘未来规划
2. 数据资产平台未来展望
分享嘉宾
INTRODUCTION
刘浩阳
字节跳动
大数据研发专家
刘浩阳,字节跳动大数据研发专家,有多年的大数据经验,专注于大数据管理、数据服务以及 BI 分析产品等大数据中台化建设工作。
点个在看你最好看
SPRING HAS ARRIVED