导读 本文将分享京东在大数据治理上的探索和实践经验。
1. 背景和方案
2. 关键技术
3. 从“节流”到“开源”
4. 未来展望
分享嘉宾|郏建超 京东 架构师
编辑整理|徐建峰
内容校对|李瑶
出品社区|DataFun
01
多种数据源相互印证。联合 HDFS 和 Hive 的审计日志、HDFS 的元数据以及数据血缘等数据一起校验,避免因单一数据源引发的误判。 设置多环节校验。判断会综合连续多日的诊断结果,避免特殊异常波动导致误诊。 作业提交会进行实时校验。当前数据作业是通过 t+1 离线模型进行计算,存在时间差,为避免时间差导致误诊,在执行时针对选择的治理做二次校验。 操作可逆。对于治理数据做自动备份,即使有误操作,也可以一键回滚。 数据治理落地的机制保障。增加数据管理专员小组、组织机构治理负责人等角色,并明确各自职责。 明确目标。每年采购前,会达成年度治理目标的共识及预计的治理量。将目标拆解到每个事业部、每个部门,以及每个季度、每个月的指标,并通过周期性例行会议不断跟进和校准。 完善奖惩机制,做得好会有激励,做得不好,会在其他产品上限制其使用。
关键技术
1. 审计日志
改造 API 协议。通过对底层 HDFS,以及上层计算引擎的适配性改造,附加了任务来源以及任务 ID 等上下文信息。 内容反算。原始 metastore 日志记录存储的是原子 API 的使用记录(如 get_table ,get_partition),但具体操作(读、写、改表)没办法区分。平台通过对命令的访问序列,总结规律,生成自动识别规则进行反算。 数据联合使用。Hive 审计日志只记录表级,具体访问的分区是看不到的。而结合 HDFS 审计来反推分区访问的活跃程度,从而推荐合理的生命周期,避免生命周期设置的偏大或偏小。
从“节流”到“开源”
存算分离是基础,计算需要做到无状态才行。
容器化技术,尤其是离线计算服务的容器化。
资源隔离,包括各种层面的隔离(比如 CPU 网络)。
未来展望
实时发现和治理。当前的数据治理主要是依托于离线模型测算,后面会做更实时的诊断与治理,尽量是在业务上线之前就做到拦截,减少事后治理的场景。
智能化。系统从规则化向智能化演变,让问题的识别变得更精准、更智能。
自动化。现在治理需要人工参与一小部分,未来的目标是落地托管模式,实现无人化的治理。
分享嘉宾
INTRODUCTION
郏建超
京东
架构师
2006 年毕业于山东大学计算机系,长期从事大数据领域工作,有丰富的大数据 SRE 和数据管理经验,当前主要负责京东大数据资产管理体系建设。