今年,笔者又对数据治理进一步总结优化,扩展并丰富了数据治理方法论和实践内容,形成了更具系统性和全面性的《数据治理“三字经”》第二版,期望能给数据治理领域工作的同仁们带来一些思考和启示。
二、数据治理“三字经”解读
《数据治理“三字经”》这首短诗虽然精炼,但却包含了大量的信息,每一句都犹如一篇独立的文章,描绘了一个个既充满挑战又充满喜悦的治理历程。因此,在考虑到篇幅有限的情况下,笔者将主要分享和解读其中的概要思想。
制定数据治理战略目标,统筹顶层蓝图规划
• 数之初,量本小
在数据发展的初期,各个行业的数据量相对较小,数据类型也相对较为简单。
• 猛增长,遇瓶颈
由于数字化技术的飞速发展、互联网的普及、移动设备的广泛应用,以及社交媒体、物联网和传感器等新兴技术的推动,全球数据量呈指数级增长。许多企业的数据规模剧增,这些海量数据在带来巨大价值的同时,也给数据管理和利用带来了新的挑战。
• 缺管理,实难控
当企业数据发展到一定规模时,由于缺乏有效的数据管理手段,往往会引发一系列问题,例如数据获取困难、数据理解不准确、数据标准不一致、数据管理效率低下以及数据管理成本高昂等。这些问题不仅增加了企业的运营压力,也可能导致企业的数据价值难以充分释放。
• 若不治,随可崩
如果未能及时进行数据治理,大数据平台和数据业务可能会面临随时崩溃的风险。例如,质量不高的数据会误导企业管理者作出错误的经营决策,过多的数据资源会导致大数据平台集群的算力和存储资源占用率过高,从而在瞬间引发资源耗尽的问题,使平台和业务陷入瘫痪。
• 若广治,惧其繁
随着各种数据问题接踵而至,企业感到困扰和头疼。然而,试图一次性解决所有问题是不现实的。
• 治之道,贵以专
进行数据治理需要专业的知识和方法,而且最好能够尽早实施。为了确保数据管理活动始终处于规范、有序和可控的状态,需要制定全面而清晰的数据治理体系,包括战略规划、机制构建、措施实施和工具建设等各个方面。此外,专业的团队也是成功进行数据治理的重要因素之一。
• 高层挺,强执行
数据治理是一项一把手工程,旨在从企业高层直接引领并推动数据管理和应用工作。它的实施与公司高层的认可和支持密不可分,因为只有在高层领导的大力支持下,数据治理项目才能获得所需的资源和预算,进而协调并推动其他部门和团队积极参与和配合数据治理工作。因此,公司高层的支持是数据治理项目成功的关键保障。
• 定战略,树文化
应当将企业的数据治理实践与行业标准及业界最佳实践进行对标,以找出自身的不足和差距,为制定数据治理战略目标提供明确的方向。同时,数据治理团队应当致力于在整个公司范围内营造数据治理的文化和氛围,以确保所有员工都能积极参与并遵循数据治理规范。
• 立制度,建流程
必须建立一套完整的数据治理制度,以确保数据治理工作能够具体落实到责任人,从而更加有效地推动数据治理的实施。
• 善组织,齐协作
数据治理并非仅靠一个数据治理团队就能完成,而是需要与全公司所有与数据相关的业务部门和技术部门协同推进。因此,成立数据治理委员会势在必行。在企业数据治理委员会的指导下,设立数据治理办公室以及相关的协同组织部门,以推动数据治理工作的全面落地实施。
• 权责利,当清晰
在数据治理过程中,数据资产所有者及其团队的权利、责任和利益应当明确且清晰,确保各方在协作中能够充分发挥自己的优势和特长,有利于治理活动的推进和各方的协作配合。
• 凡标准,共遵循
通过制定明确的数据治理标准规范和流程,包括数据治理总册和各专项治理分册等,可以帮助企业的数据开发和管理团队做到有章可循、有据可依,进而提高数据治理的整体水平。
构建数据治理运营机制,提升数据治理效能
• 察现状,诊问题
对于数据开发和管理环节,需进行全面的现状调研和分析,以发现潜在问题和瓶颈,为后续数据治理工作提供有力依据。
• 能识别,准定位
通过数据问题的识别规则,可快速准确地定位数据问题及产生的原因,从而提高数据治理效率和准确性。
• 能优化,可评估
在识别和定位数据问题后,需提出优化方案并评估治理效果。通过科学评估方法,全面客观评估治理效果,为后续优化提供参考和改进依据。
• 能审计,可回溯
在数据治理活动中,应记录用户操作日志,以便后续审计和回溯。如果出现任何数据问题或争议,可以从系统日志中回溯相关操作,进行审计和检查,以便找出问题的根源并采取相应的处理措施。同时,系统日志也有助于对数据治理活动进行有效的监控和评估,以及提高数据治理工作的透明度和可信度。
• 须考核,纳监督
数据资产健康度评估是数据治理绩效的关键反馈,通过多维评估分数,不仅有助于发现数据治理薄弱环节,也是衡量数据治理成果的直接途径。以数据健康评分作为持续抓手,落实到具体责任人和团队,每个人都有绩效分,从而促进“要我治理”向“我要治理”的良性可持续发展。
• 有奖惩,必晾晒
根据各团队的数据治理成果进行奖惩,每周、每月定期进行红黑榜晾晒。对于黑榜或连续绩效表现较差的团队,采取相应的权益限制,例如降低任务优先级、限制集群资源申请等。
落实数据治理重要措施,开展专项治理行动
• 采存融,管治用
大数据每个环节都紧密相连,需要统一纳入数据治理的范畴。
• 全链路,环相扣
大数据生产加工链路中的各阶段相互依赖,形成紧密的上下游关系。每个环节都很重要,出现问题会导致连锁反应,影响大数据生产加工的顺利进行。因此,必须高度重视每个环节的质量控制和风险管理,确保整个链路的稳定性和可靠性。
• 元数据,乃基石
元数据作为数据治理的基石,对数据治理项目的成功与否起着至关重要的作用。有的企业甚至建设了统一的元数据仓库,并构建了强大的主动元数据管理能力。
• 设规则,控质量
许多企业面临着数据质量问题的困扰,缺乏有效的数据质量稽核无法确保数据质量,而过多的数据质量稽核则会导致算力和成本的过度消耗,甚至影响正常的数据处理流程。因此,企业需要精准地把握数据质量管理的尺度,并非所有数据都需要高质量的管理。在实践中,应优先针对涉及重要业务的数据、经常出现问题的数据以及被多次引用的数据进行稽核。
• 厘血缘,识脉络
采用机器学习模型算法对SQL语句、程序日志和模型命名规则进行深度解析,自动生成涵盖库级、表级、字段级和任务级等多层级的血缘关系。然而系统自动解析并不能覆盖所有的血缘关系,因此还需要人工维护的方式进行补充。
• 快追踪,知影响
当数据出现问题时,可以通过血缘关系快速定位到上游数据资产,还可以评估出该问题对下游数据资产的影响,防止了问题的扩大和连锁反应的产生。
• 数地图,为核心
数据地图是一种可视化工具,用于展示和呈现数据资产相关的信息。它通过图形化方式呈现数据资产的全景视图、流动视图和价值视图等,使用户能够更加直观和轻松地掌握数据资产。
• 呈全景,知分布
数据资产全景视图通过实时监控数据模型、指标、标签等资产的变化,对其进行分类,并全面展示数据资产的总量、分布和变化趋势等信息。
• 显流动,明趋势
数据资产流动视图在数据全生命周期中设置多个监控点,实时展示数据采集、处理、共享和开放过程,为数据运维者提供有力支持,有助于及时发现问题并优化运维流程。
• 摊成本,指方向
大数据成本包括基础设施、开发实施和软件资源成本,可根据这些成本数据计算每个数据资源的成本,分摊至项目、部门和子公司,形成企业级的大数据成本信息。高成本的组织需结合产出评估ROI,以指导治理方向。
• 自目录,至明细
数据目录是企业对数据进行盘点后形成的数据清单,它可以通过系统、分层、主题、标签等维度进行分类和展示。有的企业还会将数据目录进一步细分为数据资源目录、数据资产目录和数据开放目录。
• 易检索,助分析
通过利用元数据知识图谱和智能推荐引擎,我们实现了“人找数”和“数找人”的交互方式,极大地提升了用户查找和使用数据的便利性。这种创新方式,就像在电商平台上购物一样简单便捷,从而加速了数据的实际使用、开发和分析过程。
• 保安全,促开放
数据开放是一把双刃剑,既能够促进数据的融合和价值提升,又存在数据泄漏的风险。因此,通过深入分析数据加工链路上涉及的多个环境和技术形态,明确安全管理流程,严格控制数据的申请、分发和使用流程,才能确保数据全生命周期的安全可控。
• 若合规,应共享
在企业内部,数据并不仅仅是某个部门的独有资产,而是应该被全公司所共享和利用。这种开放共享的数据管理方式,可以促进企业内部数据的流通和利用,提高企业的生产效率和创新能力。
• 分等级,分类型
为了加强数据安全管理,需要对数据进行分级和分类管理。根据数据的重要性和敏感程度,将其划分为不同级别,并考虑数据的时效性、就高不就低原则和关联效应。通过分级分类,可以更好地了解数据资产,制定不同级别的安全策略和措施,加密重要数据,严格控制访问,定期备份,从而提高数据安全性。
• 严授权,护隐私
在数据采集、处理、存储、使用和共享阶段,都应严格控制授权以保护数据隐私。同时,采用动态脱敏技术实现数据的安全精细控制,降低泄露风险,确保数据的可用性和共享效率。
• 建服务,少跑数
数据服务是共享开放的基本形式,也是推动数据高效访问和业务创新的重要手段。通过可视化、低代码方式一键生成数据服务,提供友好的开放体验,包括API、数据交换和文件下载等多种方式。
• 弃保姆,来自助
实现完善的数据一键入湖、数据共享开放机制以及提供丰富的数据服务,底层数据开发者无需提供“保姆式”数据支持,上层数据应用开发者可以在数据目录中选择合适的数据资源及数据服务进行自助开发,提高数据应用的开发效率。
• 始源头,控增量
事后的数据治理只能带来一时的保障,更应该从问题源头、数据源头进行治理。
• 理价值,降存量
应对数据资源、数据报表、标签等进行价值层面的梳理,对于没有价值或低价值的数据应该及时清除,避免资源的浪费。
• 设周期,常清理
综合考虑数据访问速度、存储容量以及存储成本的平衡,在成本可控的情况下,使大数据发挥出更大的价值。通过生命周期管理矩阵设定数据生命周期的时长,对过期数据进行清除。此外,通过对数据的热度进行分析,将冷温数据存储在中低配置的存储介质上,以提高存储空间的利用率和降低存储成本。
• 需压缩,宜存档
通过采用数据压缩和存档的方式,可以大大降低存储资源的消耗。
• 视场景,择引擎
选择合适的计算引擎对于大数据处理至关重要。例如,将相同的数据任务从HiveSQL迁移到SparkSQL后,运行时间、计算资源和内存资源大约可以节省40%。不同的计算引擎具有各自的优势和适用场景,因此在实际应用中需要根据任务的具体需求和数据特点来选择最合适的计算引擎,以实现更高效、更稳定和更节约资源的计算处理。
• 去冗余,平峰谷
企业的数据资源使用高峰期往往出现在凌晨0点至8点,导致全天资源峰谷相差太大,使得高峰期资源紧缺,因此需要评估高峰期的数据任务是不是有必要在该时间段运行。合理安排数据任务的时间,可以更好地均衡利用资源。
打磨数据治理智能工具,助力高效治理实施
• 治理急,线下先
当遇到紧急数据问题时,应首先采取线下沟通的方式,迅速召集相关人员讨论并寻求解决方案,以最快速度解决这些问题。
• 累经验,建工具
对于非紧急的、手工治理成本大且需要常态化治理的,使用线上工具治理更加合适。通过自动化工具可以大大降低人力成本,提高治理效率,并且可以实现全天候的实时监控和预警,为企业提供更加稳定、高效的数据治理服务。
• 体系化,智能化
数据治理需要体系化推进,不能“头痛医头,脚痛医脚”应对式片面治理,而要采取“步步为营”的科学式全面治理模式。
• 一站式,闭环式
提供一站式的治理工具和服务,遵循PDCA循环的科学理念,制定数据治理运营实施策略,并确保该策略“有计划、能实施、可评估、促改进”。
• 工具易,运营难
数据治理是七分治理运营加三分工具建设的综合体现。如果说治理工具是硬实力,那么治理运营则是软实力。
• 若有方,皆可成
尽管数据治理工作充满挑战,但只要找到正确的方法并愿意投入精力,就一定能够有效地管理企业的数据资产,进而加速推动企业的数字化转型。
三、后记
数据治理“三字经”,伴君摘得“满天星”。
笔者期望通过自己的创作分享,帮助企业在大数据领域中更好地摘取“满天星”,推动数据资源向数据资产、数据资本转变。
而数据资本,正是那漫天的繁星,引人注目,光彩照人。
作者介绍
韦真,长期致力于数据治理领域的研究与实践,曾担任世界500强企业数据治理负责人,在数据治理领域有着丰富的产品规划、产品建设和运营实践经验。
附:《数据治理“三字经”》全文
数据治理“三字经”
韦真
数之初,量本小。猛增长,遇瓶颈。
缺管理,实难控。若不治,随可崩。
若广治,惧其繁。治之道,贵以专。
高层挺,强执行。定战略,树文化。
建制度,设流程。善组织,齐协作。
权责利,当清晰。凡标准,共遵循。
察现状,诊问题。能识别,准定位。
能优化,可评估。能审计,可回溯。
须考核,纳监督。有奖惩,必晾晒。
采存融,管治用。全链路,环相扣。
元数据,乃基石。设规则,保质量。
厘血缘,识脉络。快追踪,知影响。
数地图,为核心。呈全景,知分布。
显流动,明趋势。摊成本,指方向。
自目录,至明细。易检索,助分析。
保安全,促开放。若合规,应共享。
分等级,分类型。严授权,护隐私。
建服务,少跑数。弃保姆,来自助。
始源头,控增量。理价值,降存量。
设周期,常清理。需压缩,宜存档。
视场景,择引擎。去冗余,平峰谷。
治理急,线下先。累经验,建工具。
体系化,智能化。一站式,闭环式。
工具易,运营难。若有方,皆可成。
来源:51CTO