导读 本文将深入探讨数据治理在金融行业中的落地实践,从国家监管、行业要求、组织架构、解决策略及技术应用等角度,深入解析如何提升数据质量,并介绍具体的实践方法和评估标准。
主要涵盖以下五个关键方面:
1. 数据质量管控的背景
2. 数据质量问题面临的挑战
3. 数据质量管理体系建设
4. 基于数据质量提升的数据治理落地实践
5. 数据资产质量评价
分享嘉宾|孙星 恩核(北京)信息技术有限公司 部门总监编辑整理|Neil
内容校对|李瑶
数据质量管控背景
1. 金融机构数字化发展趋势
近年来,从国家监管层面出发,无论是业务监管、科技监管还是数据监管,国家监管机构对金融机构的管理要求逐步提高,并提出了更为严格的规范与标准。
在业务监管方面,发布了《商业银行内部控制指引》和《银行金融机构全面风险管理指引》等一系列监管文件,旨在强化金融机构的内部管理和风险防控能力,对数据质量提出了更高的要求。
在科技监管方面,发布了《商业银行信息科技风险管理指引》等,进一步明确了对金融机构信息科技风险的管理要求,强化了对金融机构数据处理、存储和传输的技术要求。
特别值得关注的是数据监管方面,发布了《关于开展监管数据质量专项治理工作的通知》,强调了数据质量的重要性,以及在金融行业中监管推动是第一推动力。
近期,我们还从媒体报道中了解到,一些大型银行因为数据质量问题而导致巨大损失。这些事件也警示金融机构必须重视数据质量,通过数据治理工具和策略来解决不准确、不完整等问题,以提升数据质量。同时,这也推动了整个金融行业的数据治理活动向更深入的层次发展。此外,从银行业来看,银保监会发布的统计管理办法以及各类试点监管内容也日趋细致,对金融机构的报送频次要求越来越高。例如,在多表整合方面,从 EAST、1104、风险管理到数据应用的整个平台整合报送,都提出了严格的要求。这些要求包括对业务规模类指标的强制要求,从明细汇总到明细加工,再到现在按日、按月的高频报送。这种高频次的报送特别强调数据质量,对数据提出了更高的准确性和完整性要求。监管机构还设置了强制性或体系性的校验,对数据质量进行严格的核查和验证。这些监管要求充分体现了数据质量提升在整个数据治理过程中的关键作用,进一步说明数据质量是金融行业合规与运营的核心要素。另一方面,从企业数字化转型的要求来看,数据质量的高低以及资源的优劣直接影响到整个企业的数字化能力,数据质量已经成为企业数字化承诺中的关键指标。在推进数字化转型的过程中,数据治理显得尤为重要。数据治理工作包括体系的搭建、效果的评估,以及经营数据质量的提升等方面。通过有效的数据治理,企业能够确保数据资源的准确性和可靠性,从而更好地支持数字化转型目标的实现。因此,加强金融机构数据质量管控,既是出于外部监管的要求,也是出于金融机构内部对数据准确性的需求。然而,在实际过程中仍然存在一些问题。例如,由于战略目标不清晰、组织架构不明确以及领导不够重视,导致数据质量管控力度不足;信息不完整、数据缺失等问题,导致数据资源质量不高;数据服务与目标业务变化不准确、不匹配的情况也时有发生。在数据治理的整个项目过程中,主要目标就是为了解决这些问题,帮助企业有效提升数据质量,确保数据的准确性和一致性,从而满足监管和业务发展的双重需求。数据质量问题面临的挑战
根据实际经验和不同客户、项目所反馈的情况,大部分机构在数据质量管控上会面临以下六个主要问题:问题解决周期长、问题解决难度大、质量问题多、问题责任难以明确、溯源耗时耗力,以及问题解决重视程度不够。1. 问题解决周期长
数据质量问题的发现可能相对容易,但要真正解决往往并非一蹴而就。问题的种类繁多,有些问题根本无法彻底解决,有些则有常规的解决方案。然而,责任人对这些方案的了解程度不同,导致问题的解决周期变长。数据质量的解决是一个持续的过程,并非一次性完成的任务,需要根据项目类型的不同经历体系建设和长期维护。虽然建立这个过程相对容易,但保持长期有效却比较困难。2. 问题解决难度大
解决难度大的原因在于系统建设不完整,导致后续整改复杂。历史遗留问题也是造成数据质量难以提升的关键原因,尤其是涉及跨部门协作时。例如,数据仓库中的问题通常需要业务系统来整改,而业务系统的整改可能带来较大的系统风险,需要评估如何应对。这种跨部门的协作无形中增加了解决问题的难度和周期。此外,一些问题可能在信息补录环节就已产生,例如填写信息时出现错误,后续要通过各种手段找到原始数据,同样也会增加难度。3. 质量问题多
数据质量问题表现为两类:一是问题的种类多,二是问题数量大。不同种类的问题需要不同的解决方法,有些可以通过系统功能来判断或解决,有些则需人工调整。由于问题的类型和数量多样,目标和处理方式也随之不同,进一步增加了解决问题的复杂性。4. 问题责任难以明确
在整个数据质量问题的责任认定过程中,通常采用联合责任的方式。但数据经过加工处理后,责任归属可能变得不明确。特别是跨部门问题,当数据从原始数据到数据仓库经历多次加工与汇总后,很难明确责任,尤其在跨部门协调过程中,责任认定的复杂性更为突出。5. 溯源耗时耗力
在监管报送或指标错误时,需要对数据进行一层一层的加工逻辑分析。然而,银行中的数据仓库或数据平台系统相对复杂,其中数据管理方式以及数据建设过程中的管理手段不够完善,导致找到问题源头的过程非常困难,耗时较长。整个溯源过程反映了问题解决周期长、耗时久的痛点。6. 问题解决重视程度不够
在一些机构中,数据质量问题并未得到足够的重视,尤其在高层决策方面,关注点通常集中在对政绩、业绩和金融数据有直接影响的核心指标上,而一些细小的细枝末节的这些数据关注较少,未意识到这些数据可能产生的潜在价值。针对上述问题,需要综合运用多种手段,通过体系建设、技术方法、流程管理等途径进行改善。同时,整个企业包括领导层和员工都需要加强对数据质量问题的认识,以应对数据治理过程中所面临的挑战。数据质量管理体系建设
数据质量管理体系的搭建,可以参考 DAMA 体系。DAMA 体系中的知识框架将数据质量管理放在核心位置,定义为核心领域的一部分。这一框架明确了数据质量管理的重要性,将其视为整个数据管理的关键部分。
在项目实施的过程中,始终遵循 DAMA 体系的内容,并将其作为项目实施的指导原则和理论支撑。DAMA 体系不仅为数据质量管理提供了理论依据,还为项目实施提供了系统化的方法,使数据质量管理在实际操作中更具可行性和规范性。在实施过程中,结合金融行业各个企业的特性和能力要求,进行更为细致化的工作。通过对金融机构数据质量管理需求的深入理解,制定切实可行的策略,使数据质量管理在实际工作中得以落地和应用。这种结合金融行业特点的方法确保了数据质量管理在整个框架中不仅仅停留在理论层面,更在实践中发挥作用。在金融机构的数据质量管理中,组织架构与角色分工是关键的管理环节。数据质量管理的复杂性在于目标的多样性和跨部门的协同需求。为了有效推进数据质量的提升,金融机构通常采用分层的组织架构模式。
以银行为例,数据质量管理的架构通常划分为四个层次:管理层、业务层、技术层和执行层。每一层次都有明确的职能与责任分工:管理层:负责制定整体数据治理的战略规划和目标,确保数据管理工作的方向与银行的战略保持一致。
业务层:作为数据的实际使用方,业务部门承担识别和提出数据质量问题的任务。他们通过业务实践发现数据质量问题,并反馈给技术部门以寻求解决方案。
技术层:科技部门依据业务部门提出的问题,利用技术手段处理数据质量问题。他们的主要职责是通过技术方案和系统优化来提升数据的准确性和一致性。
执行层:执行层主要负责具体问题的落地解决,例如银行分支机构或柜台通过数据补录等方式来修正和完善客户数据,确保业务运营过程中数据的一致性和完整性。
这种架构通过清晰的职能划分,确保各部门协同合作,有效推动数据质量的持续改进与优化。
3. 管理方法论和管理模式
数据质量管理方法论和管理模式在金融机构的数据治理中占据核心位置。其基础方法论通常基于 PDCA 循环(计划-执行-检查-行动),这一循环被广泛应用于数据质量管理的各个环节。
在银行的数据质量管理中,首先在“计划”(P)阶段,制定详细的提升计划,并设定数据质量提升的具体目标。根据计划,制定相应的检查规则,以此为基础对数据进行检核,识别并导出问题数据。接下来,将这些问题数据分发至相应的整改部门进行处理,确保问题能够被及时有效地解决。整个流程通过不断的“检查”(C)和“行动”(A)环节持续改进。为了有效评估整改效果,银行往往会结合绩效考核机制,形成阶段性的数据质量管理报告。通过成果的展示,量化和评估数据治理工作的成效,为下一阶段的质量强化提供依据。这种基于 PDCA 循环的工作流程确保了数据质量管理的系统性和持续改进性。根据不同企业的规模、业务需求及项目目标,数据质量管理通常分为三种模式:整体规划与定期考核模式,通常用于解决目标明确且长期规划性强的数据质量问题,采用瀑布式管理方法。具体流程是根据既定目标,将工作细化分解,并按照阶段逐步推进。这一模式适合整体体系建设和数据质量问题的系统解决,通过定期考核确保目标的达成。
专项治理与快速执行模式。专注于特定场景下的风险控制和问题解决,常见于监管要求下的数据治理。例如,针对监管机构要求的某类数据问题(如异常数据或疑似问题数据)进行专项治理。这种模式的优势在于能够快速应对和解决具体问题,确保在特定时间内完成整改。
用户驱动模式强调从下到上的问题发现与解决,即业务部门作为数据的实际使用者,能够积极参与到数据质量管理中,提出发现的问题并协助解决。这一模式的优势在于能够发现传统规划模式中未预见的问题。然而,缺点在于提出的问题可能较为分散,未必所有问题都同等重要,管理上也可能存在一定的复杂性。
每一种模式都有其适用场景,机构应根据具体需求和目标选择合适的管理方式,以达到最佳的数据质量提升效果。在数据质量管理或改善项目中,我们公司采取了四个关键点来协助提高数据质量问题的解决效率,这些关键点包括提术、联术、智术和技术。这四个方面在数据质量问题解决过程中发挥了重要作用。这四个方面在数据质量问题解决过程中各司其职,共同推动数据质量的提升。提术通过规划和优先级排序解决基础问题,联术通过综合考量,提升整体数据质量,智术通过创新手段提高解决效率,技术则通过大数据平台提升处理性能。提术在数据质量管理中关键在于优先级规划。我们采用象限理论来定义任务的优先级,基于两个维度:整改难易度和问题重要性,将问题分为四类:第一象限:重要且易整改的问题,优先解决,能带来快速改善。
第二象限:重要但难整改的问题,需权衡处理,因为解决方案可能较复杂、时间周期可能会很长。
第三象限:不重要但易整改的问题,处理这些问题可以在重要问题解决后进行。
第四象限:不重要且难整改的问题,优先排除或推迟处理,以免浪费资源。
这种方法确保我们系统性地解决数据质量问题,有效配置资源,提升数据质量管理效果。在数据质量管理中,解决数据问题不仅仅依赖于数据质量本身,还涉及到多个相关领域。联术强调了如何通过多方面的工作,运用各种工具和方法、技巧来提升数据质量。比如,元数据是数据质量问题排查中很关键的一个因素,基于元数据进行血缘溯源和数据质量评分可以为保证数据质量提供有力支撑。另外,数据架构直接影响着数据的质量,如果数据架构设计良好,后续的数据处理和管理就会更为顺畅,从而提升数据质量。主数据也在数据质量管理中扮演着重要角色,其中定义了数据的长度等属性,保证数据的一致性。数据标准,定义了数据处理和存储的规范,以确保整条链路的数据质量。此外,应用场景也是重要的考虑因素,针对如监管报送、数据分享、审计等不同场景开展不同的质量管理工作。在智术方面,为了提高数据质量问题发现和解决的效率,我们构建了两个知识库:问题数据知识库和解决方案知识库。在问题数据知识库中,分类记录数据质量问题变更的详细情况,结合解决方案知识库,关联分析,快速定位问题并提供高效的解决方案,从而降低问题解决的难度,提升整体效率。在技术方面,专注于提升性能和效率。随着数据质量问题规模的扩大,传统数据质量的任务管理系统很多都是在一些关系型数据库上执行,面临了很多技术上的一些问题。为提高解决效率,引入了 Hive、Spark 等大数据平台,利用这些工具所提供的高效的数据处理和分析能力,解决数据质量管理中的性能瓶颈。基于数据质量提升的数据治理落地实践
首先是以数据架构驱动数据质量管理。通过结合数据模型和数据字典中定义的约束条件,自动生成部分校验规则,帮助处理企业体系建设后的数据问题。根据不同的场景和管理主题划分不同的数据模型管理方式,创建不同的数据质量管理场景。通过血缘分析,可以通过数据评估机制,发现潜在的数据质量问题。比如说图中空值率都是 0,但实际出现空值了,那就证明这个地方加工过程当中可能还有一些其他因素,导致它这里面出现了空值的这种情况。通过血缘追踪数据流动的路径,可以快速找到问题点。对数据的剖析结果,会通过血缘分析和模型工具进行展示,以帮助解决质量问题。主数据管理主要解决统一配置和治理的问题。在不同系统中,字段散落各处,通过标准化,我们可以将这些字段统一汇总和配置,并同步应用到所有的系统,对源系统的这种质量把控有可能会采用这种方式。在实际过程中,这些系统的信息进入数仓之后都是在贴源层,我们在梳理标准的过程当中就可以对它进行标准化,标准化处理后,能够找到字段的共性。例如,统一使用相同的名称,并定义标准化规则。这样,所有系统都能应用一致的标准,并通过制定相应的检查规则,进行数据质量检验。基于数据标准,实现系统落标或对标后,可以通过联合对比定位问题。面对众多监管要求,数据质量管理的重点不再是管和治,而是监督和监控,特别是在智能组合、智能分析、智能分发和智能预警等领域的技术探索和研究变得尤为重要。通过这些技术手段,可以更有效地监控数据全链路,以保证数据质量。在我们的产品体系中,数据质量管理只是其中一部分。我们的平台涵盖了数据架构和模型设计工具、数据资产管理和规范,以及基础能力开发等,覆盖了数据资产的全生命周期,以真正实现“全方位、全流程、高质量”的数据管理。数据资产质量评价
关于数据质量检核效果如何评估,中国质量认证中心推出了数据资产质量评估项目,从规范性、完整性、准确性、一致性、应用性和经济性六个方面对企业内部的数据资产质量进行评估。对于符合要求的企业,会颁发相关的质量认证证书。我们也参与了一些技术规范的实施。评估结果显示,进行过数据资产盘点、数据治理和质量管理的企业,在得分和获得证书的概率上表现更佳。这表明,通过数据资产质量评分可以间接有效反映企业内部数据质量管控成效和提升程度。专注数据质量、数据资产质量等数据分析类软件的研发和管理工作十余年。
主导企业级数据质量、数据资产质量管理及服务平台的产品研发工作,帮助客户通过工具打造常态化的数据质量监控和管理体系,确保高质量数据的快速生产和管理,加速企业数据价值的变现。