中国农业银行研发中心
副总经理 谭琦
深挖细剖,
明确银行数据治理重点
《银行业金融机构数据治理指引》(下文简称《指引》)指出,数据治理是银行业金融机构通过建立组织架构,明确董事会、监事会、高级管理层及内设部门等职责要求,制定和实施系统化的制度、流程和方法,确保数据统一管理、高效运行,并在经营管理中充分发挥价值的动态过程。为落实《指引》要求,农业银行从以下方面持续发力推进数据治理。
1.进一步增强数据治理驱动力。数据治理归口管理部门正积极推动开展各项工作,经过前期数据治理工作的推进,在体系构建、平台建设等方面取得了阶段性的成果。但由于数据治理投资回报周期长、业务价值短期内难以直观体现,导致各条线业务人员参与数据治理的意愿不高,在落实各项制度要求的过程中存在“重业务、轻治理”的现象。
2.不断提升数据资产管理能力。数据资产描述了数据的属性和关系,但因数据资产量级大、链路关系复杂,存在查询难、理解难的痛点。为了在数据治理过程中更好地利用数据资产,需要进一步完善数据资产全生命周期管理体系,推动数据资产管理升级转型。
3.继续强化数据安全保护能力。在数据治理中,业务人员需进行数据探查、数据核查等操作,会接触到客户的敏感信息,须采取有效措施满足数据安全管控要求,防止数据泄露、滥用和丢失。
4.持续加强数据质量控制。因数据来源复杂、结构多样、质量参差不齐,在数据采集、处理、使用、归档等全生命周期均需要重点关注数据的真实性、准确性、连续性、完整性和及时性。
5.加速完善数据治理配套工具。数据治理各环节需要与之配套的各类工具为其提供支撑,为了在数据问题发现、分析和定位等环节进一步提高工作效率,需持续提升数据治理工具的自动化水平和智能化水平。
守正铸魂,
推进数据治理体系建设
1.“强驱动”,双线驱动落实数据治理制度。农业银行落实外部要求和内部经营管理需求,明确了决策层、管理层、执行层各方主体职责,建立了多层次、相互衔接的运行机制,确定了“以用促治,标本兼治”的数据治理思路,以监管数据质量问题为导向,以数字化转型为契机,双线驱动推进数据质量管控(如图1),带动各条线业务部门主动、积极地推进治理工作。通过制度的落地实施,一方面强化数据源头系统定标贯标,深化基础数据治理,夯实客户数据基础;另一方面,提升监管数据质量,如针对EAST数据制定数千项校验规则,开展常态化数据监测,及时发现数据问题并持续推动数据治理。
图1 双线驱动推进数据质量管控
2.“理资产”,构建全链路数据资产视图。农业银行以元数据作为数据资产管理的核心抓手,将元数据管理贯穿于数据架构设计、源头数据采集、数据入湖、加工应用等全过程,使数据资产管理触角触及数据的全生命周期。根据当前的工作经验,农业银行配套建设行内统一的数据资产管理平台(如图2),将数据模型、数据标准、数据血缘等各类数据资产统一存储、统一管理,形成企业级数据服务目录,帮助各类用户更加高效地找到数据、读懂数据。
图2 数据资产管理平台
3.“保安全”,建立并落实数据安全管理机制。农业银行在数据的授权、交付和使用环节,分别建立数据安全管理机制,通过建设配套信息管理系统,落实数据安全管理要求,提高数据安全管理能力(如图3)。在数据授权环节实现分级分类管理,依托数据安全管理相关系统,构建全域主题敏感数据目录;在数据交付环节制定脱敏标识管理制度,依托数据架构管理相关系统,形成测试数据脱敏标识清单;在数据使用环节建立信息防泄漏机制,依托终端数据防泄漏相关系统,落实数据安全管控措施,防止因用户行为导致敏感数据非授权传播。
图3 数据安全管理机制
4.“高质量”,形成全链路数据质量闭环管控。农业银行建立“定标—贯标—监测—整改—考核”的全链路数据质量闭环管控机制(如图4),覆盖了数据的采集、整合、应用全生命周期,推动数据质量提升。为切实落实管控机制,农业银行配套建设集中式、自动化、动态式管理的数据治理一体化工作平台,提供包括规则管理、数据质量监测、数据问题分析、问题整改与跟踪、考核评价管理在内的全流程线上化服务,支持数据质量问题的集中收集、维护、展示和共享推送。平台积累近万项数据监测规则,在数据标准执行情况监测方面,定期监测百余个系统的核心数据标准执行情况、近百项重要数据标准执行情况,跟踪数据问题整改进展,持续推进农业银行数据标准贯标工作。
图4 全链路数据质量闭环管控
5.“提效率”,提供数据治理配套工具。农业银行依托数据中台,提炼数据资产,创新工具方法,面向用户提供功能化、自助式的数据服务,解决传统用数方式门槛高、周期长、响应慢的问题,并根据用户使用反馈持续打磨优化,形成让数据越用越好用的正向循环。数据中台作为全行数据应用的核心“枢纽”,以数据湖、数仓为底座,以各集市、应用区为数据基础,以AI平台、BI平台为服务引擎,通过对数据资源的规范化整合实现数据互联互通,为数据治理等业务领域提供用数工具支撑(如图5)。其中,自助式BI工具支持通过图形拖拽的方式完成简单统计分析,有效降低用数门槛、提高用数效率;高级分析AI工具提供了丰富的工具库、集成的算法库及共享的知识库,为复杂建模、深度挖掘等提供“数据+算法”一站式服务。
图5 数据中台架构
AI赋能,
探索数据治理体系新思路
农业银行结合自身数据治理工作经验,充分利用人工智能和大数据技术,在数据资产服务、数据安全保护、数据质量监测、数据治理工具等方面探索AI应用,推动实现数据治理智能化(如图6)。
图6 数据治理智能化
1.“找得到”,提升数据资产智能化服务水平。依托人工智能和大数据技术,从数据资产画像、数据资产智能推荐和智能问答三个方向入手,解决资产查询难、理解难的困难。在数据资产画像方向,全面采集、融合数据资产,基于数据资产属性信息建立资产内容、质量、场景等多维度的标签体系,描绘数据资产多维画像;在数据资产智能推荐方向,基于用户的历史行为数据,实现依据用户需求和偏好推荐数据资产,提升用户体验;在智能问答方向,基于行内知识库,提供智能问答助手,面向数据治理人员提供治理制度和方法等内容的实时问答服务支持。
2.“管得住”,强化数据安全智能化保护能力。对于数据安全风险,农业银行通过智能识别、智能监控、数据访问权限动态控制等方面做到可视、可管、可控和可溯。在识别敏感信息方面,依据敏感数据特征对敏感数据自动打标,提升敏感数据识别能力;在监控数据访问行为方面,对未经授权的、异常的数据访问行为进行监控,自动识别异常数据访问行为并产生预警,以达到防止数据泄露的目的;在数据访问权限动态控制方面,通过身份识别、时间识别等方式,构建数据安全视角上的用户画像,采用信任评估模型实现数据访问权限动态控制。
3.“控得严”,构建数据监测模型和智能分析模型。依托人工智能等技术,及时准确发现数据问题,助力开展数据治理,不断提升农业银行数据质量。一方面,建立数据智能监测预警机制,基于往期数据的属性(如数据的数据量、字段的空值率、金额总和等),预测当期数据的属性数值,将预测值与当期数据的实际属性值进行比对,若两者的差值超出合理阈值则自动产生预警,自动识别数据波动的规律和异常;另一方面,针对发现的数据质量问题提供智能化数据治理建议,根据数据质量问题信息清单对问题数据进行标注,形成问题数据分类标签体系,智能识别分类数据质量问题;同时,智能生成数据质量报告,总结已有数据质量报告分析规则,将历史质量报告作为训练语料,构建数据质量分析模型,对数据校验、监测结果进行分析,依据分析结果生成数据质量报告。
4.“用得好”,依托AI研发智能工具。利用人工智能等技术,提高工具的智能化水平,助推农业银行数据治理提质增效。一是智能生成规则,根据业务规则自动生成数据校验和监测规则,提高规则研制的效能;二是智能监测规则的执行效率,对低效规则生成预警,推动数据校验和监测规则高效执行;三是数据全生命周期的可视化,利用人工智能和大数据分析技术,提供数据从创建到消亡整个生命周期的可视化服务。
守创相融,
谱写数据治理体系新篇章
双线驱动,AI赋能,农业银行将继续以“问题导向、全链管控、综合施策、齐抓共管、稳步推进”为总体原则推进数据治理,以数据质量问题为重要切入点,推动深入开展数据治理,全面提升数据质量、夯实数据基础。同时,积极“识变、应变、求变”,将人工智能技术应用于数据治理领域,实现AI与数据治理的融合互促,提高数据治理成效。
未来,农业银行将做守正创新的“践行者”,持续深化数字化转型发展战略,利用好科技力量为各项工作提供支撑,形成数据生产、应用、治理的良性循环。
新媒体中心
主任 / 邝源
编辑 / 姚亮宇 傅甜甜 张珺 邰思琪