统一数据底座是北京银行数字化转型战略中的关键基础设施,以“数慧”为总体目标,以“一个银行、一体数据”为理念,是涵盖“建、管、用”的一体化支撑。平台涵盖资源管控、数据采集交换、数据存储计算、数据服务、数据研发、数据治理、数据安全、数据应用共计8大类基础能力域,各领域既独立,又互相依托,共同完成整体数据底座的建设工作。该平台打通跨系统数据,消除从源系统直接到数据应用的烟囱式,对数据进行分类管理,形成企业级整合模型,统一数据口径,消除重复加工,实现数据共享,打造数据完整、可信、“对上有服务,对下有要求”的ONE DATA企业级统一数据体系,支撑北京银行数据资产的应用和价值释放。
方案背景
中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见中说明:“数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产方式、生活方式和社会治理方式。数据基础制度建设事关国家发展和安全大局。”在数字经济背景下,中小银行数据应用场景从应对传统监管要求及行内经营分析转变为满足数字化经营场景需求,对于全域数据、实时数据、非结构化数据的管理及场景化应用的要求不断提高。因此,新形势下的数据治理体系需实现对全域、全生命周期的覆盖,实现对银行生产经营、业务管理所沉淀数据的全面重现。
数据治理作为数字化转型之“根”,其路径选择将影响到数字化转型战略是否能成功落地实施。北京银行调研了多家同业领先银行的数据治理实施路径,充分汲取了有效经验,但北京银行并没有选择复制国有制大行先开展核心系统全量数据治理,再建设数据中台积累数据资产的常规化治理路径,而是在清晰明确本行数字化转型目标的基础上,结合自身数据治理现状,探索出一条具有京行特色的新型数据治理之路。
在霍学文董事长的亲自带领下,北京银行创新性地确立了“一个银行、一体数据、一体平台”(One Bank, One Data, One Platform)的工作理念,着力打造基于统一数据底座、覆盖数据全生命周期、一体化的新型数据治理体系。以建设全行统一数据底座为核心载体,以数据资产盘点为起始点,串联数据资产管理、数据模型管理、源头数据治理、数据服务应用等重点任务,并结合业务、数据、技术协同的敏捷治理机制,集中优势资源投入到重点治理领域,边用边治、边治边用,以快速迭代的方式迅速推进全行数据治理工作。一体化数据治理体系在满足银行企业级管理决策及监管等基础要求的同时,将全面支撑数字化经营,以数据驱动北京银行数字化转型。
方案目标
统一数据底座以“数慧”为总体目标,以“一个银行、一体数据”为理念,是涵盖“建、管、用”的一体化支撑。打通跨系统数据,消除从源系统直接到数据应用的烟囱式,对数据进行分类管理,形成企业级整合模型,统一数据口径,消除重复加工,实现数据共享,打造数据完整、可信、“对上有服务,对下有要求”的ONE DATA企业级统一数据体系,支撑我行数据资产的应用和价值释放。具体包括如下四方面的目标:
1、统一可信:底座数据均有明确业务归属、底座数据均有明确权威来源、底座数据均按标准模板盘点、底座数据均由统一模型管控。
2、供给敏捷:搭建20PB级别存储计算平台,实现资源智能管理 企业数据湖体系建设, 可实现全行数据集中管理,T+0实时计算能力, 实现数据从天到秒的跨越,智能化的数据研发体系。
3、服务便捷:服务由门户统一提供、面向用户的服务理念、清晰的数据服务模式、优化用户交互体验多元化数据服务渠道。
4、共享安全:统一数据共享目录、统筹数据应用需求、数据分类分级管控、完成数据沙箱搭建, 支持各类数据探查能力。
方案特点
1、采用大数据技术。搭建北京银行统一的大数据云平台,通过动态扩展、存算分离、多副本、高可用,实现银行交易数据的集中存储和高效共享,为金融数据的存、管、用,提供基础平台服务。
2、湖仓一体高效数据共享加工体系。减少数据加工过程中的环节,通过统一的存储资源降低冗余、促进共享。加强数据资产全局化管理,统一标签和指标的业务口径,实现“一处加工,多处使用”。
3、批流一体lambda容错实时数据处理体系。在保留行内原有批处理的基础上,增加实时数据处理能力,通过每日数据物理化和数据对齐,实现批量处理和实时处理的有机结合,支撑更加广泛地应用场景。
4、独立安全的脱敏数据沙箱实验室。在“租户”管理模式的基础上,实现空间用户资源的固定规格创建、变更、延期及回收,总分行用户权限的有效识别与控制,数据资源的临时性及周期性同步,为用户提供了独立、安全、全面、便捷的数据探索环境。
5、数据研发生命周期流水线 DataOps。在数据全生命周期开发基础上,增加数据自助分析与探索,将探索结果与需求打通,实现需求机制的转换;同时,增强数据交付管理,打通开发及生产环境,支撑流水线的自动化测试与部署,实现代码及数据版本控制,提升数据交付能力。
方案业务流程图
统一数据底座是我行数字化转型战略中的关键基础设施,通过统一数据底座的建设,将我行数据存储、数据计算、数据服务、数据研发、数据资产、智能分析等多个关键数据平台进行重塑和升级,将原有数据平台之间的“系统墙”进行彻底打通,多平台之间共享信息和资产,共同构建了统一数据底座基础技术平台。
图1 统一数据底座能力图谱
基础技术平台为统一数据底座提供底层标准化的服务和支撑,共分为三类:第一类是资源服务,提供实时计算,批量计算、多维计算等环境和资源,这些服务都是云化版本,可以快速搭建自己所需的基础环境;第二类服务是工具服务,提供了数据采集、加工、分析等工具,可以快速进行数据处理;第三类是数据服务,提供了在线的元数据管理、数据目录、数据服务总线等功能,方便对外的数据服务。并基于此,统一数据底座技术平台实现了五方面的关键技术突破:
构建存算分离的大数据引擎。在数据底座建设之初就把存储计算分离作为重要的目标。在技术上将多套国产分布式数据库集群存放在统一的存储介质上。将海量的存储和计算资源进行分别管理和分配,最大限度保证硬件资源的充分利用。到目前为止,统一数据底座已经上线600+节点的云化MPP引擎,实现集群共享同一个存储,共享的数据量达到PB级别。云化的存算分离的分布式数据库在资源供给、故障恢复、节约存储、计算资源等方面,相比传统的数据处理系统有较大提升。
实现湖仓一体新一代数据处理架构。依据最新发布的《湖仓一体技术研究报告》显示,湖仓一体是一种新型的开放式数据架构,打通了数据仓库和数据湖。此次,统一数据底座工程将数据仓库的高性能及管理能力与数据湖的灵活性融合了起来,在底层支持多种数据类型并存,实现数据间的相互共享,上层可以通过统一封装的接口进行访问,为我行在数据使用过程中提供了充分的便利性。湖仓一体的数据架构即可作为超大型ODS存储贴源数据,也可在数据入湖后原地按照标准数据主题和数据模型进行高效数据处理与分析,能有效避免数据冗余及流动导致的算力、网络及成本开销。
打造流批一体数据计算模式。随着金融业务的不断开展,以往基于T+1甚至T+N的数据计算时效性远远满足不了很多数据应用场景需求。实现数据的实时性也是此次统一数据底座的重要突破,采用Flink + Hudi的技术方案,通过全托管的方式让用户不用关心底层存储计算集群的架构原理,只需要聚焦于自身的业务逻辑,统一批和流计算的数据口径,可以快速支持实时数据分析等场景。
推出多元化数据服务能力。强化数据中台能力,将数据以更多种形态嵌入至业务场景之中。实现数据的复用而不仅是复制,传统的架构中,都是通过数据同步能力,把计算的结果同步给业务系统,由业务系统自行处理,这会带来一个数据管理问题,即无法获取数据在应用场景中的具体价值和热度,整个数据血缘链路也是割裂的。通过统一数据底座建设,实现报表、指标、标签、主题、模型等不同种类数据可以被多种形式进行复用,全面赋能业务应用。
搭建DataOps敏态数据研发流水线。基于中国信通院牵头发布的DataOps成熟度模型,搭建统一数据底座研发平台,围绕实践、流程、工具、技术、可持续等理念,提高数据工作的质量、速度和协作,不断围绕数据各生命周期和环节进行实践积累,具备极高的实践过程中方法论的抽象能力,让总分行所有数据研发人员之间具备了共享数据信息和沉淀资产能力,全面提升数据研发过程的效率和质量,从试点项目来看,交付效能提升50%以上。
实现功能展示
打造高效、稳定的核心技术平台。将数据平台级资产进行统筹管理,不再按照系统维度划分存储计算资源,而是将所有的计算资源云化,按需完成资源的快速发放和收回。
图2 大数据云平台
建设全流程敏态数据交付能力。北京银行统一数据底座基于DataOps理念,以“敏捷开发与交付、开发治理一体化、高效协同资产共享、精细化数据运营”为目标,对整体研发过程进行完整梳理,在数据采集、数据入湖、投产部署等关键环节实现“零代码”,项目整体交付效能提升50%以上。
图3 数据研发工作站
建设全流程数据资产管控能力。新建业务系统全面纳入底座整合层,新建集市全面基于底座进行建设,建立数据资产目录。在数据研发和数据管理中增加关联触点,全面促进全行数据集中统一管理、落地数据标准、提升数据质量的目的。
图4 数据底座资产平台
形成多模式、自助化的数据服务能力。统一数据服务门户为全行提供统一登录、统一服务、统一搜索、统一管理的数据服务,打造“数据资产服务化”门户,为用户提供“一站式”数据服务平台,满足用户统一化、便捷化、及时化、智能化看数找数需求。
图5 底座数据门户
方案案例及效果
目前统一数据底座已经全面投产使用,已经完成数据湖基础区、数据集市区、数据服务区、实时区、历史归档区、数据沙箱区六个数据库集群搭建,部署节点总计600+台,数据量达到18PB,为170余个系统提供数据支持,全面支撑全行数据应用。大数据云平台已上线运行系统共50余个,租户下用户200余个,日均处理数据计算任务5万余个,处理数据量可达3PB级别。通过将多种数据应用能力进行收敛,实现数据可以同任意业务场景进行结合,有效支撑零售经营、客户营销、风险防控、经营决策、客户服务等多种业务场景,打造主动数据分析能力,引导数据需求由被动提需求向自主开展转变,提升数据应用价值。
“以数连接、由数驱动、用数重塑”,基于统一数据底座,北京银行打造了新“数聚通”统一数据服务门户、“数据智库”企业管理驾驶舱、“客企查”全景客户画像应用、“监管统计数据平台”等一系列金融数据产品。下一步,将持续推进统一数据底座建设,加速实现“数据驱动、底座筑基、技术赋能、业务敏捷”的整体目标。
方案未来展望
后续,基于数据底座的技术突破也可在应用场景实现几方面共享,打破数据赋能瓶颈,加速数据价值释放。一是实现数据资产的共享,通过实现全量+全域数据统一存储和统一管理,为每个条线和部门构建专属自己的数据集市,可以让业务人员和数据分析人员自由探查数据信息,发掘数据价值,培养数据文化。二是实现数据平台和工具的共享,基于一套研发工具和标准,通过资源隔离方式,让总分行联动起来,让全行共享数据和技术资源,建立覆盖全行的敏态数据交付模式。三是实现数据服务共享,通过多种数据服务模式,实现数据的实时业务化赋能,全面支持综合类数据应用场景。
点击“阅读原文”,申报金松奖!