案例背景
案例背景
该客户是河北省一家独立法人的国有控股城商行,机构网点遍及市区及各县,其千亿级资产规模在河北省城商行中名列前茅。
随着“数字化银行”的推进,数据内在的价值挖掘已经成为金融业务创新的动力,因此大多数银行,包括国有大行、股份制银行以及头部城商行都在进行大数据体系的研究、规划和建设。该银行也在2021年上线了大数据平台,大幅提升了数据处理、数据分析能力。
该银行大数据平台存储了贴源层数据、汇总层数据、归档数据以及数据模型,随着该客户新一代核心和信贷系统的上线,依托大数据平台的数据处理和分析的需求也在不断扩大,平台贴源数据每日增量超过50G,对大数据平台贴源数据的存储压力日渐增大,现有大数据集群存储空间占用逼近80%。由于现有大数据平台的存储和负载已经不堪重负,该银行提出了新建大数据贴源层的项目需求。
需求分析
该银行规划依托现有大数据平台的体系架构,提升贴源层全量数据应用管理能力,构建一套完善的、体系化的贴源数据需求识别分析及服务流程,进行按需数据供给,避免系统服务挤兑风险。
新增模块主要为应对该银行历史数据归档、存储、分析、查询等需求。通过建设分布式计算和存储系统,提高全量(包括结构化、半结构化和非结构化)贴源历史的数据分析、挖掘的能力,同时有效降低数据存储和计算的成本。
方案设计
基于需求和现状,方案设计在架构逻辑层面分为数据源、数据平台、数据应用、前端门户。数据源从审批、催收、核心系统等主要业务系统,同步至大数据平台。大数据平台整合数据并向数据仓库、关系数据集市和数据挖掘集市供数,一部分的特殊应用由大数据平台直接支持,其余的数据挖掘工具、多维数据集、管理驾驶舱和报表平台等有数仓和集市支持。前端门户为行内外的用户提供数据挖掘、多维分析、报表查询和即席查询等支持,以及一些特定的分析应用。
偶数与客户共同研讨并形成方案,基于大数据平台的现有架构体系,在旁路构建一套完善的、体系化的大数据贴源层。该贴源层承接了大数据平台全量历史数据(保存时间大于5年的数据),以及今后下线系统的全部数据,不仅对数据仓库和集市提供支持,还基于大数据存储提供冷热明细数据查询和应用,比如数据量过千万的凭证明细数据查询。
鉴于现有大数据平台的存储和复杂度已经不堪重负,新建设贴源层采用存算分离和开放的数据存储,既让贴源层既可以按需扩展,又能提供对Hadoop生态海量应用的支持,对原平台不造成影响。
测试选型
1、功能测试
通过17项功能测试,包括:数据类型、视图管理、索引能力、临时表创建、DML、主流函数匹配、多重存贮类型、数据随机分布、事务、多语言UDF、云原生特性等。
2、性能测试
在TPC-H测试中,实现了100G数据在千兆带宽下的极限读写传输,同时实现了海量数据即席查询、6亿余数据增删改执行。
3、兼容测试
明确了兼容多种接口及工具,包括JDBC、ODBC接口、第三方操作工具、BI工具、调度工具等。
4、场景测试
在与现有大数据平台和数据仓库同样的场景下跑批,表现出海量数据的极限吞吐和快速响应。
基于这样的测试表现,偶数科技的产品得到了行方领导的一致认可,成为了该银行构建大数据贴源层的最优选项。
在兼容该银行现有技术架构前提下,以OushuDB为核心新建贴源层,数据接入方式同时支持ETL和消息队列,提供可扩展、可配置的数据接入形式,支持多种数据源(包括但不限于文本、关系型数据库等)。
支持资源、服务动态扩展;可快速构建基于用户需求的数据接口,实现高速快捷地交付;支持横向线性扩展、集群部署、系统监控。
提供对外服务接口,支持对接该银行,为上下游系统提供数据查询接口,支持单笔查询、批量查询、异步查询等多种形式,如支持柜面系统并发流水查询、报表系统并发报表查询等。
项目实施
该项目在该银行的实施分为迁移、接入、应用、调度、分析几个环节。
1、下线系统历史数据迁移
将已下线的系统数据从大数据平台的Hive库中迁移归档待查。
2、在线业务源系统数据接入
①针对数据存储和查询,设计数据文件的存储策略,把业务系统的数据入库分层存储,保证数据的完整性。
②对业务系统的状态表和流水表根据数据使用的场景设计数据生命周期管理方案。
③根据数据生命周期管理方案制定数据库中数据清理策略,数据文件永久保存。
第一期完成了核心系统、信贷管理系统、互联网信贷系统、渠道整合平台、理财销售系统、客户信息管理系统(ECIF)、总账系统等7个系统的数据源接入,新建系统2个(企业网银、新电票系统),共计上千张表;第二期接入50多个业务系统,共计900多张表。
3、历史数据查询平台支撑
实现与行内现有历史数据查询平台的对接,通过现有的历史数据查询平台查询总账会计凭证查询和明细账页查询。
4、统一调度平台对接
通过跑批、监控以及统计,完成与行内现有调度平台的对接,实现统一调度规范化管理。
①任务跑批
调度平台跑批任务的新增、修改,以及跑批任务触发方式的设置。
②任务监控
对跑批的任务进行监控,记录跑批开始时间、结束时间,任务总数,成功数、失败数等。
③任务统计
对历史跑批的情况进行统计,如平均跑批时长
5、数据处理日志分析
通过数据装载时长分析、批量运行时长分析、数据查阅行为分析,确认整个迁移、接入和调度过程准确完成。
此外我们对该银行内部的反洗钱、事后监督、对账、资金转移定价、核算记账、第三方对账系统、境外交易数据报送等重要业务系统进行排查,确认整个项目实施过程中对重要业务系统没有影响。
建设成果
建设成果
1、实现开放的贴源数据应用能力
基于开放的存储,新建的贴源层可以原生支持Hadoop生态的海量应用,对原平台既不依赖也不造成影响。帮助该银行构建基于全量历史贴源数据的数据挖掘、实时分析、机器学习等多方面的前沿数据应用。
2、打造先进的湖仓一体基础能力
贴源层在旁路从零新建,在迁移大数据平台历史贴源数据后,与大数据平台并行管理来自重点业务系统的贴源数据,形成了一个对现有数据和历史数据全面支持的数据平台底座。开始承接来自数仓和大数据平台的数据应用,如报表应用,这表明基于OushuDB构建的贴源层完全有能力兼容湖和仓各自的存储和应用,在未来进一步实现湖仓一体架构。
3、形成国产信创平台整合创新能力
在现有国产大数据平台的基础上,该银行进一步引入关系型数据库(如OushuDB)、数据分析软件、数据应用软件等领域国产信创产品,实现技术成果共享与优势互补,消除全行数据底座不确定性。
4、提前布局数据资产要素创新能力
通过运用创新数据软件对该银行贴源数据资源进行全面的盘点和梳理,将规范类数据、基础类数据、集成类数据、衍生类数据、数据产品类数据等内容纳入数据资产管理范畴,为形成企业级统一的数据资产目录,推进数据资产要素化进程做好准备。
往期推荐