我们如何帮助银行构建开放的大数据贴源层

文摘科技 2023-12-14 17:30 北京

案例背景

该客户是河北省一家独立法人的国有控股城商行，机构网点遍及市区及各县，其千亿级资产规模在河北省城商行中名列前茅。

随着“数字化银行”的推进，数据内在的价值挖掘已经成为金融业务创新的动力，因此大多数银行，包括国有大行、股份制银行以及头部城商行都在进行大数据体系的研究、规划和建设。该银行也在2021年上线了大数据平台，大幅提升了数据处理、数据分析能力。

该银行大数据平台存储了贴源层数据、汇总层数据、归档数据以及数据模型，随着该客户新一代核心和信贷系统的上线，依托大数据平台的数据处理和分析的需求也在不断扩大，平台贴源数据每日增量超过50G，对大数据平台贴源数据的存储压力日渐增大，现有大数据集群存储空间占用逼近80%。由于现有大数据平台的存储和负载已经不堪重负，该银行提出了新建大数据贴源层的项目需求。

需求分析

该银行规划依托现有大数据平台的体系架构，提升贴源层全量数据应用管理能力，构建一套完善的、体系化的贴源数据需求识别分析及服务流程，进行按需数据供给，避免系统服务挤兑风险。

新增模块主要为应对该银行历史数据归档、存储、分析、查询等需求。通过建设分布式计算和存储系统，提高全量（包括结构化、半结构化和非结构化）贴源历史的数据分析、挖掘的能力，同时有效降低数据存储和计算的成本。

方案设计

基于需求和现状，方案设计在架构逻辑层面分为数据源、数据平台、数据应用、前端门户。数据源从审批、催收、核心系统等主要业务系统，同步至大数据平台。大数据平台整合数据并向数据仓库、关系数据集市和数据挖掘集市供数，一部分的特殊应用由大数据平台直接支持，其余的数据挖掘工具、多维数据集、管理驾驶舱和报表平台等有数仓和集市支持。前端门户为行内外的用户提供数据挖掘、多维分析、报表查询和即席查询等支持，以及一些特定的分析应用。

偶数与客户共同研讨并形成方案，基于大数据平台的现有架构体系，在旁路构建一套完善的、体系化的大数据贴源层。该贴源层承接了大数据平台全量历史数据（保存时间大于5年的数据），以及今后下线系统的全部数据，不仅对数据仓库和集市提供支持，还基于大数据存储提供冷热明细数据查询和应用，比如数据量过千万的凭证明细数据查询。

鉴于现有大数据平台的存储和复杂度已经不堪重负，新建设贴源层采用存算分离和开放的数据存储，既让贴源层既可以按需扩展，又能提供对Hadoop生态海量应用的支持，对原平台不造成影响。

测试选型

从现状和需求出发，该客户选择偶数的产品和解决方案，是经过深度的考察和验证的，这点在OushuDB顺利通过该银行在功能、性能、兼容等多个方面的POC过程中可见一斑。

1、功能测试

通过17项功能测试，包括：数据类型、视图管理、索引能力、临时表创建、DML、主流函数匹配、多重存贮类型、数据随机分布、事务、多语言UDF、云原生特性等。

2、性能测试

在TPC-H测试中，实现了100G数据在千兆带宽下的极限读写传输，同时实现了海量数据即席查询、6亿余数据增删改执行。

3、兼容测试

明确了兼容多种接口及工具，包括JDBC、ODBC接口、第三方操作工具、BI工具、调度工具等。

4、场景测试

在与现有大数据平台和数据仓库同样的场景下跑批，表现出海量数据的极限吞吐和快速响应。

基于这样的测试表现，偶数科技的产品得到了行方领导的一致认可，成为了该银行构建大数据贴源层的最优选项。

在兼容该银行现有技术架构前提下，以OushuDB为核心新建贴源层，数据接入方式同时支持ETL和消息队列，提供可扩展、可配置的数据接入形式，支持多种数据源（包括但不限于文本、关系型数据库等）。

支持资源、服务动态扩展；可快速构建基于用户需求的数据接口，实现高速快捷地交付；支持横向线性扩展、集群部署、系统监控。

提供对外服务接口，支持对接该银行，为上下游系统提供数据查询接口，支持单笔查询、批量查询、异步查询等多种形式，如支持柜面系统并发流水查询、报表系统并发报表查询等。

项目实施

该项目在该银行的实施分为迁移、接入、应用、调度、分析几个环节。

1、下线系统历史数据迁移

将已下线的系统数据从大数据平台的Hive库中迁移归档待查。

2、在线业务源系统数据接入

①针对数据存储和查询，设计数据文件的存储策略，把业务系统的数据入库分层存储，保证数据的完整性。

②对业务系统的状态表和流水表根据数据使用的场景设计数据生命周期管理方案。

③根据数据生命周期管理方案制定数据库中数据清理策略，数据文件永久保存。

第一期完成了核心系统、信贷管理系统、互联网信贷系统、渠道整合平台、理财销售系统、客户信息管理系统（ECIF）、总账系统等7个系统的数据源接入，新建系统2个（企业网银、新电票系统），共计上千张表；第二期接入50多个业务系统，共计900多张表。

3、历史数据查询平台支撑

实现与行内现有历史数据查询平台的对接，通过现有的历史数据查询平台查询总账会计凭证查询和明细账页查询。

4、统一调度平台对接

通过跑批、监控以及统计，完成与行内现有调度平台的对接，实现统一调度规范化管理。

①任务跑批

调度平台跑批任务的新增、修改，以及跑批任务触发方式的设置。

②任务监控

对跑批的任务进行监控，记录跑批开始时间、结束时间，任务总数，成功数、失败数等。

③任务统计

对历史跑批的情况进行统计，如平均跑批时长

5、数据处理日志分析

通过数据装载时长分析、批量运行时长分析、数据查阅行为分析，确认整个迁移、接入和调度过程准确完成。

此外我们对该银行内部的反洗钱、事后监督、对账、资金转移定价、核算记账、第三方对账系统、境外交易数据报送等重要业务系统进行排查，确认整个项目实施过程中对重要业务系统没有影响。

建设成果

基于OushuDB构建的贴源层从根本上缓解了该银行大数据平台可能面临的存储、服务压力，新建贴源数据规范数据存储、应用流向，补充和完善了该银行的数据架构体系。从战略层面，该项目的落地形成和夯实了以下几个重要能力：

1、实现开放的贴源数据应用能力

基于开放的存储，新建的贴源层可以原生支持Hadoop生态的海量应用，对原平台既不依赖也不造成影响。帮助该银行构建基于全量历史贴源数据的数据挖掘、实时分析、机器学习等多方面的前沿数据应用。

2、打造先进的湖仓一体基础能力

贴源层在旁路从零新建，在迁移大数据平台历史贴源数据后，与大数据平台并行管理来自重点业务系统的贴源数据，形成了一个对现有数据和历史数据全面支持的数据平台底座。开始承接来自数仓和大数据平台的数据应用，如报表应用，这表明基于OushuDB构建的贴源层完全有能力兼容湖和仓各自的存储和应用，在未来进一步实现湖仓一体架构。

3、形成国产信创平台整合创新能力

在现有国产大数据平台的基础上，该银行进一步引入关系型数据库（如OushuDB）、数据分析软件、数据应用软件等领域国产信创产品，实现技术成果共享与优势互补，消除全行数据底座不确定性。

4、提前布局数据资产要素创新能力

通过运用创新数据软件对该银行贴源数据资源进行全面的盘点和梳理，将规范类数据、基础类数据、集成类数据、衍生类数据、数据产品类数据等内容纳入数据资产管理范畴，为形成企业级统一的数据资产目录，推进数据资产要素化进程做好准备。

往期推荐

对话偶数科技常雷：如何开启实时湖仓一体时代？

实时数据处理的“终极”版本是什么？

收获时节，偶数科技发布实时湖仓Skylab 5.4版本

大模型、实时需求推动湖仓平台走向开放

Gartner发布2023年最新技术成熟度曲线，偶数科技位列湖仓一体代表厂商

OushuDB × 东方证券：数据仓库信创国产化最佳实践

从北京到南京：偶数在能源行业的数据迁移实践

信通院联合偶数科技等企业发布《云原生湖仓一体白皮书》

↑扫描上方二维码↑

拉你进入技术交流群

偶数成立于2016年，是国家级专精特新“小巨人”企业。专注于云数据平台产品和解决方案，自主研发云原生分布式数据库OushuDB及实时湖仓数据平台Skylab。总部位于北京，在上海、南京、广州、武汉等地设有分支机构。偶数服务了国家电网、中国移动、建设银行等众多世界500强客户。获得国际著名投资机构红杉中国、腾讯、红点中国与金山云的四轮投资，是微软加速器和腾讯加速器成员企业。被评为福布斯中国企业科技50强，Gartner Cool Vendor，IDC Innovator。

点击下方阅读原文获取行业报告

http://mp.weixin.qq.com/s?__biz=MzIyNzgwNDgxNw==&mid=2247496447&idx=1&sn=39c199c2afe6bd443a4d25caf3298c65

偶数

专注于云数据平台产品和解决方案

最新文章

OushuDB 6.0发布：为实时湖仓注入强大动能

《实时湖仓建设方法》连载之五：快速了解实时湖仓的基本概念及ANCHOR标准

《实时湖仓建设方法》连载之四：新兴期湖仓一体融合

《实时湖仓建设方法》连载之三：蓬勃期流行一时的大数据平台

OushuDB 专家认证第六期报名开始啦！

HA999到底是千足金还是感冒药？

突发！上交所今天又挂了！

阿里云盘事件——数据资产如何守护？

《实时湖仓建设方法》连载之二：数据平台开立期的数据仓库

《实时湖仓建设方法》连载之一：为什么想系统的聊聊实时湖仓的建设方法？

不容错过：2024 VLDB Keynote演讲—— Samuel Madden（文末附下载链接）

偶数ODCP第五期认证专家考试圆满结束！

广东电网国产化数据平台替代实践

为什么对话式数据分析需要整合指标管理，必要性在哪？

今天全球蓝屏的作者找到了

一些人已经悄悄用上对话式数据分析，你发现了吗？

偶数科技亮相2024可信数据库发展大会

国外企业指标管理实践：Airbnb（下）

国外企业指标管理实践：Airbnb（上）

OushuDB 专家认证第五期报名开始啦！

硅基还是碳基？大模型与人类大脑

从GUI到CUI，我们可以期待哪些变革？

一次讲清楚实时湖仓数据处理架构如何落地

偶数发布对话式数据分析平台Kepler，会聊天就会数据分析

《分析型数据库技术要求》标准发布，偶数科技等厂商深度参与

偶数科技受邀参加2024中国移动算力网络大会

关于实时数据的疑问和期待，这篇一次讲透!

我的数据没价值吗？数据价值如何算？

Sora效果炸裂，大模型应用还有哪些？

🧧🧧🧧这泼天的富贵丨偶数新春红包火热上线等你来拿，祝你龙年行大运！

偶数 × 中信建投：金融行业湖仓一体平台实践案例

【2023大数据产业年度趋势人物】偶数科技常雷：实时需求正当时，实时湖仓将开启数据库新时代

偶数ODCP第四期认证考试圆满结束！

2024：但愿美好在，岁月常如新

利用OushuDB实现Native ORC格式增量备份

我们如何帮助银行构建开放的大数据贴源层

OushuDB历史SQL监控功能详解

挂牌一个月，国家数据局都有哪些大动作？

对话偶数科技常雷：如何开启实时湖仓一体时代？

实时数据处理的“终极”版本是什么？

OushuDB 专家认证第四期报名开始啦！

我在人大立德楼，等你来领秋招好礼！

偶数科技携Skylab实时湖仓数据平台亮相2023全国中小企业数字化转型大会

偶数科技亮相2023中国程序员节——数据库技术高峰论坛

国家数据局正式揭牌，2030年数据要素市场规模或破万亿

收获时节，偶数科技发布实时湖仓Skylab 5.4版本

偶数入选IDC中国数据智能市场生态图谱V4.0

偶数2024 校招 | 数据库内核研发工程师专场

从北京到南京：偶数在能源行业的数据迁移实践

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉