技术应用 | 基于Apache Doris的一站式数据服务平台建设与实践

学术   财经   2024-11-13 11:26   北京  

文 / 兴业银行信用卡中心 冯德程 孙嘉珩 袁玉发

各家银行都在数字化时代大潮中亲历转型,业务模式、运营模式在技术支撑下不断重塑,可以说,数据管理应用水平是影响银行竞争的关键因素,是经营分析和科学化管理的先决条件。兴业银行信用卡中心在业务应用、科技规划和系统建设过程中积极利用新技术,通过提升数据服务能力为业务赋能,提升经营效率,推动信用卡业务发展。


建设一站式数据服务平台的必要性

随着兴业银行信用卡中心数字化转型的持续推进,数据体量和数据应用需求不断加大,同时数据分散存储在不同数据库,形成数据孤岛,传统的数据分析引擎难以满足业务大数据量、跨数据源分析的诉求。如何更好地利用信用卡数据,打造更加敏捷高效的数据服务能力是数据应用的关键。


Doris作为一种高性能的OLAP分析引擎,以其独特的优势在数据处理和查询中展现出巨大的潜力。相较于传统的数据处理方式,Doris在数据处理速度、查询性能以及实时分析能力等方面均有显著提升,同时维护、开发成本大幅降低。在此背景下,兴业银行信用卡中心结合提升应用效率和质量,构建了基于ApacheDoris的一站式数据服务平台,大力提升数据分析与决策能力,快速响应并有效赋能前台业务和生态互联。


系统整体架构

兴业银行信用卡中心基于Doris OLAP数据库的系统架构(见图)主要包括数据接入层、Doris统一数据分析引擎和数据应用层,各层次之间通过高效的数据传输和共享机制,实现了数据的快速处理和分析。

图  一站式数据服务平台架构图


1.丰富的业务数据源接入

数据接入层采集和整合来自信用卡中心不同业务系统和数据集市的业务数据,是信用卡中心进行业务决策和风险管理的数据基础。业务数据包括:一是实时交易报文数据,存储在Kafka,经由Flink实时消费并加工处理Kafka中数据,加工完的数据实时更新写入Doris数据库;二是卡账人信息、风险数据、多维明细宽表等离线数据,存储在Hive数据仓库,通过批处理对Hive数据进行维度补充、维度值转换、异常值处理、数据脱敏、数据筛选等加工处理,实现数据标准化、规范化,确保数据的准确性和一致性,同时还可以根据业务需求对数据进行聚合、转换和计算等操作,比如将账户级明细数据进行聚合汇总成客户级明细数据。


2.统一的在线分析引擎

实时数据和离线数据更新和同步到Apache Doris数据库,由Apache Doris作为在线数据服务平台统一查询、计算引擎。Doris架构精简,集群部署只有FE与BE两种角色,大幅度降低架构复杂度,减少了运维、开发及使用成本,最大化提升架构性能,同时采用MySQL协议,支持标准SQL,具备多表查询和联邦查询性能特性。实时数据实现秒级关联计算多张千万级的数据表,统计信用卡实时透支余额、分期交易金额等指标。离线数据进一步清洗转换后存储进Doris数据库表,Doris数据库采用列式存储和分布式计算的设计,能够实现对大规模数据的快速查询和分析。实践中结合BE节点数、磁盘数、数据三备份机制,以及业务表类型(包括状态表、流水表)、数据量,系统合理配置了存储表的分区、分桶数,创建了主键索引,通过优化数据存储结构,Doris数据库能够充分发挥其高性能的特点。采用Doris升级系统后,批处理时长由小时级提升至秒级,20个多维主题报表的批处理在30秒以内完成跑批,1个批处理任务在60秒内完成;查询响应时间由分钟级提升至秒级,95%以上的查询在1秒内完成,百万级明细查询及下载时效也实现秒级。这使得信用卡中心能够更快速地获取业务数据和分析结果,提升了企业的数据价值和竞争力。


3.满足业务多样的数据应用

数据应用层是信用卡中心基于Apache Doris高性能数据分析引擎的最终输出层。通过丰富的数据分析和可视化工具,为业务人员提供多维报表、即席查询、驾驶舱查看、人群圈选、微办公小程序联邦查询等功能,直观地了解业务运行状况和市场动态,为制定科学合理的业务决策提供有力支持。基于Doris的高性能,实现多维报表维度及度量的个性化拖拽,满足业务多维度的客群分析需求,实现不同分析场景下亿级数据的秒级响应,提升数据洞察及数据挖掘分析能力。即席查询支持业务对于账户级信息数据、分行逾期明细数据进行数据分析、数据开发及数据提取。通过Doris关联计算实时数据和批量数据,实现透支余额、分期交易金额分钟级更新,并及时展示到驾驶舱,极大提高了重要运营指标产出时效。使用Doris替换Elasticsearch,支持开发人员更方便地进行复杂的数据查询和聚合操作,实现营销人群圈选更灵活、更高效,不断收集、分析和反馈活动数据。及时调整运营圈选策略,更好地满足客户的需求,提升客户参与度、响应率及客户黏性。Apache Doris兼容MySQL协议,支持使用标准SQL语言进行数据查询和操作,通过Multi-Catalog接入底层各数据源,将Doris作为联邦查询的统一入口和对外数据服务的统一出口,实现数据查询服务的统一路由,支持业务通过移动端微办公小程序随时查询报表指标数据。


实践总结

面对日益增长的数据处理和分析需求,兴业银行信用卡中心选择基于ApacheDoris构建统一在线数据服务平台,收敛了技术栈,打破了数据孤岛,为业务提供更高效、更灵活的一站式在线数据服务平台。同时守住系统稳定与数据安全红线,在保证业务连续同时满足合规要求。


1.收敛技术栈和打破数据孤岛

随着银行数字化发展,数据已成为银行运营决策的重要元素,大数据技术栈众多和数据孤岛现象的存在,使得数据价值难以得到充分利用。Doris通过其统一的数据仓库能力、高效的数据整合、实时数据处理、联邦查询、高并发高可用的解决方案以及易于扩展和维护的特性,有效地打破了数据孤岛。通过MPP(大规模并行处理)架构与分布式存储的融合,Doris支持PB级别的数据存储和分析,同时支持多种数据源接入和数据格式转换,可以轻松地将来自不同系统、不同格式的数据整合到一个平台上,消除了数据孤岛现象,使得数据可以在企业内部自由流通和共享,同时下线Kylin、Elasticsearch、HBase大数据技术栈,降低了开发、维护成本。


2.一站式在线数据服务平台

基于Apache Doris的在线数据服务平台和可视化工具,信用卡中心业务实现一站式深入挖掘和分析数据,发现潜在的业务机会和风险点,制定更加科学合理的业务决策。管理人员通过查看驾驶舱、移动端微办公小程序实时掌握经营核心指标,迅速了解整体业务经营状态,及时发现问题并调整策略,做出更加科学的决策。总分行业务人员通过使用多维报表、即席查询,随时、自主地进行数据分析工作,平台提供的数据分析工具不仅易于使用,而且功能强大,能够满足业务部门的各种分析需求,减少了对技术人员的开发依赖;通过Doris高性能的人群圈选能力进一步将客户细分为不同的群体,并为每个群体制定针对性的营销策略和产品推荐,实现千人千面。目前业务人员每天查询量超过2000人次,高峰为4000人次,基于数据的决策方式为信用卡中心的稳健发展提供了有力保障。


3.守住系统稳定与数据安全红线

Doris提供了资源隔离、用户认证、数据加密、访问审计、系统容灾等完备的安全机制,保障了业务的连续性、客户信息的保密性、数据访问的合规性。基于不同模块、用户归属属性、细粒度权限设置Doris数据的访问控制,将数据按照主题拆分,确保了数据访问的最小可用,防止非授权用户获取数据;提高系统数据安全性的同时也降低了单次查询压力,增加系统整体吞吐量。Doris数据库访问操作有完整的审计机制,每台FE节点各自保留审计日志于fe.audit.log文件中,实践中将所有FE节点的审计日志入库并整合,通过视图查询集群所有审计日志,提高了审计日志查询效率;审计日志确保了所有操作可溯源,监控可能存在的异常访问行为,及时告警通知,极大降低了数据安全合规风险。


展    望

银行信用卡业务数字化转型日趋激烈,业务、科技融合是信用卡业务数字化转型的关键环节。信用卡中心需要打破传统业务与科技之间的壁垒,推动业务与科技的深度融合。通过引入新技术、优化业务流程、提升客户体验等方式,银行可以打造新服务、新模式、新业态,推动形成增长新动能,只有这样才能在激烈的市场竞争中保持领先地位,实现高质量发展。


(此文刊发于《金融电子化》2024年9月上半月刊)


新媒体中心

主任 / 邝源

编辑 / 姚亮宇  傅甜甜  张珺  邰思琪

金融电子化
面向金融界科技人员、业务人员,在金融信息化建设中,为领导决策提供参考,为科技人员和业务人员提供交流的园地以及了解科技应用的窗口,为读者提供金融信息化发展最前沿的各类知识和信息。
 最新文章