技术应用 | 数据湖的探索与思考

学术   财经   2024-10-30 16:25   北京  

文 / 四川农商联合银行信息科技部副总经理 易中建

四川农商联合银行信息科技部 邓鹏  仲维民

随着“十四五”规划中明确指出“加快数字化发展,建设数字中国”,国内各行各业都开启了数字化发展进程,数据已然成为各大企业的重要资产,数据的管理和应用领域也逐步成为重点研究对象。


相比其他行业,金融行业数字化发展相对较早,从上世纪80年代,数字化技术刚刚起步,大量纸质文档开始被转化为电子信息进行存储。90年代至本世纪初,国内各大银行开始构建数据仓库,对数据进行体系化建设和应用。步入本世纪的10多年间,互联网技术崛起,促使大数据技术开始蓬勃发展,进一步加强数据存储和计算能力,同时开始构建数据管理能力。


在这30多年的时间里,各大银行在数据领域一直在追求更海量的存储、更快速的计算、更精细的管理和更方便的使用,而近10年开始尝试对非机构化类型的数据进行自动化和智能化分析处理,追求更自由的数据使用方式和更灵活的数据处理能力,于是数据湖被推上了风口浪尖。不过相比数据仓库、数据平台的广泛应用,数据湖目前还处于起步阶段,国内绝大多数金融机构对数据湖的建设持怀疑态度,究其原因不外乎对数据湖的建设缺乏必要的驱动因素以及相应的应用场景,甚至对数据湖的理解存在偏差。


从不同视角思考数据湖的含义

对于数据湖,不同的人根据不同的视角有不同的看法。早在2010年,数据湖的概念被首次提出,最初是为了解决数据集中存储和数据孤岛问题。随着大数据技术的发展,人们开始从数据类型的角度定义数据湖,认为数据湖是一种可存储大量任意类型原始数据的存储系统。近年来,人工智能和数据挖掘技术开始兴起,数据湖又被定义为是一种存储原始数据并支持数据分析、挖掘和机器学习算法等多种计算引擎的统一数据平台。也许随着技术的发展,数据湖又会被赋予其它定义,这也从一个侧面显示了数据湖的灵活性和可扩展性。


从多个层面思考数据湖的特性

目前国内的数据类科技公司在与各家银行交流数据湖时都会着重介绍半结构化和非结构化数据存储能力;支持流处理、批处理、机器学习等多种计算引擎;只存储原始数据,保证了数据的真实性;支持“读时模式”,实现快速写入、灵活读取,更有利于数据分析和挖掘。


不可否认数据湖确实具备上述的各种特性,但是这些特性不足以显示出数据湖本身独特之处,相较而言,数据仓库、数据管理平台都具备不依赖基础技术组件的独特架构体系,并且在各自的领域被广泛应用,例如数据仓库,采用分层建模架构对数据进行层次化管理,在结构化数据处理领域具有显著优势。数据管理平台基于成熟的数据治理理论体系,可提供元数据、数据标准、数据质量以及数据安全等管理能力,在数据治理领域扮演至关重要的角色。


而数据湖并没有其独特的架构体系。从技术层面来看,容量大、易扩展、非结构化数据存储、支持多计算引擎等能力主要依赖于分布式大数据存储以及多种数据分析、计算引擎,难以称之为是数据湖的特性。从应用层面来看,数据湖主要用于存储任意类型的原始数据,支持数据分析挖掘、机器学习以及人工智能。但是说起原始数据存储,被各大银行广泛适用的并不是数据湖,而是ODS(操作性数据存储)系统,如果底层技术组件支持,ODS同样能够具备多类型数据存储和集成多计算引擎的能力,从技术层面将ODS升级为数据湖并不是一件非常困难的事情,但是在架构层面数据湖是作为更基础、更底层的角色而存在,支持非结构化数据存储、机器学习、数据挖掘等能力都只是他集成的功能,它同样可以集成ODS为数据仓库提供原始数据,也许未来还可以接入数字孪生技术、虚拟空间技术等等,所以笔者认为数据湖最大的特性是它的灵活性和融合性,数据湖本身并没有特定的数据应用方向,也没有固定的建设方法论,但是它可以为任何方向的数据应用提供基础数据支持。


从内部结构思考数据湖的作用

数据湖本身并没有很复杂的体系架构,简单同时也意味着没有更多的约束,这也是数据湖灵活性的一种体现。为了便于管理,通常将数据湖分为四个部分。


一是源数据采集,该部分负责对接各种数据源进行数据采集,随着金融行业多元化业务发展,需要采集的数据来源和数据类型也不再局限于上游交易系统的结构化数据,还包括Web服务器、日志文件、社交媒体等半结构化和非结构化数据,规模非常庞大,数据湖的“读时模式”通过快速写入、按需读取模式正适用该场景。


二是数据处理,该部分是数据湖的核心组成部分,负责数据的存储和处理,基于大数据存储技术对所有采集数据按照原始格式进行存储,最大程度保持数据的真实性,集成的各种计算引擎使数据湖具备了强大的数据分析处理能力,例如Apache Spark、Apache Flink、Python等,同时还需要提供准确的数据目录,确保在海量数据中精准定位想要的数据,按需进行数据处理,当然相应的安全保护机制也必不可少。


三是数据管理,虽然数据湖在理论上可以无限扩展,但是实际上需要由相应的管理能力相匹配,例如数据访问管理、质量管理、元数据管理、目录管理、任务调度管理等,数据量越大,数据源越多,对管理能力的需求也就越高,一旦数据管理能力跟不上,数据湖的失控基本不可避免,陷入数据沼泽不可自拔也就显而易见了。


四是数据结果,该部分负责将数据湖处理后的结果数据提供给目标系统和应用,例如机器学习模型、数据可视化平台等,当然在湖仓一体化的架构中,数据仓库也是目标系统的一员。


探索数据湖在金融行业应用场景

最初的数据湖是作为原始数据集中存储系统被提出,其数据处理范围包括了结构化、半结构化和非结构化数据,在结构化数据应用场景与ODS的重合度较高且并不具备明显优势。随着非结构化数据在大数据领域的占比逐步提升,例如影像、文件、音频、图片等各种非结构数据的存储和分析需求也越来越多,数据湖再次进入各大厂商的视野,通过提供灵活的存储和计算环境,使得非结构化数据的处理变得更加容易和高效。因此数据湖在非结构化数据的处理方面得到了更多关注和发展。随着机器学习、人工智能技术的发展,数据湖更灵活、更自由的数据使用方式,逐步开始应用于机器学习、人工智能、数据挖掘等高端数据分析场景。


不过在金融行业,日常处理和使用的数据大部分还是结构化数据,而结构化数据本身的模式已经固定,导致数据湖在数据处理上的灵活性没有太多的发挥空间,并且数据仓库在结构化数据的处理上已经非常成熟且应用广泛,而非结构化数据对大部分银行来说应用场景较少,多种因素共同作用下导致数据湖在金融行业的建设进程较为缓慢,不过随着人脸识别、智能营销、深度学习等技术在金融行业的普及和应用,数据湖也将迎来新一波的建设热潮。


四川农商联合银行数据中台建设计划

四川农商联合银行(以下简称四川农商银行)作为川内规模最大的银行,坚持“强基固本、开拓创新、提质增效”总体思路,以数据治理为制度保障,以数据中台为科技手段,大力开展数字化转型,全面推进合规银行、智慧银行、主力军银行建设。


四川农商银行计划基于湖仓一体、流批融合技术进行数据中台项目建设,湖仓一体架构在全国范围内有多家大型银行具备实践经验,但对于川内区域性银行来说尚处于探索阶段,当前主要实施方案包括湖上建仓和仓外挂湖两种技术路线,其中湖上建仓是将数据湖和数据仓库融合为两层架构,同一份数据会在数据湖和数据仓库中以不同的结构进行存储,存在数据冗余,但是可以完整地发挥数据仓库的各项功能。仓外挂湖是对数据仓库的计算能力进行扩展,所有数据统一由数据湖进行存储,虽然减少了数据冗余并缩短了数据加工链路,但是会限制数据仓库的功能。结合四川农商银行当前数据应用架构以及业务需求,本次项目计划以湖上建仓的技术路线进行整体架构设计。


本次项目范围涵盖数据湖、数据仓库、数据集市等建设内容。以实现四川农商银行在数据领域“存、算、管、用”等各方面能力的大幅度提升,为全行在营销、风控、内管、运营等各大领域提供数据支撑为项目目标。其中数据湖将作为全行数据枢纽,将全行的结构化、半结构化和非结构化数据以原始数据结构进行集中存储,基于湖上建仓的技术路线将数据湖中的数据通过批量、实时技术采集到数据仓库中进一步加工,完成数据建模,并建设批量和实时数据生产流水线,以支持数据分析、数据挖掘、机器学习以及深度学习等多种计算分析引擎的访问。同时为确保数据湖高效可用,四川农商银行还计划构建全行统一的数据管理平台对数据标准、质量、安全进行统一管理,并完成全行级数据目录建设,对数据湖进行全面管控,加快数据资源向数据资产衍化进程,为四川农商银行数字化转型和业务发展提供全面支持。


为顺利完成本次项目建设,四川农商银行前期与各先进同业进行大量交流学习,数据湖本身具备非常高的可塑性,它并没有某一个特定的应用方向,也许随着技术的不断进步,数据湖甚至可以融合OLTP(联机事务处理)能力,支持银行业务系统的数据存储和处理,真正做到湖内数据流转,实时建模分析,零延迟数据决策,当然对应的数据管理能力也需要同步发展,降低数据湖变成数据沼泽的风险。


(此文刊发于《金融电子化》2024年8月下半月刊)



新媒体中心

主任 / 邝源

编辑 / 姚亮宇  傅甜甜  张珺  邰思琪

金融电子化
面向金融界科技人员、业务人员,在金融信息化建设中,为领导决策提供参考,为科技人员和业务人员提供交流的园地以及了解科技应用的窗口,为读者提供金融信息化发展最前沿的各类知识和信息。
 最新文章