技术应用 | 数据湖的探索与思考

学术财经 2024-10-30 16:25 北京

文 / 四川农商联合银行信息科技部副总经理易中建

四川农商联合银行信息科技部邓鹏仲维民

随着“十四五”规划中明确指出“加快数字化发展，建设数字中国”，国内各行各业都开启了数字化发展进程，数据已然成为各大企业的重要资产，数据的管理和应用领域也逐步成为重点研究对象。

相比其他行业，金融行业数字化发展相对较早，从上世纪80年代，数字化技术刚刚起步，大量纸质文档开始被转化为电子信息进行存储。90年代至本世纪初，国内各大银行开始构建数据仓库，对数据进行体系化建设和应用。步入本世纪的10多年间，互联网技术崛起，促使大数据技术开始蓬勃发展，进一步加强数据存储和计算能力，同时开始构建数据管理能力。

在这30多年的时间里，各大银行在数据领域一直在追求更海量的存储、更快速的计算、更精细的管理和更方便的使用，而近10年开始尝试对非机构化类型的数据进行自动化和智能化分析处理，追求更自由的数据使用方式和更灵活的数据处理能力，于是数据湖被推上了风口浪尖。不过相比数据仓库、数据平台的广泛应用，数据湖目前还处于起步阶段，国内绝大多数金融机构对数据湖的建设持怀疑态度，究其原因不外乎对数据湖的建设缺乏必要的驱动因素以及相应的应用场景，甚至对数据湖的理解存在偏差。

从不同视角思考数据湖的含义

对于数据湖，不同的人根据不同的视角有不同的看法。早在2010年，数据湖的概念被首次提出，最初是为了解决数据集中存储和数据孤岛问题。随着大数据技术的发展，人们开始从数据类型的角度定义数据湖，认为数据湖是一种可存储大量任意类型原始数据的存储系统。近年来，人工智能和数据挖掘技术开始兴起，数据湖又被定义为是一种存储原始数据并支持数据分析、挖掘和机器学习算法等多种计算引擎的统一数据平台。也许随着技术的发展，数据湖又会被赋予其它定义，这也从一个侧面显示了数据湖的灵活性和可扩展性。

从多个层面思考数据湖的特性

目前国内的数据类科技公司在与各家银行交流数据湖时都会着重介绍半结构化和非结构化数据存储能力；支持流处理、批处理、机器学习等多种计算引擎；只存储原始数据，保证了数据的真实性；支持“读时模式”，实现快速写入、灵活读取，更有利于数据分析和挖掘。

不可否认数据湖确实具备上述的各种特性，但是这些特性不足以显示出数据湖本身独特之处，相较而言，数据仓库、数据管理平台都具备不依赖基础技术组件的独特架构体系，并且在各自的领域被广泛应用，例如数据仓库，采用分层建模架构对数据进行层次化管理，在结构化数据处理领域具有显著优势。数据管理平台基于成熟的数据治理理论体系，可提供元数据、数据标准、数据质量以及数据安全等管理能力，在数据治理领域扮演至关重要的角色。

而数据湖并没有其独特的架构体系。从技术层面来看，容量大、易扩展、非结构化数据存储、支持多计算引擎等能力主要依赖于分布式大数据存储以及多种数据分析、计算引擎，难以称之为是数据湖的特性。从应用层面来看，数据湖主要用于存储任意类型的原始数据，支持数据分析挖掘、机器学习以及人工智能。但是说起原始数据存储，被各大银行广泛适用的并不是数据湖，而是ODS（操作性数据存储）系统，如果底层技术组件支持，ODS同样能够具备多类型数据存储和集成多计算引擎的能力，从技术层面将ODS升级为数据湖并不是一件非常困难的事情，但是在架构层面数据湖是作为更基础、更底层的角色而存在，支持非结构化数据存储、机器学习、数据挖掘等能力都只是他集成的功能，它同样可以集成ODS为数据仓库提供原始数据，也许未来还可以接入数字孪生技术、虚拟空间技术等等，所以笔者认为数据湖最大的特性是它的灵活性和融合性，数据湖本身并没有特定的数据应用方向，也没有固定的建设方法论，但是它可以为任何方向的数据应用提供基础数据支持。

从内部结构思考数据湖的作用

数据湖本身并没有很复杂的体系架构，简单同时也意味着没有更多的约束，这也是数据湖灵活性的一种体现。为了便于管理，通常将数据湖分为四个部分。

一是源数据采集，该部分负责对接各种数据源进行数据采集，随着金融行业多元化业务发展，需要采集的数据来源和数据类型也不再局限于上游交易系统的结构化数据，还包括Web服务器、日志文件、社交媒体等半结构化和非结构化数据，规模非常庞大，数据湖的“读时模式”通过快速写入、按需读取模式正适用该场景。

二是数据处理，该部分是数据湖的核心组成部分，负责数据的存储和处理，基于大数据存储技术对所有采集数据按照原始格式进行存储，最大程度保持数据的真实性，集成的各种计算引擎使数据湖具备了强大的数据分析处理能力，例如Apache Spark、Apache Flink、Python等，同时还需要提供准确的数据目录，确保在海量数据中精准定位想要的数据，按需进行数据处理，当然相应的安全保护机制也必不可少。

三是数据管理，虽然数据湖在理论上可以无限扩展，但是实际上需要由相应的管理能力相匹配，例如数据访问管理、质量管理、元数据管理、目录管理、任务调度管理等，数据量越大，数据源越多，对管理能力的需求也就越高，一旦数据管理能力跟不上，数据湖的失控基本不可避免，陷入数据沼泽不可自拔也就显而易见了。

四是数据结果，该部分负责将数据湖处理后的结果数据提供给目标系统和应用，例如机器学习模型、数据可视化平台等，当然在湖仓一体化的架构中，数据仓库也是目标系统的一员。

探索数据湖在金融行业应用场景

最初的数据湖是作为原始数据集中存储系统被提出，其数据处理范围包括了结构化、半结构化和非结构化数据，在结构化数据应用场景与ODS的重合度较高且并不具备明显优势。随着非结构化数据在大数据领域的占比逐步提升，例如影像、文件、音频、图片等各种非结构数据的存储和分析需求也越来越多，数据湖再次进入各大厂商的视野，通过提供灵活的存储和计算环境，使得非结构化数据的处理变得更加容易和高效。因此数据湖在非结构化数据的处理方面得到了更多关注和发展。随着机器学习、人工智能技术的发展，数据湖更灵活、更自由的数据使用方式，逐步开始应用于机器学习、人工智能、数据挖掘等高端数据分析场景。

不过在金融行业，日常处理和使用的数据大部分还是结构化数据，而结构化数据本身的模式已经固定，导致数据湖在数据处理上的灵活性没有太多的发挥空间，并且数据仓库在结构化数据的处理上已经非常成熟且应用广泛，而非结构化数据对大部分银行来说应用场景较少，多种因素共同作用下导致数据湖在金融行业的建设进程较为缓慢，不过随着人脸识别、智能营销、深度学习等技术在金融行业的普及和应用，数据湖也将迎来新一波的建设热潮。

四川农商联合银行数据中台建设计划

四川农商联合银行（以下简称四川农商银行）作为川内规模最大的银行，坚持“强基固本、开拓创新、提质增效”总体思路，以数据治理为制度保障，以数据中台为科技手段，大力开展数字化转型，全面推进合规银行、智慧银行、主力军银行建设。

四川农商银行计划基于湖仓一体、流批融合技术进行数据中台项目建设，湖仓一体架构在全国范围内有多家大型银行具备实践经验，但对于川内区域性银行来说尚处于探索阶段，当前主要实施方案包括湖上建仓和仓外挂湖两种技术路线，其中湖上建仓是将数据湖和数据仓库融合为两层架构，同一份数据会在数据湖和数据仓库中以不同的结构进行存储，存在数据冗余，但是可以完整地发挥数据仓库的各项功能。仓外挂湖是对数据仓库的计算能力进行扩展，所有数据统一由数据湖进行存储，虽然减少了数据冗余并缩短了数据加工链路，但是会限制数据仓库的功能。结合四川农商银行当前数据应用架构以及业务需求，本次项目计划以湖上建仓的技术路线进行整体架构设计。

本次项目范围涵盖数据湖、数据仓库、数据集市等建设内容。以实现四川农商银行在数据领域“存、算、管、用”等各方面能力的大幅度提升，为全行在营销、风控、内管、运营等各大领域提供数据支撑为项目目标。其中数据湖将作为全行数据枢纽，将全行的结构化、半结构化和非结构化数据以原始数据结构进行集中存储，基于湖上建仓的技术路线将数据湖中的数据通过批量、实时技术采集到数据仓库中进一步加工，完成数据建模，并建设批量和实时数据生产流水线，以支持数据分析、数据挖掘、机器学习以及深度学习等多种计算分析引擎的访问。同时为确保数据湖高效可用，四川农商银行还计划构建全行统一的数据管理平台对数据标准、质量、安全进行统一管理，并完成全行级数据目录建设，对数据湖进行全面管控，加快数据资源向数据资产衍化进程，为四川农商银行数字化转型和业务发展提供全面支持。

为顺利完成本次项目建设，四川农商银行前期与各先进同业进行大量交流学习，数据湖本身具备非常高的可塑性，它并没有某一个特定的应用方向，也许随着技术的不断进步，数据湖甚至可以融合OLTP（联机事务处理）能力，支持银行业务系统的数据存储和处理，真正做到湖内数据流转，实时建模分析，零延迟数据决策，当然对应的数据管理能力也需要同步发展，降低数据湖变成数据沼泽的风险。

（此文刊发于《金融电子化》2024年8月下半月刊）

新媒体中心

主任 / 邝源

编辑 / 姚亮宇傅甜甜张珺邰思琪

http://mp.weixin.qq.com/s?__biz=MjM5MzA3MzAzOQ==&mid=2655564779&idx=3&sn=d0fde9ed6b6dbc602948c9a76ee336b1

金融电子化

面向金融界科技人员、业务人员，在金融信息化建设中，为领导决策提供参考，为科技人员和业务人员提供交流的园地以及了解科技应用的窗口，为读者提供金融信息化发展最前沿的各类知识和信息。

最新文章

胡冰：坚守数据安全底线，筑牢数字金融基石——中国太平数据安全治理实践与思考

业务创新 | 健全普惠金融服务体系，助力交通物流跑出“加速度”

爱廉说 | 中国的“马克思主义史学大师”

基层实践 | 数字金融赋能乡村振兴实践与探索——以滁州市为例

张辉：构建“全链路”数据质量管控体系，夯实数据应用底座

技术应用 | 基于支持关系型数据库同步软件平台的研究

技术应用 | 投行业务数智化转型的探索与实践——以兴业证券投行智能底稿系统为例

基层实践 | 优化替代数据治理，服务企业征信建设

张金海：“保险+服务+科技”助力人保集团高质量发展

技术应用 | 基于Apache Doris的一站式数据服务平台建设与实践

技术应用 | 财务公司数据治理体系建设实践探讨

基层实践 | 数据要素助推中小银行数字化转型探析

国务院关于金融工作情况的报告

技术应用 | 基于Trace的根因分析实践

技术应用 | 信创数据库推广过程中的运维平台优化

基层实践 | 双碳目标下绿色支付发展路径浅析

中华人民共和国反洗钱法

学术前沿 | 后量子密码：量子攻击下保障信息安全与交易可靠性的新途径

技术应用 | 云环境复杂网络全栈可观测平台建设

风险管控 | 农商行零售数字风控体系建设思考

梁斌：低代码助推金融创新，提升服务质效

技术应用 | 透视运维：民生银行网络流量可观测的深度洞察与应用

爱廉说 | 胡绳：中国近代史研究的拓荒人

风险管控 | 城商行数字化审计探索

吴永飞：打造全栈湖仓一体平台，赋能数据价值交付

培训 | “银行业安全防范标准培训班”报名了

专题 | 聚焦惠民金融场景，数智赋能温暖百姓民生

唐毅：低代码与新技术融合创新，推动新质生产力发展

实战 | 基于NoF+的高性能存储网络建设与运维实践

专题 | 数字金融赋能产业链发展

专题 | 数字化融资租赁在普惠金融中的应用场景

陈曦：招商银行“低代码+大模型”创新实践

专题 | 基于大数据和人工智能的零售信贷资金监管实践

专题 | 数智赋能，重塑零售业务新模式——青岛银行零售数字化转型路径探索及成效

专题 | 重塑理赔服务，引领保险服务数智化高端变革之旅

吴旭春：把握“以客户为中心的数字化转型”关键要素

培训 | “金融标准师培训班（初级）”报名了

金发奖专栏 | 面向服务民生的场景金融建设实践

专题 | 数字化转型助力金融集聚区高质量发展

李建营：打造“伴您一生的银行”，构建差异化竞争优势

金发奖专栏 | 线上线下齐发力，协同经营促振兴——面向乡村振兴的线上线下协同经营平台

爱廉说 | 郑哲敏：此生唯愿尽“力”报国

专题 | 筑基提质，破题起势——聚焦中信银行青岛分行数字金融流程优化变革

李昆：重塑金融安全网——银行风险管理的数字化革新

报道 | 国寿财险高质量发展再推演：在与国共振中释放增长能效

实战 | 基于大模型技术的自动化测试脚本智能生成探索与实践

金融安防 | 发行库安防系统运维模式创新实践

董宝华：奋力谱写数字金融大文章

金发奖专栏 | 持续创新数字人民币无网无电支付技术，坚定书写好普惠金融和数字金融大文章

技术应用 | 数据湖的探索与思考

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉