浅谈图数据库在商业银行群发性欺诈风险防控的应用

文化   2024-11-30 23:54   安徽  
在金融领域,随着黑灰产业的团伙化、专业化趋势日益明显,传统的反欺诈手段已难以应对复杂的团伙欺诈行为,而图数据库的引入,以其独特的关联网络分析能力,为银行提供了一种全新的视角和工具,以更全面、更深入地识别和防范群发性欺诈风险。
更丰富详细的内容,推荐阅读下方文字稿哦!
近年来,打击黑灰产业逐渐成为金融领域关注的热点,随着银行业贸易融资、信用卡等业务从高速增长阶段转向高质量发展阶段,黑产中介也表现出从个体到团伙化、专业化、规模化的趋势。传统的反欺诈手段难以准确识别这些团伙欺诈行为,团伙成员之间微妙而复杂的关联关系常常被系统忽略,使得识别机制失效。利用图数据库构建银行数据的关系网络图谱,能够更全面地探索潜在的欺诈模式,特别是对于团伙欺诈的检测。关联网络提供了全面而综合的视角,能够揭示已知风险的传播和扩散路径,帮助提升银行系统对团伙性申请欺诈的识别和防范能力。

01

图数据库简介

图数据库属于非关系型数据库。普通的关系型数据库使用E-R图是概念模型,更像类图,定义的是类之间的逻辑关系,不是数据的实例之间的关联;而图数据库的模型是物理实现的数据模型,图数据库中的每个点和边表示实例(也称为实体)的属性与实例之间的关联。

图作为一种数据结构能够简洁有力地刻画出普遍事物间的联系,图数据库把数据间的关联作为数据的一部分进行存储,关联上可添加标签、方向以及属性,而其他数据库针对关系的查询必须在运行时进行具体化操作,这也是图数据库在关系查询上相比其他类型数据库有巨大性能优势的原因。


02

图算法在团伙欺诈风险识别中的应用

1.团伙识别
基于客户实体的丰富信息,可以很明显地以每个客户为点,每种关联关系为边构成一个大的关系网络。在这样的网络中,有的用户之间的连接较为紧密,有的用户之间的连接关系较为稀疏。其中连接较为紧密的部分可以被看成一个社区,其内部的节点之间有较为紧密的连接,而在两个社区间则相对连接较为稀疏,整个整体的结构被称为社团结构。
(1)模块度
模块度是评估一个社区网络划分好坏的度量方法,它的物理含义是社区内节点的连边数与随机情况下的边数之差,如果差距比较大,说明社团内部密集程度显著高于随机情况,社团划分的质量较好。模块度取值范围在[-0.5,1]之间。如果节点组中的连边数量超过了随机分配时所得到的期望连边数量,模块度为正数。没有超过,则为负数。

考虑图中边的权重,模块度(Q)的定义如下:
其中:
  • m 是图中所有边的权重之和;
  • Aij 是节点 i 和节点 j 之间边的权重和,且 2m = ∑ijAij
  • ki 是与节点 i 相连的所有边的权重之和;
  • Ci 表示节点 i 所属的社区,当 Ci = Cj 时,δ(Ci, Cj) 为 1,否则为 0。

(2)鲁汶算法
鲁汶算法是一个广受认可和应用的社区识别算法,该算法是以最大化图的模块度为首要目标进行计算的,并且由于其较高的效率和优质的结果而受到欢迎。

在社区检测的Louvain方法中,首先通过在所有节点上局部优化模块化来找到小社区,然后将每个小社区分组为一个节点,并重复第一步。重复迭代这两个步骤,直至模块度大小稳定。
2.模式匹配
基于业务假设及实践经验,可以整理出一些黑产中介的业务模式,在图数据库中,可以通过gsql等查询语言进行子图匹配,去筛选需要的可疑资金链、产业链及业务链模式,挖掘异常行为。
(1)子图匹配
子图匹配的核心概念是给定一个查询图Q和一个数据图G,Q里的每一个点通过一个单射函数映射到G当中去,即单射函数f:V(Q)→V(G)。Q中的每一个点在单射函数作用下唯一映射到G的每个点上去,如上图中Q的1、2、3在G的中的第一个子图匹配是(1、2、3),第二个子图匹配是(2、3、4)。子图匹配的本质就是给一个Q,找到Q在G中的所有匹配,如示例中找到所有的二叉结构。
(2)搜索算法
做子图匹配可以有两类算法,一类为基于深度搜索加回溯的Backtracking Search方法,一类为基于广度优先的Multi-way Join方法。假设有个Q和一个G,找到Q在G的子图匹配,实际就是在搜索空间查找。把搜索空间定义成一个搜索树,Backtracking Search搜索的策略是深度优先(DFS搜索),再回溯回来;Multi-way Join搜索的策略则是宽度优先(BFS搜索),即在搜索树上一层一层去找。


03
实际应用场景
1.挖掘异常票据行为
票据业务可能存在虚假贸易违规套利等情况。为监测银行票据融资风险,可以利用图数据库建立数据模型,监测异常风险。

首先梳理票据背书贸易关系,结合基础属性(包括电话、IP地址、注册地址等)、资金流转、工商关联(包括股权、同法人和实控人等)、上下游关联(包括供应链、发票上下游等)、担保关联等关系搭建以贸易关系为核心的关联图谱,根据已有票据中介或空壳公司等黑样本名单,可以输出与黑样本属性关联或单属性聚集的可疑风险团伙。

然后详细解析黑名单客户的风险行为特征及业务表现,基于企业希望通过票据中介快速回笼资金、票据中介易出现分散收票、集中贴现等业务假设,站在散票、收票、中介勾结三个视角构建图模式。

最后基于已有的可疑风险团伙进行模式匹配,识别出异常票据行为。
2.贷款资金回流
贷款资金是银行借给借款人,按照约定的用途使用的资金。而实际情况中,企业或个人可能出于故意违规或欺诈目的将这笔资金改变其原始的使用方向,回流到借款人账户关联客户账户名下。此时可以交易关系为核心,结合关联关系搭建关联图谱,即可清晰观测到资金回流关系。

为防止资金流向被发现,借款人可能会将贷款资金经非关联方转手再回流到团伙内客户账号(即多度转手回流)。图谱的另一优势就在于可以通过模式匹配的方式精准遍历所有多度回流的异常交易,发现隐蔽的贷款资金回流方式。


04

总结与展望

在商业银行防范群发性欺诈风险中,图数据库在很多情况下具有巨大的优势。相对于关系型数据库,图数据库可以通过知识图谱构建可疑团伙的关联风险特征、拓扑结构特征,结合各场景业务数据、客户主体风险数据等综合判断业务异常行为,全面监测群发风险。而相对于基于关系型数据库的传统规则模型,基于图数据库的图谱模型不但可以通过机器学习模型提升风险识别泛化能力,还可以通过增加图谱关联风险属性及图模式提升模型召回率,捕捉遗漏的风险客户。

在实际使用中,团伙识别需要对不同属性进行划分权重,模式匹配需要输出可靠的业务逻辑,并将之转化为图模式,这都需要强大的业务洞察能力和扎实的图谱理论技巧。在银行的风险防控中,实际业务经验和数据分析技术相互促进,同等重要,数据分析人员需要以业务痛点为导向,持续学习前沿技术,不断挖掘业务规律,让算法技术更好地服务于银行的风险预警、监测、核查、反馈全流程应用,为风险处置提供更为充足的事件窗口,减少风险损失。


参考文献:

[1]赵卓翔,王轶彤,田家堂,周泽学.社会网络中基于标签传播的社区发现新算法[J].计算机研究与发展,2011(S3)

[2]李雷,闫光辉,杨绍文,等.基于孤立节点分离策略的改进鲁汶算法[J].计算机应用, 2017, 37(4):6.DOI:10.11772/j.issn.1001-9081.2017.04.0970.

[3]王余蓝.图形数据库NEO4J与关系据库的比较研究[J].现代电子技术,2012(20)

[4]邹磊.图数据库中的子图匹配算法

[EB/OL][2024/10/08].https://www.sohu.com/a/540811613_121124371


撰稿:代江天

编辑:童心怡


· 拓展阅读


1.浅谈主成分分析法在商业银行对公业务的应用
2.浅谈营销增益模型在银行精准营销中的应用
3.浅析推荐算法在金融产品推荐的应用
4.学懂弄通《数据领域名词解释》
5.商业银行非结构化数据资产管理研究

数据治理周周谈

争取将数据治理

讲明白,说清楚,有价值

既然来了,点个在看再走吧~




点击此处“阅读全文”查看更多内容

成于微言
金融监管、1104、数据治理
 最新文章