文 / 交通银行反洗钱团队
基于AI因子体系的
智能反洗钱系统建设实践
交通银行以风险为导向建设的基于AI因子体系的智能反洗钱系统,首先,依托大数据分析技术及因子分析法构造反洗钱因子体系,可快速生成适配不同洗钱场景的监测模型,切实提高开发上线效率,提升监测准确率。其次,利用统计分析和机器学习技术,对因子的贡献程度和阈值设定提供量化评估依据,辅助业务专家对现有规则进行调优,高质效完成反洗钱风险监测工作。再次,建设业务人员专用分析验证平台,为因子使用和调优提供试运行环境,因子参数设置可快速同步生产系统,节省开发人力,缩短开发周期。
1.系统整体概述
该系统主要由数据源、数据采集层、数据加工层、风控中台及算法平台层、公共能力层和风险应用层构成(如图1所示)。
图1 系统总体技术架构
数据源、数据采集、数据加工层通过整合行内外数据资源,提取关键信息,提供高吞吐量的交易流水计算能力,为上层反洗钱中心和算法平台提供数据支撑。
反洗钱中心提供洗钱风险评估、系统管理、信息交互等功能。算法平台提供统计模型、机器学习模型及图模型的训练、建模、部署能力,通过部署反洗钱场景智能算法,提升系统的智能化水平,为因子体系提供智能分析和量化评估,提高监测精准度,挖掘潜在洗钱风险。
公共能力层,提供操作行为、分析质效等,为规范员工操作和行为、提升工作质效提供了有力抓手和保障。
风险应用层,建设有反洗钱监管上报、可疑监测、风险评级等系统,实现报送全流程自动处理及业务呈现。其中,可疑监测系统内建立的模型管理等业务功能可直接与数据验证平台进行参数、模型和指标的交互,快速灵活调整因子设置和组合。
2.反洗钱AI风险因子体系定义和构建过程
(1)风险因子的构建。因子分析法是一种跨领域应用的数据分析工具,旨在通过变量间关系提炼共性,减少数据冗余信息,提高数据的详细分析度。
借鉴因子分析法设计思路,本系统通过将存量反洗钱规则细化为不可再分的监测指标即风险因子,并借助大数据分析等技术,从海量数据中提取生成新风险因子,构建反洗钱风险因子库。该库汇集了经专家细化、AI挖掘及自定义开发的风险因子,可全面覆盖风险监测需求。
根据反洗钱监测工作特性,反洗钱风险因子库由多级因子模型构成(1,2,……,N级),形成了各级模型的层层嵌套体系:其中N级子模型是最小的模型即为因子,一级模型是最终匹配反洗钱场景的模型。触发一级模型的客户及交易被系统识别为可疑案件,提交给反洗钱业务人员进行分析和审核,确认后上报人行。具体示意如图2所示。
图2 因子模型体系
(2)风险因子的AI评估。不同风险因子,对于可疑洗钱事件的贡献度和显著性不同,所以一套完整的反洗钱因子体系需配合有效的因子评估手段。本系统使用统计学分析和机器学习技术对因子体系中各因子的构成元素做量化分析,评估各构成元素的贡献程度。本系统使用单变量和多变量分析评估触发父节点的反洗钱可疑案件,在人工审核后确定为真实可疑案件的显著性。
一是单变量分析。单变量分析针对每个子节点,量化评估其与父节点的相关性和贡献程度,在评估过程中各子节点间相互独立,子节点的贡献程度分析结果不受其他子节点取值变化影响。本方案中采用的单变量分析方法主要有以下几种。
数量统计:针对每个父节点下的子节点,如触发一级模型的二级模型和三级因子,计算触发该子节点的事件经人工审核后可疑和不可疑的数量及比例。
相关性分析:计算每个父节点和子节点的相关系数,鉴于触发模型和因子是二元分类变量(0或1),我们采用Spearman相关系数来量化它们之间的相关性。该系数值域为[-1,1],其中正负号指示了正相关或负相关,而绝对值越趋近于1,则表明相关性越强。具体来说,当相关系数值较大时,意味着该子节点在识别可疑案件上具有较高的贡献度;相反,若相关系数呈现较大的负值,则可能需要重新审视并调整该子节点的阈值或评分机制。
IV值:IV值为统计学中常用的变量选择指标,衡量单个变量对于目标变量的相关显著性大小。IV值取值在[0,1]之间,取值越大代表相关性越强,也即对识别可疑案件的贡献度越大。
基尼系数:基尼系数为机器学习领域常用的特征选择指标。基尼系数越大代表使用该子节点进行分枝对于降低损失函数作用越明显,也即对识别可疑案件的贡献度越大。
二是多变量分析。多变量分析将所有子节点一起纳入分析评估,从整体维度评估各子节点的贡献程度,子节点的贡献程度分析结果会受到其他子节点取值变化的影响。多变量分析过程中,将某个特定父节点下所有子节点的触发取值构成离散化特征宽表,以案件是否为人工审核可疑案件作为目标变量,是否触发各个子节点作为特征变量,拟合模型,根据模型参数估计或重要性特征输出评估各子节点的贡献程度。本方案中采用的多变量分析方法主要有以下几种。
逻辑回归:使用离散化特征宽表拟合逻辑回归模型,根据拟合方程的各特征参数大小来量化贡献程度大小。另外,也可采取逐步回归或特征降维的方法(如LASSO或岭回归实现特征降维)来衡量子节点的贡献程度。
决策树:使用离散化特征宽表拟合决策树等模型,根据拟合出的模型特征重要性反映贡献程度的大小。决策树及其衍生算法(如GBDT、随机森林等)是常用的机器学习分类算法,模型的特征重要性代表了各特征在决策路径上的整体重要程度和预测能力。
特征解释性指标:特征解释性指标针对每个样本,输出对模型预测结果贡献程度最大的特征,常用的特征解释性指标有Shapley值等,适用于机器学习树模型(如XGBboost、GBDT等)。使用离散化特征宽表拟合机器学习树模型,通过对预测样本所有因子变量计算Shapley值,反映各因子的贡献程度大小。
依赖单一专家经验的评估方法,常因个人视角的局限性而难以保证评估的全面性。相比之下,将专家经验评估与综合应用统计学和AI技术的多维度评估相结合,显著增强了风险因子的可解释性与评估效果的有效性。
(3)反洗钱AI因子体系。由风险因子库、风险因子AI评估模型构建的AI风险因子体系,相比于传统反洗钱规则,具有如下四个方面的优点。
一是高可复用性。该体系中因子均设计为最小指标粒度,具有独立属性和计算逻辑。在实际应用中,根据洗钱风险的特点和监测需求,可灵活挑选并组合因子,迅速搭建出定制化监测模型,快速应用在不同的反洗钱场景中。此复用机制有效减少了重复性开发工作,加速了开发进程,并确保了系统对新监测需求的即时响应能力。
二是良好的可扩展性。该体系采用模块化设计思路,每个因子都可作为一个独立模块进行配置,这让体系本身具备良好的扩展性基础。当新洗钱风险场景出现或监管要求发生变化时,若既有因子不足以应对,可利用专家经验或AI模型,开发新的因子纳入体系,实现轻松扩展,及时应对各种复杂多变的洗钱风险场景。该因子体系的可扩展性确保它能够随着反洗钱工作的发展而不断进步和完善,为反洗钱工作提供了持续有效的支持。
三是智能化决策支持。借助系统内置的AI能力,对各种来源的风险因子进行智能评估,通过因子贡献度模型提供量化指标和分析工具,不仅提升了反洗钱工作的智能化水平,也为决策者提供了更加全面和深入的风险洞察,有助于制定更加精准和有效的反洗钱策略。
四是覆盖更多洗钱风险场景。得益于因子的高度可复用与可扩展性,该体系能够迅速且精准地覆盖更多的洗钱风险场景。这一特性推动了反洗钱风险监测系统的深度发展,确保其紧密贴合“风险为本”的监管原则,及时响应并满足监管机构的最新要求。
3.AI因子体系在反洗钱系统中的实现和应用
在此AI因子体系中,系统能够依据AI评估结果,针对多样化的反洗钱场景,挑选适配因子进行灵活组合,动态生成相应指标模型,并自动计算模型的得分,与阈值进行比较,超过阈值的模型纳入系统监控体系。模型分数计算逻辑如下:
其中,式(1-1)中第 i 个因子的得分 Sf(i) 是根据大数据统计或AI计算得到的经验值,即为 N 级子模型的得分值。式(1-2)表示当模型级别为 1,2,Λ,N-1 时,其每一级别的分数由该级别所有下一级别子模型的分值以及新加因子的分值累和构成,Sm(j) 是当前级别模型的分值,Sm(j-1) 是当前级别模型的下一级别的分值,i=1,2,Λ,K 表示共有 K 个因子,d=1,2,Λ,D 表示共有个 D 下一级子模型,N 表示共有 N 级模型。
定义每级模型对应的阈值为 λj,j=1,2,Λ,N,则有因子构成的模型命中结果为:
其中,Result(j) 表示模型级别 j 的命中结果,1表示命中,0表示未命中。
AI因子体系与反洗钱系统的深度融合,可以更好的赋能商业银行的反洗钱工作。一方面,通过系统整合的多渠道风险数据,为反洗钱智能化分析和AI算法构建铺设了坚实的数据基石。此外,系统记录留存的操作过程数据,可为模型的持续调优提供更多的训练数据。另一方面,AI因子体系的引入,为系统注入了量化分析风险要素的强大能力,为洗钱监测分析人员在规则优化及参数调整方面提供科学全面的量化依据,从而显著提升了反洗钱工作的效率。更为重要的是,AI因子体系在实战中积累的丰富经验,可持续反哺于系统的自动化建设,推动了系统不断优化与升级。
基于AI因子体系的
智能反洗钱系统应用成效
传统反洗钱监测模式,依赖人工制定新规则,不仅耗费了大量的人力资源,形成不必要的成本负担,而且人工的响应速度难以匹配洗钱手段日新月异的发展态势。即使加大人力投入,也难以全面、及时地捕捉并应对新兴洗钱威胁。而基于AI因子体系的智能反洗钱系统,通过持续学习与优化,能够自动积累并丰富因子库。这些因子在AI算法的驱动下,能够灵活组合成海量的模型,极大地拓宽了监测的广度和深度。实现了对新洗钱风险场景的近乎零开发响应能力,即在发现新风险特征时,无需或仅需极少的人工干预,即可自动调整和优化模型,确保系统始终处于监测的前沿,有效应对不断演变的洗钱手法。
技术侧方面,AI因子体系与传统规则的开发效果对比如图3、图4所示。随着时间推移,使用反洗钱规则开发的工作量和周期都在逐步增加,其原因在于随着洗钱场景的越发复杂,对应规则需要命中的因素更多,导致开发量和开发周期会随之增加。AI因子体系开发初期,涉及将存量规则转化为因子以及开发新因子,开发量较大,但随着因子的逐渐积累和完善,后续仅有少量新因子的开发工作,因而开发量会逐渐下降,同时开发周期也逐渐缩短。
图3 因子和规则的开发量对比
图4 因子和规则的开发周期对比
业务侧方面,采用AI因子体系的反洗钱系统优势主要体现如下。
(1)灵活高效:迅速响应需求,按需增减因子,精准建模,降低沟通成本,快速适应外部风险。
(2)减负提效:通过智能量化,业务人员可自主优化、灵活组装因子,同时验证与生产双环境无缝衔接,可大幅减轻人工负担。
(3)需求统一管理:摆脱补丁式迭代,自动记录模型变更,实现需求管理的连续性与完整性。
总结与展望
基于AI因子体系的智能反洗钱系统以风险为本的监管理念为指导,深入分析当前反洗钱可疑监测工作面临的挑战和存在的问题。通过细分现有反洗钱专家经验库中的要素,构建更小粒度的风险分子,并运用AI算法模型对风险因子进行多维度评估,为反洗钱监测策略的持续优化提供强有力的工具支持。该系统的建设,一方面推进AI在反洗钱工作领域的赋能作用,提升反洗钱监测的智能化自动化水平,扩展了对洗钱场景的覆盖度,提高了其准确性和时效性;另一方面,推动人机协作的新型反洗钱风控体系建设,有效降低反洗钱工作的人工成本,提升反洗钱工作的质量和效率。
未来,随着全球金融监管环境的日益复杂化,以及金融科技的快速发展,人工智能技术将不断推动反洗钱系统向着更高水平的自动化和智能化迈进,在适应新的监管要求和挑战的同时,不断增强其监控能力和效率。
(此文刊发于《金融电子化》2024年10月下半月刊)
新媒体中心
主任 / 邝源
编辑 / 姚亮宇 傅甜甜 张珺 邰思琪