作者
黄华杰 李成青 朱杰 李沛园 陈欣怡
近年来,机器学习模型在信用卡欺诈检测方面的应用日益加深,但受限于数据的敏感性和保密性,仍有较大提升空间。为实现更全面的个人客户画像,本研究创新性地引入反映个人经济状况、背景资料和交易信息的相关特征,针对信用卡交易中不平衡数据和欺诈检测问题,提出一种面向个人客户身份信息和交易特征的基于聚类下采样技术的混合神经网络模型(Hybrid Neural Network with Clustering-based Undersampling technique on Identity and Transaction features,HNN-CUHIT)。本研究基于一家国内大型商业银行的城市分行2020年的信用卡真实交易数据,在信用卡欺诈检测实验中,HNN-CUHIT模型的分数为0.0416,表现最好;在不平衡数据问题的实验中,HNN-CUHIT模型的分数为0.0572,获得较优的性能。实验结果表明,HNN-CUHIT模型在处理不平衡数据问题和欺诈检测方面能够取得较好的效果。
伴随经济全球化的发展和个人消费水平的提高,信用卡在大众生活中扮演着不可或缺的角色。截至2024年一季度末,全国累计发放信用卡和借贷合一卡达7.60亿张,全国人均持有信用卡0.54张;应偿信贷余额达8.54万亿,卡均授信额度2.99万元,使用率为37.51%;信用卡逾期半年未偿还的信贷金额为1096.76亿元,占信用卡应偿信贷余额的1.29%。由于信用卡风险问题带来的大量不良资产会严重影响社会经济的稳定性,因此有效的信用卡风险防控至关重要。
为了更好地应对日益增加的信用卡风险,各大银行机构和金融公司不断进行相关的探索研究,虽然取得了一定的进展,但也存在一些尚待解决的关键技术问题。本研究从面向不平衡数据问题的处理技术和信用卡欺诈检测技术两个角度展开,阐述当前信用卡欺诈检测研究现状。
1. 面向不平衡数据问题的处理技术研究
不平衡数据问题存在于众多领域,制约着机器学习算法的效率,越来越引起相关研究者的重视。在信用卡欺诈检测领域,不平衡数据问题指的是欺诈交易的数量远远少于正常交易的数量,正常交易数量占压倒性地位,以至于直接影响机器学习算法的判断,导致算法把欺诈交易误判为正常交易。一旦金融机构对欺诈交易的判断有误,不但会引起巨大的经济损失,而且会破坏机构的声誉,影响整体存贷款业务的开展。因此,处理信用卡交易中存在的不平衡数据问题尤为迫切。
近年来,有很多新方法被应用到解决不平衡数据问题上,其中包括代价敏感学习和损失函数构建等关注不平衡数据所带来的代价差异的方法。通过差异化捕捉正常类和非正常类产生的误差,有研究者设计平均假误差损失函数和平均假误差平方损失函数,能在一定程度上解决不平衡数据集的类别数量问题,但存在需要提前通过实验获得类别价值数据的缺点。为此,有研究者尝试使用聚类算法和过采样技术相结合的集成方法去解决不平衡数据问题。例如,有研究者设计CLUS算法,该算法先利用聚类技术把非正常类划分为不同簇,然后利用SMOTE算法创建新的实例;有研究者设计基于代价的采样算法,该算法先把欺诈交易根据代价成本划分为不同的簇,再利用合成算法将同一个簇内的不同样本创建为新的欺诈样本;有研究者基于自动化聚类和欠采样技术的集成方法解决不平衡数据问题。为了解决软件漏洞检测中存在的不平衡类别问题,有研究者提出KMFOS方法,先把所有缺陷实例划分为不同的簇,然后在两个簇之间创建新的实例。
2. 信用卡欺诈检测技术研究
信用卡欺诈检测指的是利用机器学习算法或者模式学习技术在海量的信用卡交易中捕捉欺诈交易。信用卡欺诈行为常见形式有:一是失卡冒用,未达卡、被窃卡、失卡被其他人冒用。二是假冒申请,利用他人资料或是故意填写虚假资料申请信用卡。三是伪造信用卡,团伙伪造信用卡进行诈骗。四是网上身份冒用,信用卡资料(卡号、密码等)被不法分子冒用,进行网上购物、交易。五是网络钓鱼,通过互联网或者电邮方式骗取他人身份证件、银行账号等盗取金钱。六是违反国家特殊法规的信用卡交易行为,比如我国规定非法套取信用卡资金违规流入房地产市场和股市等“两市”属于违法行为。
随着机器学习算法的日益成熟和人工智能技术在金融领域的快速发展,相关算法和技术被越来越多地应用于信用卡欺诈检测中。一些银行开始设计和构建基于人工神经网络的信用卡欺诈检测系统。例如,为了提升信用卡欺诈检测性能,有银行设计了基于神经网络的监控系统,集中处理不平衡数据问题,同时进行数据处理和代价矩阵评估等;还有银行设计了名为CARD-WATCH的数据库系统,该系统基于神经网络架构挖掘存在的欺诈交易,在多种商业数据库中提供接口。
与此同时,通过使用一种以上机器学习算法判断信用卡欺诈交易的集成学习方法开始引起相关研究者的注意。例如,有研究者基于神经网络和遗传算法设计了信用卡欺诈检测引擎,遗传算法起到优化神经网络参数的作用,具体参数包括输入参数、网络拓扑结构参数、神经网络中神经元的权重等;有研究者利用神经网络和遗传算法构建了信用卡欺诈检测的混合算法;为了优化加权极值学习机的参数,有研究者应用不同的优化算法,通过实验表明这些优化算法在遗传算法加持下能在信用卡欺诈检测中获得最优的性能;还有研究者基于代表学习设计一个新型神经网络的信用卡欺诈检测算法,通过创新的网络设计、高效的归纳式池化运算和精密的下游分类器配置,实现信用卡欺诈的高效检测。
3. 研究现状总结
近年来,由不平衡数据引起的代价差异问题受到了越来越多研究者的关注。同时,研究者也尝试集成混合方法去解决不平衡数据问题。然而,信用卡交易数据量大、连续属性和离散属性一起存在、信用卡风险防控须在较短时间内做出判断等,都使得不平衡数据问题成为影响信用卡风险防控的技术难点,急需应用新思路、新技术和新理论去解决。上述面向不平衡数据问题的处理技术研究方法虽然都有其合理性,但由于新产生结点所组成数据集的数目较多,容易导致计算开销较大以及出现过拟合情况;此外,上述信用卡欺诈检测技术研究成果尽管能在一定程度上实现信用卡欺诈检测,但其仅仅依靠信用卡交易本身的数据,而忽略了个人背景信息会对检测性能提升存在影响。鉴于此,本研究以个人客户画像的细粒度为研究对象,引入一系列能反映客户背景信息和经济状况的特征,并针对风险防控中的信用卡欺诈检测提出相关的模型算法,使用不同的神经网络去处理个人客户信息和信用卡交易信息,最后把两者的预测结果集成起来,判断交易是否为欺诈,这在一定程度上填补了目前国内外在此领域的技术局限和应用空白。
信用卡交易不但受个人消费习惯影响,也与个人背景情况和经济状况息息相关。不同于过去的研究仅仅关注于信用卡交易本身,本研究通过整合相关的个人信息实现全面客户画像,从而扩大源头数据的覆盖范围,并基于业务信息和用户背景的特征维度设计了基于聚类下采样技术的混合神经网络模型HNN-CUHIT。从业务信息特征维度看,信用卡交易与个人的历史消费习惯和经济状况紧密相连,因此本研究构建包括消费特征和时间范围在内的二元组数据结构来代表信用卡交易,利用卷积神经网络(Convolution Neural Network,CNN)分析相关的联系并进行判断。从用户背景特征维度看,消费行为与学历、职业、职位和公司经济性质等个人背景状况和消费习惯有关,因此本研究通过构建基于用户特征的反向传播神经网络(Back Propagation Neural Network,BPNN)来分析判断。之后,本研究集成CNN和BPNN的判断结果,实现信用卡欺诈判断。该方案能让机器学习算法更加全面理解信用卡交易信息和个人客户背景信息,从而提升信用卡欺诈检测算法的性能。
1. HNN-CUHIT模型框架简介
本研究提出的HNN-CUHIT模型框架如图1所示。该模型的输入部分由信用卡交易信息和个人特征等信息组成。该模型使用聚类下采样技术(Clustering-Based Undersampling,CBU)解决正常交易和欺诈交易因数据量差异巨大而引起的不平衡类别问题;再利用聚类K-means算法把正常交易划分为不同的簇,通过减少它们的数量实现类别间的数量平衡;然后利用混合神经网络(Hybrid Neural Network,HNN)去检测信用卡交易,并分别利用CNN和BPNN判断交易特征和个人信息特征的联系;最后结合CNN和BPNN的结果使用Sigmoid函数判断信用卡交易是否属于欺诈交易。
HNN-CUHIT模型的组成部分包括特征工程、交易标签化、处理不平衡数据集、创建训练数据集、构建预测模型。
(1)特征工程
HNN-CUHIT模型从信用卡交易中根据历史交易记录和个人经济状况提取相关特征,并利用独特编码将个人背景信息转换为相关的特征。其中,每笔信用卡交易由交易特征和个人信息特征表示:交易特征包括平均交易金额、汇总交易金额、交易误差金额、交易数目、最多交易方式、交易终端数目、最多交易渠道、交易渠道类型、最多交易的时间段、最大交易金额的时间段、平均交易额与日均资产的比例、总交易额与日均资产的比例、最大交易额与日均资产的比例;个人信息特征包括年龄、性别、职业、学历、婚姻状况、行政级别、资产总额等。
(2)交易标签化
交易特征和个人信息特征通常被划分为正常交易和欺诈交易两类。其中,正常交易为经检测未存在疑问的交易,其他符合欺诈特征的则标识为欺诈交易。
(3)处理不平衡数据集
由于正常交易的数据量在整体交易数据量中占有压倒性的地位,因此容易引起不平衡数据问题,本研究使用聚类下采样技术把所有的正常交易进行聚类,并划分到不同簇。为了实现正常交易和欺诈交易在数据量上的平衡,簇数量设置与欺诈交易数据量一致,个人信息特征与交易特征的划分一致。相关算法创造一个新结点作为每个信息特征和交易特征的聚类簇的代表结点,本研究选择聚类中心点作为代表结点,同时假设每个结点由连续属性和离散属性组成。对于连续属性,代表结点的相关属性用聚类中所有结点的平均值进行填充;对于离散属性,代表结点的相关属性用聚类中出现最多的离散值进行填充。通过以上操作,可以获得代表交易特征和个人信息特征的特定群体的新结点。
(4)创建训练数据集
根据正常交易的簇情况,每个簇生成一个代表性结点,该结点包括交易信息和个人特征信息,与欺诈交易一起组成训练集,个人信息特征分类与交易特征簇分类一致。在每次迭代过程中,聚类中心点的信息持续更新。
(5)构建预测模型
HNN-CUHIT模型利用训练集不断迭代升级,对信用卡欺诈交易进行判断。首先,该模型获得信用卡个人客户全面特征,利用基于混合神经网络的信用卡欺诈检测算法对个人信息特征进行分析;其次,通过多轮迭代训练获得相应的预测结果;最后,把这些预测结果拼接在一起输入到Sigmoid函数,如果Sigmoid函数输出结果超过阈值,则认为该交易是欺诈交易,否则视为正常交易。
2. HNN-CUHIT模型实验结果
(1)模型效率显著提高
不平衡数据问题的解决方案是下采样技术(Random Under Sampling,RUS),本研究对信用卡数据集进行了大量的消融实验,进一步检测个人信息特征和交易特征对模型性能的影响。信用卡欺诈检测实验结果表明,两种特征的引入可以分别提高模型的准确率和召回率,当它们有效集成在一起时,模型效率将显著提高。
(2)有效确定聚类算法最优k值
在本研究提出的CBU方法中,k值指的是聚类算法中簇的数量,其选择会直接影响算法的性能。为此,本研究进行了一系列的信用卡欺诈检测实验,尝试在HNN-CUHIT模型中确定最优k值。实验结果表明,当正常交易与欺诈交易的数量之比为1:1时,HNN-CUHIT模型达到最优的性能,设定k值最优。
(3)信用卡欺诈检测算法性能稳定
本研究采用随机过采样算法、随机欠采样、SMOTE、ADASYN等不平衡数据问题处理方法和逻辑回归,以及随机森林等信用卡欺诈检测算法进行实验,进一步评估混合神经网络和前沿的机器学习算法在信用卡欺诈检测问题上的性能情况。实验结果展示了不同的机器学习算法在不同的不平衡数据集上的最佳分数值,其中随机欠采样技术在逻辑回归、卷积神经网络和混合神经网络中的表现最好,体现出了较好的准确率和召回率。
(4)较好地解决不平衡数据问题
本研究使用欠采样和过采样技术设计了另一个校验模型,测试不同的采样技术和聚类方法的效率,比较所有不平衡数据问题的解决方案,进一步测试聚类下采样技术的效率。实验结果表明,该校验模型帮助混合神经网络在分数上获得最佳性能,推断出它能够处理信用卡数据集中的不平衡类问题,并具有较高的准确率和召回率。
HNN-CUHIT模型在处理不平衡数据问题和欺诈检测方面具有优越的性能,可以准确地判断信用卡交易是否为欺诈。在未来的研究工作中,笔者计划构建一个特征工程,自动选择当前通过人类经验获得的特征属性,同时从离散和连续属性的数据集获取最优特征。由于k值在K-means算法中非常重要,本研究仅通过实验验证了k值的选择,未来会尝试使用自动优化算法来获得最优值。鉴于个体受环境因素影响,笔者在今后的研究中将考虑扩大数据范围,包括家庭成员数据、社会环境数据等。此外,现在主流的消费模式是使用在线支付,如何在短时间内准确识别网络支付欺诈也是笔者未来的研究方向。
本研究由信用卡欺诈检测研究课题组完成。
课题组成员包括:中国工商银行广东省分行黄华杰、李成青、朱杰;广州市第二中学李沛园;厦门大学电子和计算机工程学院陈欣怡。
(1)该研究课题获广东省金融科技学会课题报告一等奖。
(2)基于聚类下采样技术处理信用卡欺诈交易中数据集的方法[P].中国专利:CN202310892750.3(公示阶段)。
(3)信用卡交易行为的预测方法、装置及电子设备[P].中国专利:CN202211582573.0(公示阶段)。
(本文系《中国信用卡》“创刊三十周年征文”投稿)
征稿启事
《信用卡运营》——杂志重点打造的品牌栏目,关注信用卡营销、风控,数字化经营以及产品、业务、技术等的创新应用等,携手业界推动信用卡高质量发展。
《技数派》——解读行业新技术应用,分享数据模型应用案例,推动数字技术与金融业务深度融合,赋能业务功能价值提升。
《法律事务》——解读金融行业相关法律法规,探讨法律热点和前沿问题。
投稿要求:投稿须为未发表的原创作品,内容具有科学性、创新性及行业实用性;字数2000~6000字。
投稿邮箱:ccc@fcc.com.cn