NBER|信用评分：效率与公平

学术 2024-10-11 17:01 北京

原文信息

Stefania Albanesi, Domonkos F. Vamossy

Credit Scores: Performance and Equity

NBER Working Paper（2024.9）

摘要

本文探讨了信用评分在美国消费者信贷分配中的作用，重点分析了现有评分模型的准确性和公平性问题。研究表明，当前广泛使用的信用评分模型在预测消费者违约方面存在显著局限，尤其对低评分的借款人群体（如年轻人、低收入者和少数族裔）表现不佳。通过机器学习模型的替代评分，我们发现能够显著提升这些群体的预测准确性，从而促进更公平的信贷获取。具体而言，传统信用评分将41%的消费者错误地分类为与其实际违约概率不符的风险类别，尤其是对47%的次级借款人和70%的近优质借款人进行了误判，而我们的模型在这些群体中的表现更加优越。此外，我们的模型在低质量数据上表现更佳，更能够识别出低评分群体中违约概率较低的借款人。这些结果表明，优化信用评分模型不仅能够提升整体预测能力，还可以减少信贷分配中的不平等现象。

以下为正文内容：

引言

信用评分是美国消费信贷市场中用于评估借款人违约风险的关键工具。尽管其在信贷市场中被广泛使用，但关于其预测准确性和公平性的研究却相对较少。传统信用评分模型依据借款人的信用历史、债务情况等因素对其未来违约概率进行排序，从而帮助金融机构在发放贷款时做出决策。然而，近年来的研究揭示了这些模型在面对不同借款人群体时存在系统性偏差，尤其是对年轻人、低收入者和少数族裔借款人预测失准。

本文旨在通过一个基于机器学习的替代评分模型，评估现有信用评分体系的性能和公平性。我们采用与标准信用评分模型相同的数据，构建了一个能够处理高维复杂数据的机器学习模型，并对其性能进行了测试。研究发现，现有信用评分模型对低评分借款人群体的违约风险预测不准，而本文的模型能够显著提升这些群体的预测准确性。这一发现对于改善信贷市场的公平性和效率具有重要意义。

此外，本文研究还探讨了不同信用评分模型的特点，以及它们对不同社会群体的影响。研究表明，改进信用评分模型不仅可以提高对低评分群体的预测准确性，还可以显著提升这些群体的信贷可获得性。这表明，通过优化信用评分体系，有可能减少信贷市场中的不平等现象，为更多人群提供公平的信贷机会。

主要内容

（一）数据来源与处理

1.数据来源

本文使用了来自益百利（Experian）信用局的匿名信用档案数据。这些数据涵盖了美国全国范围内约100万户家庭的信用记录，样本为代表性小组，并以季度频率提供，从2004年第一季度到2015年第四季度，时间跨度超过11年。

2.数据结构和内容

数据集包括超过200个变量，涵盖了个人和家庭的多种信贷活动和债务情况。具体数据内容如下：

（1）贷款种类

信用卡和其他循环信贷：包括每种贷款的交易数量、未偿余额和可用信用额度。
分期付款贷款：如汽车贷款、学生贷款等的交易详情。
抵押贷款：涵盖第一和第二抵押贷款，房屋净值信贷额度（HELOC）等信息。
商业贷款：包括商业用途的贷款信息。

（2）账户状态

每种贷款的月供信息。
是否存在逾期账户及逾期天数。
是否有任何账户进入催收阶段。

（3）信用评分和违约信息

每个借款人在每个季度的信用评分。
样本中家庭的违约情况，违约定义为逾期90天或以上。此定义与信用评分模型的违约预测目标一致。

（4）人口统计信息：数据中不直接包含性别、婚姻状况等人口统计学特征，但记录了借款人的邮政编码，可以用于地理位置分析。此外，还有基于美国国税局（IRS）数据估算的个人和家庭劳动收入。

（5）信用报告信息：数据包括信用报告中的各种信息，如信用组合（不同类型信贷产品的数量和余额）、信用历史的长度、信用额度的使用率、新增信用账户的情况等。

3.数据处理

（1）样本选择：本研究从益百利信用局的总样本中随机抽取了100万个家庭作为研究样本。这些家庭具有代表性，覆盖了不同年龄、收入水平、信用评分和违约率的借款人。样本中，包含了不同信用评分和信贷活动记录的借款人，从而能够评估信用评分模型在不同群体中的表现。

（2）变量处理：数据中的每个变量被转换为一个特征，用于预测模型中。特征包括各种信贷活动的交易数量、余额、未偿还金额、月供、账户状态等。为了避免重复计算，共同账户的余额被合理分配到各个账户持有人中。

（3）数据时间范围：本文的数据集涵盖了从2004年到2015年的信用记录，提供了足够长的时间跨度来评估信用评分模型在不同经济周期（如2007-2009年的金融危机）中的表现。

（4）数据局限性：数据集中不包含借款人的性别、种族等敏感人口统计学特征。这些信息虽然可能影响违约风险，但法律规定信用评分模型不能基于这些特征进行评分。数据集中没有关于资产持有的信息，无法直接分析借款人的资产负债表状况对信用评分和违约的影响。

4.描述性统计

本文在数据部分对样本进行了描述性统计分析，主要内容包括：

（二）模型

本文通过开发一个基于机器学习的模型来预测消费者违约情况，并将该模型与传统的信用评分系统进行比较，以衡量其在不同情况下的表现。

1.模型构建的原理

本文构建了一个基于机器学习的预测模型，用于评估消费者在未来八个季度内是否会违约。该模型采用了深度学习和梯度增强树模型相结合的混合方法，其主要特点如下：

（1）监督学习框架

本文采用了监督学习的方法来构建违约预测模型。监督学习的基本原理是通过一组带有标签（违约或未违约）的训练数据，让模型学习这些数据中的特征和标签之间的关系，从而对未来数据进行预测。

输入变量（特征）：模型的输入包括所有与信用报告相关的特征，如信用卡债务、信用额度使用情况、信用历史长度等，共79个特征。

输出变量（目标）：模型的目标是预测借款人在未来八个季度内是否会发生违约。违约的定义是任何贷款账户逾期超过90天。

（2）深度神经网络（DNN）

深度神经网络是一种能够处理复杂数据模式的模型，具有以下特征：

多层结构：包括输入层、多个隐藏层和输出层。每一层由神经元组成，神经元之间通过权重连接。模型通过这些权重的调整来学习数据中的模式。

非线性变换：每个隐藏层的输出都会经过一个非线性激活函数的处理，使得模型能够捕捉到数据中的复杂非线性关系。

反向传播：模型通过反向传播算法不断调整权重，最小化预测结果与实际标签之间的误差。

（3）梯度增强树（GBT）

梯度增强树是一种集成学习方法，通过将多个弱学习器（简单决策树）组合在一起，提高模型的预测精度。其特点包括：

递归树分割：数据被递归地分割，每个分割节点根据某个变量的阈值来区分违约和非违约借款人。

模型组合：通过不断构建新的树来纠正前面树的预测错误，最终形成一个强大的模型。每棵树都是基于前一棵树的残差进行训练的。

（4）混合模型

本文使用了深度神经网络和梯度增强树的混合模型，以充分利用两种模型的优势：

深度神经网络：能够更好地捕捉复杂的非线性关系。

梯度增强树：在处理特征之间的复杂交互时表现优异，并能更好地处理数据中的噪声和异常值。

具体实现方式为：对每个借款人的预测结果分别通过深度神经网络和梯度增强树计算，然后将两者的预测结果加权平均，以获得最终的违约概率预测值。

2.模型性能评估

为了评估模型的性能，本文采用了一系列统计指标，并将模型的预测结果与传统信用评分系统进行了比较。

（1）模型表现指标

模型性能主要通过以下几个指标进行评估：

AUC（曲线下面积）：AUC是衡量模型区分能力的指标。

AUC值越高，表示模型在区分违约和非违约借款人方面的表现越好。

基尼系数：用于衡量信用评分分布的分散性，从而衡量模型根据违约风险区分借款人的能力。基尼系数与AUC分数呈正相关关系。

预测误差：评估模型预测的违约概率与实际违约率之间的差异。

（2）模型在整体样本中的表现**

AUC表现：本文构建的机器学习模型在整体样本中的平均AUC值为91%，显著高于传统信用评分模型的85%。在2007-2009年金融危机期间，传统信用评分的AUC分数显著下降，而本文模型的AUC分数保持相对稳定。

基尼系数表现：在2006年第一季度到2016年第二季度的样本中，传统信用评分的基尼系数为0.7到0.75之间，而本文模型的基尼系数维持在0.8到0.84之间，显示了更高的区分能力。

（3）在不同风险类别中的表现

本文对不同信用评分类别的借款人进行了细分，包括深度次级（Deep Subprime）、次级（Subprime）、近优质（Near Prime）、优质（Prime）和超级优质（Super Prime）五类风险等级，并分析了模型在每个风险类别中的表现。

低信用评分借款人：本文模型对低信用评分（次级和近优质）借款人的违约风险预测显著优于传统信用评分。这一群体通常更容易被传统信用评分误分类，而本文模型能够更好地捕捉他们的实际违约风险。

高信用评分借款人：对于信用评分较高的借款人（优质和超级优质），传统信用评分的表现与本文模型相近，但本文模型在某些经济不稳定时期（如金融危机）中的表现更加稳定。

研究结果表明，信用评分对很大一部分借款人进行了错误分类，尤其是那些信用评分较低的借款人。根据我们的模型，只有45%的深度次贷借款人将继续处于这一类别，而44%将被重新归类为次级，9%为近优质，2%为优质。对于次级借款人，我们的模型将53%的人归为次级借款人，其中15%被重新归类为深度次贷借款人，22%被重新归类为近优质借款人。在近优质借款人中，我们的模型将38%归为次级借款人，28%归为优质借款人，只有30%归为近优质借款人。在优质贷款类别中，67%的借款人仍处于这一类别，13%的人被重新归类为近优质贷款，16%的人被重新归类为超级优质贷款。最后，对于超级优质借款人，我们的模型将74%的借款人归为该类，其中26%被重新归类为优质借款人。信用评分将26%至70%的借款人划分为错误的风险类别，信用评分较低的借款人的错误分类率更高。

（4）不同人口群体的表现

本文还分析了模型在不同人口群体（如年轻人、低收入者和少数族裔）中的表现，发现：

年轻借款人：传统信用评分由于重视信用历史长度，通常低估年轻借款人的信用风险，而本文模型对这些借款人的预测更为准确。

低收入借款人：本文模型能够更好地识别低收入群体中具有较低违约风险的借款人，显著降低了这些群体的误分类率。

少数族裔借款人：传统信用评分对少数族裔借款人的违约风险预测通常不准确，而本文模型在这一群体中显示了更高的预测精度。

3.模型解释性分析

为了理解模型的预测过程，本文使用了SHAP（Shapley Additive Explanations）值来分析各个特征对模型输出的贡献。这一分析有助于揭示模型在预测违约风险时最为关注的因素：

欠款金额：本文模型中，欠款金额是影响违约预测的最重要因素，解释了模型预测变化的49%，而在传统信用评分中这一比例仅为30%。

信用历史长度和新增信用：在传统信用评分中，这两个特征占比相对较高（分别为15%和10%），但在本文模型中，它们的贡献显著下降（分别为8%和5%），这表明传统信用评分对这些特征的过度依赖可能导致对某些群体的误分类。

信贷组合和新增信贷：这些因素在本文模型中的权重较低（各占5%左右），而在传统信用评分中占比更高（各占10%）。

4.模型的局限性和改进建议

虽然本文模型在违约预测中表现优异，但仍存在一些局限性：

（1）数据限制：模型仅基于信用报告中的信息，无法纳入如借款人收入、就业情况等外部数据，这可能影响模型对借款人综合风险的评估。

（2）模型复杂性：机器学习模型的复杂性增加了其解释难度，可能不利于模型在实际业务中的应用。

（3）长期预测性能：虽然模型在短期内表现优异，但在长期预测中，仍需进一步验证其稳定性。

（三）信贷效率与公平

本文第五部分探讨了信用评分模型的绩效（Performance）与公平性（Equity）之间的权衡问题。研究通过分析基于机器学习的评分模型对不同社会群体（如年轻人、低收入者和少数族裔）的表现，揭示了如何在提高模型预测准确性的同时，确保对边缘化人群的公平对待。

1.模型改进对不同群体的影响

（1）低收入群体

低收入借款人在传统信用评分模型中的表现通常较差，主要原因是信用评分高度依赖信用历史长度和信贷需求等因素，而这些特征在低收入群体中往往不利：

表现改善：研究发现，低收入借款人在机器学习模型中的违约风险评估显著改善，特别是那些没有违约历史的低收入者。相比传统信用评分模型，机器学习模型对这类借款人的误分类率显著降低，从而提高了他们的信用评分排名。

违约风险的区分能力：模型能够更好地区分低收入群体中违约风险高和违约风险低的借款人，这有助于提高该群体在信贷市场中的信贷可获得性。

（2）年轻群体

年轻借款人通常因信用历史较短而在传统信用评分中处于不利地位：

表现改善：机器学习模型能够更好地捕捉年轻借款人中不违约者的信用风险，从而提升他们的信用评分。研究显示，模型将年轻借款人的平均排名提高了约2个百分点（相当于11个信用评分点），尤其是对那些无违约记录的年轻借款人，模型的预测准确性显著提升。

违约风险的区分能力：对于违约风险较高的年轻借款人，模型能够将他们的排名降低，从而在信贷决策中更加精准地识别高风险个体。

（3）少数族裔群体

传统信用评分模型在少数族裔中的预测准确性较差，可能导致该群体信贷获取受限：

表现改善：机器学习模型在少数族裔借款人中显示了更高的预测精度。研究表明，少数族裔借款人在模型中的平均排名提升了约1个百分点（相当于5.5个信用评分点），特别是那些未违约的少数族裔借款人，他们在信贷市场中的地位得到了显著提升。

违约风险的区分能力：对于违约风险较高的少数族裔借款人，模型能够有效将其风险分类为较低等级，从而减少因信用评分模型不准确导致的信贷获取障碍。

2.不同人口群体的模型公平性分析

研究通过回归分析比较了不同模型在不同人口群体中的排名变化情况。以下是分析的主要发现：

（1）低收入和年轻群体：

在收入分配中处于最低五分之一的借款人，在机器学习模型中平均获得了约5个百分点的排名提升，这相当于25个信用评分点。对于年轻借款人，模型平均提升了2个百分点，违约的年轻借款人排名下降了约4.5个百分点（相当于25个信用评分点），而非违约的年轻借款人排名上升了约2个百分点。

（2）少数族裔群体

少数族裔借款人在模型中排名提高了约1个百分点（相当于5.5个信用评分点），尤其是那些没有违约记录的少数族裔，他们的排名提升更为明显。在违约风险较高的少数族裔借款人中，模型能够有效降低其排名，从而减少信贷市场对其的歧视性影响。

（3）模型排名变化的驱动因素

模型对不同群体排名变化的驱动因素主要包括违约历史、信用历史长度和信贷需求等。这些因素在不同群体中的影响不同，导致了模型在不同群体中表现差异。

3.绩效与公平性的平衡

研究表明，机器学习模型能够在提升预测准确性的同时，改善信贷分配中的公平性。主要包括：（1）更好的区分能力：模型能够更准确地识别违约风险低的边缘化借款人，从而提高他们的信贷可获得性。这不仅提升了模型的整体预测性能，还减少了对这些群体的误分类。（2）更公平的信贷分配：通过对低收入、年轻和少数族裔群体更精确的风险评估，模型显著降低了这些群体在传统信用评分模型中因预测不准而导致的信贷获取障碍。这有助于减少信贷市场中的结构性不平等现象。

4.与传统信用评分的比较

为了进一步说明绩效与公平性的平衡，研究将机器学习模型与传统信用评分模型进行了详细比较：

（1）总体性能提升：机器学习模型的AUC得分平均高出传统信用评分模型5个百分点，尤其在边缘化群体中，这一差距更为显著（6-12个百分点）。

（2）特征归因分析：机器学习模型在不同特征组合（如信用历史长度、信用组合、信用额度使用率）下表现更稳定，避免了传统信用评分模型对某些特征的过度依赖。

（3）数据属性对模型性能的影响：研究表明，传统信用评分模型对某些特征组合（如信用历史较短的“薄文件”借款人）表现较差，而机器学习模型能够在这些情况下保持较高的预测性能。

5.特征组成对模型性能和公平性的影响

为了进一步检验不同特征组合对模型公平性的影响，研究进行了反事实分析：

（1）反事实分析方法：研究通过将边缘化群体的特征组成调整为与非边缘群体相同，以比较实际模型表现与反事实模型表现之间的差异。结果表明，与传统信用评分模型相比，机器学习模型的实际AUC分数与反事实AUC分数之间的差异更小，表明特征组成对机器学习模型的影响更小。

（2）数据偏差的消除：机器学习模型在处理低质量数据时表现更好，减少了数据偏差对模型预测结果的负面影响。这使得模型在处理传统上被边缘化的群体时，能够提供更准确的风险评估。

结论

本文通过比较传统信用评分与机器学习模型，揭示了现有信用评分在预测消费者违约风险方面的不足。我们发现，传统信用评分对大量借款人进行了错误分类，尤其是对低评分借款人群体的预测表现较差。相较之下，我们的机器学习模型显著提升了对这些群体的预测准确性，从而可能改善信贷市场的公平性和效率。

具体来说，我们的模型不仅在整体上表现优异，还特别在处理低质量数据和复杂非线性交互时具有优势。对年轻人、低收入者和少数族裔借款人而言，我们的模型能够更准确地评估其违约风险，这一发现对于减少信贷市场的偏差和促进公平信贷分配具有重要意义。

政策制定者和信贷机构应考虑使用更先进的预测模型，以提高信用评分的准确性和公平性。通过采用机器学习等新技术，可以更好地识别低评分群体中的优质借款人，为他们提供更公平的信贷机会。这不仅有助于优化信贷分配，还可以降低金融系统的整体风险。

未来的研究可以进一步探讨如何在信用评分模型中纳入更多社会经济因素，以更全面地评估借款人的信用风险，并减少现有模型中可能存在的偏见和歧视。这将为信贷市场的健康发展和社会经济的公平进步奠定更加坚实的基础。

（选文、整理：寇明珠）

ABSTRACT

Credit scores are critical for allocating consumer debt in the United States, yet little evidence is available on their performance. We benchmark a widely used credit score against a machine learning model of consumer default and find significant misclassification of borrowers, especially those with low scores. Our model improves predictive accuracy for young, low income, and minority groups due to its superior performance with low quality data, resulting in a gain in standing for these populations. Our findings suggest that improving credit scoring performance could lead to more equitable access to credit.

编辑葛秋江

来源《NBER》

监制安然

关于我们

黄达教授是新中国“大金融”思想体系的首倡者和设计者。世纪之交，他针对经济金融全球化对中国金融学科建设提出的新挑战与新要求，重构基于中国实际的金融学科框架，首倡并系统设计“大金融”学科体系；几代学人在此基础上不断传承发扬，主张金融与实体经济相结合、宏观金融与微观金融相结合，具有鲜明“人大学派”特色的重大理论创新体系日渐形成。

本公众号由中国人民大学国际货币研究所（IMI）负责维护及推送，围绕大金融理念，专注传播优秀学术研究成果，加强大金融学术研究交流。

中国人民大学国际货币研究所（IMI）成立于2009年12月20日，是专注于货币金融理论、政策与战略研究的非营利性学术研究机构和新型专业智库。

研究所长期聚焦国际金融、货币银行、宏观经济、金融监管、金融科技、地方金融等领域，与国内外金融机构、科研院所、政策部门多次开展研究合作与学术交流，形成了《人民币国际化报告》《天府金融指数报告》《金融机构国际化报告》《中国财富管理能力评价报告》《宏观经济月度分析报告》等一大批具有重要理论和政策影响力的学术成果。

IMI定期举办国际货币论坛、货币金融（青年）圆桌会议、大金融思想沙龙、麦金农大讲坛、陶湘国际金融讲堂、IMF经济展望报告发布会、金融科技公开课等高层次系列论坛或讲座，形成了内参要报、学术月刊、中英文周报等系列研究产品。

微信号：大金融思想

（点击识别下方二维码关注我们）

文章推荐/投稿/合作 ☎️010-62516755

联系方式 📮imi@ruc.edu.cn

http://mp.weixin.qq.com/s?__biz=Mzg3ODA0MTQ3Ng==&mid=2247505235&idx=1&sn=946da39fe2a7385a55df8ea7dc08bed9

IMI大金融思想

“大金融”概念，在学理上源于黄达教授所倡导的宏微观金融理论相结合的基本思路，在理念上源于金融和实体经济作为一个不可分割的有机整体的系统思维。本公号围绕大金融理念，专注传播优秀学术研究成果，加强大金融学术研究交流。