论文评审《基于随机森林模型的个人信用风险评估研究》

财富   科技   2024-11-21 11:50   重庆  

最近Toby老师看到一篇论文热度比较高,下载量有665次,论文标题是《基于随机森林模型的 个人信用风险评估研究》





论文篇幅较长,Toby老师概述一下作者的摘要,并通过自己语音简单复述了这个项目。

摘要:

LendingClub作为美国最大的P2P借贷平台之一(目前lendingclub已转型互联网银行),其风控模型的建立对于平台的稳健运营至关重要。本文基于随机森林算法,结合LendingClub平台的实际数据,建立了一种风控模型,并对其性能进行了评估。实证结果表明,基于随机森林的风控模型比逻辑回归具有较高的预测准确性和稳健性,能够有效降低平台的信用风险,为投资人和借款人提供更加安全可靠的借贷环境。

  1. 引言 互联网借贷平台的风险管理是保障平台稳健运营的关键环节。LendingClub作为典型的P2P借贷平台,其风险管理模型的构建对于降低信用风险、提高投资人和借款人的信任度至关重要。随机森林作为一种强大的机器学习算法,在金融风控领域得到了广泛应用。本文旨在利用随机森林算法构建LendingClub的风控模型,并评估其性能表现。

  2. 相关研究 在互联网借贷领域,许多研究已经探讨了不同的风险管理模型和算法。其中,基于机器学习的方法在近年来备受关注。例如,支持向量机、逻辑回归、随机森林等算法被广泛用于信用评分和违约预测。

  3. 数据和方法 本文采用LendingClub平台的历史借贷数据作为样本,包括借款人的个人信息、信用评分、收入情况等。首先,对数据进行预处理,包括缺失值处理、特征工程等。然后,利用随机森林算法构建风控模型,并采用交叉验证等方法对模型进行优化和评估。

  4. 结果与分析 实证结果显示,基于随机森林的风控模型在LendingClub平台的信用评分和违约预测方面表现良好。与传统的线性模型相比,随机森林模型具有更高的预测准确性和鲁棒性,能够更好地捕捉数据中的非线性关系和复杂模式。

  5. 结论与展望 本文基于随机森林算法构建了LendingClub的风控模型,并证明了其在信用风险管理方面的有效性和可行性。未来的研究可以进一步探讨其他机器学习算法在互联网借贷平台风险管理中的应用,并结合大数据和人工智能等技术,进一步提升模型的预测能力和实时监控能力,为平台的健康发展提供更加可靠的保障。



Toby老师对论文点评

这篇论文本身质量比较高,Toby老师认为研究生能写出这样论文也是花了不少时间做研究,值得鼓励和肯定。

《基于随机森林模型的人信用风险评估研究》论文采用的是lendingclub数据集,该数据集最明显特征是数据非平衡。故作者花了很多时间在SMOTE过采样技术上,提升模型性能。

接下来我谈谈论文可以优化内容。

1.非平衡数据集中准确率的误导性

论文对模型验证只用了准确率,过于单一。模型验证指标很多,不同指标反应模型不同方面。

如果数据集是非平衡的,准确率accuracy指标意义不大,且容易误导决策者。大家不要太信任模型,模型也是会玩小聪明的。如果数据集里999个样本都是好客户,1个样本是坏客户。模型偷偷懒,自动判断所有预测结果为好客户,准确率也可以达到999/1000,即0.999。决策者一看模型准确率0.999这么高,兴高采烈,实际上模型什么都没干,就是把所有预测对象统一判断为好客户而已。

2.模型验证指标多样化

模型验证指标很多,不同指标反应模型不同方面。论文如果加上AUC,KS,Gini系数,混淆矩阵指标,模型验证结果会更好。

3.多算法比较不足

该论文只比较了逻辑回归和随机森林两种算法,得到了随机森林性能较好结论。我们可以对比更多算法。


Toby老师通过其它集成树算法得到模型测试集结果如下,性能高于论文中随机森林性能。

accuracy on the training subset:0.992accuracy on the test subset:0.990test data:model accuracy is: 0.9899023985048282model precision is: 0.9325153374233128model sensitivity is: 0.28679245283018867f1_score: 0.4386724386724387AUC: 0.8726141962832263good classifiergini 0.7452283925664527ks value:0.5835


4.可视化内容不足


论文中有变量统计和模型可视化图片,如下图。

但作为研究生论文,描述性统计可视化较少,且模型可视化内容还可以强化。大家不要小看描述性统计,古人云知己知彼百战百胜。描述性统计类似情报收集环节。描述性统计做得越好,对模型理解越透彻。

Toby老师分享部分lendingclub数据集的描述性统计图片。

贷款额度的描述性统计和可视化

部分变量直方图

贷款金额

lendingclub平台给个人贷款金额大多在1万-2万美金,较高金额的贷款数量较少,此平台主要是小额贷为主。

贷款人收入水平


贷款人年收入,贷款等级,收入验证多因子分析

Toby老师模型的AUC动态可视化。

Toby老师模型的logloss动态可视化。

总结

《基于随机森林模型的个人信用风险评估研究》研究生论文写的非常不错,值得大家去学习。如果在模型验证加入更多指标,添加更多描述性统计内容,增加数据可视化,论文整体效果会更好。


风控建模课程

#

《基于随机森林模型的个人信用风险评估研究》论文复现和点评就为大家介绍到这里。欢迎各位同学报名<python金融风控评分卡模型和数据分析微专业课>,课程提供专业评分卡模型,集成树模型,分类器和回归模型,描述性统计,变量选择,衍生变量,智能调参,风控业务等知识,有助于各位学员提升模型竞赛的分数。如果大家以后期望在金融行业工作,下述课程也会带来很多帮助,节省大量自我探索时间。微信二维码扫一扫收藏课程。




商务联系

#

如果你需要建模项目定制服务,例如研究生,博士生论文,企业建模需求,我们公司提供一对一机器学习模型定制服务,提供公司正规发票和合同。

商务联系QQ:231469242,微信:drug666123,或扫描下面二维码加微信咨询。

QQ学习群:1026993837,免费领取200G学习资料。


python风控模型
金融风控领域企业科研,论文核心期刊,专利,毕业设计建模定制服务,商务联系QQ:231469242
 最新文章