Home Credit捷信数据集个人信贷违约风险预测_探索性数据分析

财富科技 2024-11-22 11:50 重庆

HomeCredit成立于1997年，公司总部在荷兰的阿姆斯特丹，2019年统计在职职工有11万人。捷信是一家国际消费金融提供商，业务遍及9个国家。捷信专注于向信用记录很少或没有信用记录的人提供负责任的贷款。相比传统银行的抵押贷款，捷信贷款服务简单、方便、快捷。

本集团的主要股东为私人控股国际投资集团PPF，其创始人及主要受益人为Petr Kellner，持股88.62%。

Petr Kellner（1964 年 5 月 20 日至 2021 年 3 月 27 日）是捷克亿万富翁企业家，PPF 集团的创始人和大股东（98.93%）。

捷信官网：https://www.homecredit.net/

捷信官方描述如下
We offer our customers point-of-sale (POS) loans, cash loans and revolving loan products through our online and physical distribution network. Customers typically start with our point-of-sale financing in stores. Reliable customers can then adopt broader consumer credit products and ultimately we progress to providing fully fledged branch-based consumer lending.
作者翻译和总结一下
捷信提供商品款、现金贷和循环贷款产品。现金贷主要是线上贷款，即通过手机APP就可申请贷款，和国内借呗，微粒贷类似。商品贷走线下。

9国业务

捷信业务遍及9个国家，捷克，包括中国，印度，俄罗斯，菲律宾，哈萨克斯坦，印度尼西亚，越南，斯洛文尼亚。

业务辉煌

捷信在中国业务辉煌在2017-2019年。捷信在线下不断扩张，商品贷网点数量到近30万个，2017年捷信集团内部统计员工接近10万人。2017年末，捷信放款破1000亿元，总资产规模达879亿。捷信是中国消费金融老大哥，圈内无人不知。

假设您是一名银行家，您的工作是决定您的银行是否应该接受或拒绝贷款申请。要做出决定，您可能需要检查有关申请人的一些个人和银行数据，例如年收入、年金或优惠价格。
现在假设有122 个客户，您有每个申请人的个人和银行数据。您确定可以利用所有这些数据做出正确的决定吗？如果不能！可以参考机器学习模型预测结果。

在这篇 3 系列文章中，我将以捷信home credit数据集为例，与您分享创建和评估模型的分步指南，以预测每个申请人偿还贷款的能力。

本主题将分为 3 篇文章

这是分解home credit捷信违约风险预测的 3 篇系列文章中的第一篇：
- 第 1 部分：探索性数据分析
- 第 2 部分：特征工程和模型训练
- 第 3 部分：模型可解释性

库导入

以下是我们将用于此用例的库：

%matplotlib inlineimport pandas as pd import numpy as np
import matplotlib.pyplot as pltimport seaborn as sns
import warningspd.set_option("display.max_rows",100)  pd.set_option("display.max_columns",None)warnings.filterwarnings('ignore')

关于“Home Credit Default Risk”数据集

我们将使用“Home Credit Default Risk”数据集来设计我们的模型。“Home Credit Default Risk”数据集是著名的 Kaggle 数据集，提供了有关数千名贷款申请人的匿名银行和个人特征。

主表“application_train.csv”为 307511 名申请人提供了 122 个银行和个人特征。

表“HomeCredit_columns_description.csv”中给出了有关每个功能的说明

1.数据加载

让我们从加载数据集主表的数据开始。Pandas 将是我们处理结构化数据（如“Home Credit Default Risk”数据集）的最佳选择。让我们使用 read_csv 方法

pd.read_csv("./dataset/HomeCredit_columns_description.csv", encoding_errors='ignore', index_col=[0])

2. 探索性数据分析

在深入研究特征工程和机器学习模型训练之前，让我们看一下数据集。

2.1 变量类型

定量变量

定量变量是数值变量：计数、百分比或数字。当对它们应用算术运算时，这些值必须具有意义。AMT_INCOME_TOTAL、AMT_GOODS_PRICE、CNT_FAM_MEMBERS 是数据集定量变量的一些示例。

定性变量

这些都是非定量变量。它们也称为分类变量。它描述了适合类别的数据。NAME_CONTRACT_TYPE、CODE_GENDER、NAME_FAMILY_STATUS 是数据集定性变量的一些示例。

变量类型分布

可以使用 Pandas 中的饼图来可视化变量类型分布。

dataset_df.dtypes.value_counts().plot(kind="pie", shadow=True, title="Variables types distribution", figsize=(12,10), autopct="%1.1f%%")

在表中的 122 列中，106 列是数字类型，16 列是分类类型。

由于有很多列，我们将尝试对其进行总结：

SK_ID_CURR：贷款请求的标识符。
目标：我们要预测的变量。1 表示贷款遇到支付困难（根据信贷机构定义的标准），否则为 0。
申请人个人信息栏：如性别（GENDER）、年龄（DAYS_BIRTH）等
申请人家庭情况栏：婚姻状况（NAME_FAMILY_STATUS）、子女数量（CNT_FAM_MEMBERS）等
申请人资产栏：是否拥有汽车、是否拥有房屋等
申请人职业情况栏目：收入类型、工资、工作日等
贷款特征栏：贷款总额、还款额、导致贷款的房产价格
非常详细的申请者所在楼宇信息：包括电梯数量、楼层数、楼龄
行政信息：申请人是否输入了他的电话号码，输入了他的电子邮件，完成了某些文件等。
来自外部来源的分数：我们将看到我们将不得不对其列做出选择
其他不可分类的列：以前的请求数量，如果客户在他居住的同一个城市工作等

这是很多数据！

我们可以注意到，与客户所居住的建筑物有关的列填充得最少，而且它们很多。我们只想选择最相关的，如果有的话。

2.2 目标变量分布

在机器学习上下文中，“目标变量”是其值将由其他变量建模和预测的变量。它应该是机器学习模型的输出变量。对于“Home Credit Default Risk”数据集，TARGET 是目标变量。TARGET 对于所有已偿还贷款的申请人为 0，对于未偿还贷款的申请人为 1。

让我们使用饼图可视化目标变量分布。

重要提示：数据集高度不平衡。近 92% 的贷款申请人偿还了贷款。非平衡数据是风控建模的一大特点和难点。

2.3 单变量数据分析

在这里，我们将尝试了解数据集中一些相关特征的分布。“单变量”意味着我们将分别分析每个特征。

让我们分析这些直方图：我们可以注意到一些“奇怪”但不是异常值：

CNT_CHILDREN(number of children)：这个变量的最大值是19，这是可能的
AMT_ANNUITY : 这个变量的最大值是 258,000$ 这确实很高但并非不可能
AMT_INCOME_TOTAL（代表客户的年收入）：其最大值为117,000,000，这是巨大的但并非不可能。但我们可以想知道为什么有这样收入的人会申请贷款。

列有异常值：

DAYS_EMPLOYED（客户在申请贷款时工作的天数）。它是负数，因为它可能是日期差异的结果（工作开始的日期 - 贷款申请的日期）。因此，正值在这里是异常值（除非雇佣合同的开始日期晚于请求的日期）。我们的行数非常多，值为 365243。

我们将在数据清理期间管理这些“奇怪”的列。

2.4 双变量数据分析

“双变量”意味着我们将分析特征对之间的关系。例如，这里我们将分析目标变量与数据集的一些相关特征之间的关系。

对于数值特征，显示与目标变量的相关
性 - 负相关意味着特征增加得越多，偿还贷款的概率就越低（因此这是客户希望改进的特征）。
- 对于特征EXT_SOURCE_1、EXT_SOURCE_2、EXT_SOURCE_3以及DAYS_BIRTH，它们越高，偿还贷款的概率越低。
对于分类变量：
- 女性和已婚人士比其他人更难偿还贷款。
- 拥有汽车的人更有可能偿还贷款。
- 拥有自己房屋的人更有可能不退还贷款

2.5数据缺失率

现在，让我们检查数据集中缺少多少数据。

我们可以清楚地注意到，与居住地相关的特征是缺失数据最多的特征。这是关于特征选择步骤的重要通知。

缺失值占数据集的 24.4%

3.数据清洗

3.1 异常值检测与清洗

机器学习数据集有时可能包含一些“分布外”或极端值。这意味着某些特征值高于或低于预期值。这些值称为异常值。检测和去除异常值是重要的一步，因为它有助于提高机器学习模型的性能

由于我们有很多特征，我们应该开发一个基于四分位距的自动异常值检测程序。请记住，如果特征分布是正常的，这种方法效果很好，而我们的许多特征就不是这种情况，它们往往是偏斜的。

因此，在使用四分位距方法之前，我们应用了一个变换，使我们的分布更加“正常”：
- log(x + 1) 如果特征是正偏态
- x² 如果特征是负偏态

现在，让我们使用我们的自动程序获取异常值建议

带有红色背景标题的直方图对应于异常值率非常高的特征：它们需要人工监督，以确保正常值不会被检测为异常值。
带有粉红色背景标题的直方图对应于具有合理异常值率的特征；对于这些特征，异常值通常只是分布外的值，因此我们可以用最接近的合理值替换它们。我们将在估算阶段进行管理。
绿色虚线是我们使用四分位距法得到的合理区间建议。

完成。我们用 NaN 替换了数据集中的所有异常值。这就是我们将缺失值率提高 0.14% 的原因

3.2 缺失值插补

我们现在将继续我们的数值列的插补：根据我们选择的插补策略，用一些值替换缺失值（NaN 值）。

在这里，我们将执行迭代插补（在sklearn中实现）。根据您的硬件插补可能需要几分钟现在，让我们可视化插补前后的缺失数据

出色地！我们的插补似乎是有效的，因为我们现在的缺失值比以前少了。

我们为数值变量估算值，但是分类变量呢？在本系列的下一篇文章中，我们将在对分类变量进行编码时关注这个问题。

4. 数据保存

在结束这部分工作之前，让我们将清理后的数据集保存在 csv 文件中

结论

在 3 部分系列的第一篇文章中，我们专注于探索、分析和清理我们的数据集。孙子兵法-知人知己百战不殆。数据分析和探索是数据科学项目中非常重要的一步。它可以帮助数据科学家在创建机器学习模型之前拥有良好的数据。如果数据不佳，数据科学模型的表现会很差。这就是我们风控人的行话Garbage In Garbage Out“垃圾进垃圾出”。

在下一篇文章中，我们将准备数据集并训练机器学习模型来预测每个申请人的风险违约概率。

风控建模课程

《基于随机森林模型的个人信用风险评估研究》论文复现和点评就为大家介绍到这里。欢迎各位同学报名<python金融风控评分卡模型和数据分析微专业课>，课程提供专业评分卡模型，集成树模型，分类器和回归模型，描述性统计，变量选择，衍生变量，智能调参，风控业务等知识，有助于各位学员提升模型竞赛的分数。如果大家以后期望在金融行业工作，下述课程也会带来很多帮助，节省大量自我探索时间。微信二维码扫一扫收藏课程。

商务联系

如果你需要建模项目定制服务，例如研究生，博士生论文，企业建模需求，我们公司提供一对一机器学习模型定制服务，提供公司正规发票和合同。

商务联系QQ：231469242，微信：drug666123，或扫描下面二维码加微信咨询。

QQ学习群：1026993837，免费领取200G学习资料。

http://mp.weixin.qq.com/s?__biz=MzU2MjczMTU0OA==&mid=2247499162&idx=2&sn=692439d5c27bbe29136de36d5e84562b

python风控模型

金融风控领域企业科研，论文核心期刊，专利，毕业设计建模定制服务，商务联系QQ：231469242

最新文章

金融类13个存在风险期刊！投稿要谨慎！

中国版巴塞尔协议Ⅲ《商业银行资本管理办法》

论文复现《基于Logistic模型的汽车金融公司个人贷款信用评分研究》

金融风控系列课大全

论文期刊分类一图读懂

Home Credit捷信数据集个人信贷违约风险预测_探索性数据分析

论文评审《基于随机森林模型的个人信用风险评估研究》

python信用评分卡建模（附代码）2024年版

学术期刊3个黑名单！

论文复现《基于Logistic模型的汽车金融公司个人贷款信用评分研究》

金融风控期刊全攻略：10指标严把质量关，附实战案例《QUANTITATIVE FINANCE》

论文评审《基于随机森林模型的个人信用风险评估研究》

谷歌2024博士奖学金公布，华人学者大放异彩

银行面试-风控贷后策略数据分析岗位，附面试题

python信用评分卡建模（附代码）2024年版

灌水神刊《Heliyon》On hold！学术水军天塌了

金融信用风险建模完整指南

逻辑回归变量系数可为负数吗？应该如何解释？

互联网借贷产品和利息汇总-互联网的尽头是放贷

逻辑回归-逐步回归（stepwise regression）的利弊分析

免费和收费外部数据源汇总

银行面试-风险政策和风险模型岗位区别？附广大银行和苏州银行招聘参考案例

银行面试-风险政策和风险模型岗位区别？

风控中英文术语手册(银行_消费金融信贷业务)_v11

开箱点评！2024年四川省大学生数据科学与统计建模竞赛（算法赛）-基于新网银行数据集

金融风控系列课大全

报名了，奖金6万！2024年四川省大学生数据科学与统计建模竞赛（算法赛）-基于新网银行数据集

中国建设银行2023年风控模型竞赛！金融大数据应用-企业信贷风险防控

基于“三农”（农业、农村、农民）信贷风险预测模型

金融风控实战-Python信用评分卡建模全流程！（万字阐述，收藏）

金融风控系列课大全

巴塞尔协议（I,II ,III） - 意义、解释、历史、类型，确保金融系统的稳定性和安全性

金融信用风险建模完整指南

论文复现-基于Stacking融合模型的信用贷款违约预测的研究，以Give Me Some Credit数据集为例

论文专利AI实验数据库（含数据集和程序代码），10月重大更新

模型竞赛融合模型stacking16条经验总结和5个成功案例(互联网最全，硬核收藏)

论文福音！金融风控建模数据库10月重大升级，私有数据库查重无忧

芝麻信用分的核心变量和构建过程

手把手教你构建逻辑回归模型logistics regression

使用 D-Tale高效探索 Pandas DataFrame

python信用评分卡建模（附代码）2024年版

统计学_生存分析/Weibull Distribution韦布尔分布（python代码实现）

论文复现-基于决策树算法构建银行贷款审批预测模型（金融风控场景）

洛伦兹曲线（Lorenz curve）-揭秘贫富差异原因（Python代码实现）

python金融风控评分卡模型和数据分析(加强版)_2024年版_论文专利企业建模

Python数据科学和模型交流群

论文解析_客户分组对商业银行个人信用评分模型的提升作用研究，作者张亚京-中国人民银行征信中心博士后工作站

金融风控模型专利_论文定制服务

标准误(Standard Error)的蒙特卡洛模拟

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉