【视频讲解】数据挖掘实战：Python金融贷款模型分类潜在贷款客户|数据分享

科技科技 2024-08-28 15:45 浙江

全文链接：https://tecdat.cn/?p=37521

分析师：Hengtao Fan

模型的存在依托于这样一个事实：基于概率的决策乃是最优之选。将概率转化为评分，能够便于对齐风险。而评分则是通过统计的方法来识别潜在客户，进而判断客户是否合乎心意。（点击文末“阅读原文”获取完整代码数据）。

讲解视频

这里的 “合意” 由我们预先定义，可以涵盖诸如风险、收益率、响应率、续借意愿、违约后的偿还意愿等等诸多方面。

实际上，在业务的一系列环节中均可采用模型方案。当我们谈及风控中有哪些模型可做时，也就相当于在变相探讨业务上有哪些环节能够进行精细化决策。

在金融信贷领域，授信、定价等产品信息会直接左右客户是否选择用信。此外，客户自身的需求程度、竞品授信定价信息、自身经济能力、家庭环境等因素也都会对用信行为产生影响。对于放贷机构而言，在授信额度 / 定价处于允许范围内时（例如额度越高，风险也会相应升高），期望能够提高整体用信率，从而扩大业务规模。如此一来，如果能够提前预测出用户的用信概率，便可以将其用于指导运营活动和授信定价策略，以促进业务的增长。

在这个项目中，我们对如何使用分类模型来分辨客户是否会贷款进行了深入分析。

一、贷款对银行的重要性

贷款对于银行维持业务至关重要。为什么呢？因为货币是银行的产品！银行的主要业务包括吸收存款和发放贷款。存款人和贷款人分别与银行形成特定的关系。

存款人将资金存入银行，银行支付一定的利息（例如 3%）。而贷款人从银行获得贷款，并支付更高的利息（例如 8%）。银行通过这种利息差获取利润。

二、识别银行客户的重要性

（一）有贷款需求的客户
给予更多时间来促成贷款，以获得更有效的客户，增加市场竞争力。

（二）无贷款需求的客户
优先联系以确保时效性，但无需投入过多精力。此类客户价值较低且缺乏竞争力，不确定性较高，应最后联系以减少损失。

三、项目的必要性

对于任何企业来说，创造收入都是至关重要的。银行也是如此，发放贷款是银行获取收入的最重要方式之一。银行需要快速识别有贷款需求的用户，以便确定客户是否会贷款，同时考虑客户属性、贷款属性、联系属性以及社会和经济属性等因素，从而为银行创造收入。

四、业务问题及预期结果

（一）业务问题
准确识别有贷款需求的客户是关键问题。影响因素包括客户违约历史、家庭贷款历史、个人贷款历史、就业环境等。目前，识别有贷款需求客户的比例为 30%，期望未来能达到 90% 以上。

（二）预期结果
期望通过本项目能够识别更多有贷款需求的客户，为银行带来更多收入。

五、分析方法

关键问题是将每个观察对象（客户）分类为两类（会贷款 / 不会贷款）之一，这是一个二元分类问题。采用逻辑回归和决策树两种方法进行分析。

逻辑回归模型：。
决策树：从根节点开始，根据条件进行分支，最终到达叶节点，每个叶节点代表一个分类结果。

两种方法都是为了将每个观察对象准确分类。

六、数据筛选与描述

在建模之前，需要选择满足逻辑回归和决策树数据要求的数据。本项目中，银行特别关注客户属性、贷款属性和宏观环境是否会影响客户的贷款需求。例如，在经济衰退时期，客户更有可能贷款。通过比较箱线图确定相关性，选择相关性高的特征。

七、分析计划

（一）模型构建

数据转换：

本数据集无空值。
平衡数据。
对一些连续特征进行转换，使其值位于 0~1 区间，消除不同取值范围的影响。
将输出变量从 “是” 和 “否” 转换为 0 和 1。
将数据集分为训练集和测试集。

模型迭代与优化：

选择本项目中要使用的变量子集。
描述输出（分类）变量的分布（使用柱状图）。
报告连续输入变量的均值、中位数和标准差等值。

（二）结果（数据转换）
创建平衡的训练集和测试集，对连续变量进行单位转换，使其值位于 0~1 区间；对分类变量进行因子转换，去除 “未知” 属性；转换输出变量。经过数据平衡和去除未知数据后，若某个变量失去分类意义则将其去除。

八、建议

经济状况对银行贷款业务有至关重要的影响。从两种模型来看，在经济良好时，银行应尽可能多地联系客户（此时客户类型不重要）；在经济衰退时，应避免大规模寻找客户，而应寻找高净值、有贷款需求的个人，如已婚、高学历、无抵押贷款和个人贷款的人，因为他们违约的可能性较低。在经济繁荣时联系更多客户以获取更多利润，在经济低迷时联系更多优质客户，以实现项目目标：识别更多有贷款需求的客户并创造更多收入。

Python决策树、随机森林、朴素贝叶斯、KNN（K-最近邻居）分类分析银行拉新活动挖掘潜在贷款客户

项目背景：银行的主要盈利业务靠的是贷款，这些客户中的大多数是存款大小不等的责任客户（存款人）。银行拥有不断增长的客户，该银行希望增加借款人（资产客户），开展更多的贷款业务，并通过贷款利息赚取更多利润。因此，银行希望将负债的客户转换为个人贷款客户。（同时保留他们作为存款人）。该银行去年针对负债客户开展的一项活动显示，成功实现了9％以上的成功转化率。该部门希望建立一个模型，来帮助他们确定购买贷款可能性更高的潜在客户。可以增加成功率，同时降低成本。

相关视频

数据集

下面给出的文件包含5000个客户的数据（查看文末了解数据获取方式）。数据包括客户人口统计信息（年龄，收入等），客户与银行的关系（抵押，证券账户等）以及客户对上次个人贷款活动的因变量（个人贷款）。在这5000个客户中，只有480个（= 9.6％）接受了先前活动中提供给他们的个人贷款

data.head()

data.columns

属性信息

属性可以相应地划分：

变量 ID 一个人的客户ID与贷款之间没有关联，也无法为将来的潜在贷款客户提供任何一般性结论。我们可以忽略此信息进行模型预测。

二进制类别具有五个变量，如下所示：

个人贷款-该客户是否接受上一个广告系列提供的个人贷款？这是我们的目标变量
证券帐户-客户在银行是否有证券帐户？
CD帐户-客户在银行是否有存款证明（CD）帐户？
网上银行-客户是否使用网上银行？
信用卡-客户是否使用银行发行的信用卡？

数值变量如下：

年龄-客户的年龄
工作经验
收入-年收入（元）
CCAvg-平均信用卡消费
抵押-房屋抵押价值

有序分类变量是：

家庭-客户的家庭人数
教育程度-客户的教育程度

标称变量是：

ID
邮政编码

data.shape

data.info()

# 文件中没有列有空数据
data.apply(lambda x : sum(x.isnull()))

# 对数据进行目测
data.describe().transpose()

#查看有多少不同数据
data.apply(lambda x: len(x.unique()))

两两变量散点图

年龄特征通常是分布的，大多数客户年龄在30岁到60岁之间。
经验大多分布在8年以上经验的客户。这里的平均值等于中位数。有负数。这可能是数据输入错误，因为通常无法衡量负数的工作经验。我们可以删除这些值，因为样本中有3或4条记录。
收入出现正偏斜。大多数客户的收入在45,000到55K之间。我们可以通过说平均值大于中位数来确认这一点
CCAvg 也是一个正偏变量，平均支出在0K到10K之间，大多数支出不到2.5K
抵押 70％的人的抵押贷款少于4万。但是最大值为635K
家庭和教育变量是序数变量。家庭分布均匀

有52条记录经验为负数。在进一步进行之前，我们需要对这些记录进行清理

data\[data\['Experience'\] < 0\]\['Experience'\].count()

#清理负数变量
dfExp = data.loc\[data\['Experience'\] >0\]
data.loc\[negExp\]\['ID'\].tolist() # 得到有负数经验的客户ID

有52条负数经验的记录

以下代码执行以下步骤：

对于具有ID的记录，获取Age column的值
对于具有ID的记录，获取Education column的值
从具有正数经验的记录的数据框中过滤符合以上条件的记录，并取中位数
将中位数填充原本负数经验的位置

data.loc\[np.where(\['ID'\]==id)\]\["Education"\].tolist()\[0\]
df_filtered\['Experience'\].median()

# 检查是否有负数经验的记录
data\[data\['Experience'\] < 0\]\['Experience'\].count()

收入和教育对个人贷款的影响

boxplot(x='Education',y='Income',data=data)

观察：看来教育程度为1的客户收入更高。但是，接受了个人贷款的客户的收入水平相同

点击标题查阅往期内容

R语言基于决策树的银行信贷风险预警模型

左右滑动查看更多

推论：从上图可以看出，没有个人贷款的客户和拥有个人贷款的客户的抵押贷款较高。

观察：大多数没有贷款的客户都有证券账户

观察：家庭人数对个人贷款没有任何影响。但是似乎3岁的家庭更有可能借贷。考虑未来的推广活动时，这可能是一个很好的观察结果。

观察：没有CD帐户的客户，也没有贷款。这似乎占多数。但是几乎所有拥有CD帐户的客户也都有贷款

观察：该图显示有个人贷款的人的信用卡平均费用更高。平均信用卡消费中位数为3800元，表明个人贷款的可能性更高。较低的信用卡支出（中位数为1400元）不太可能获得贷款。这可能是有用的信息。

观察上图显示与经验和年龄呈正相关。随着经验的增加，年龄也会增加。颜色也显示教育程度。四十多岁之间存在差距，大学以下的人也更多

# 与热图的关联性

corr = data.corr()
plt.figure(figsize=(13,7))
# 创建一个掩码，以便我们只看到一次相关的值

a = sns.heatmap(corr,mask=mask, annot=True, fmt='.2f')

观察

收入和CCAvg呈中等相关。
年龄和工作经验高度相关

sns.boxplot

看下面的图，收入低于10万的家庭比高收入的家庭更不可能获得贷款。

应用模型

将数据分为训练集和测试集

train\_labels = train\_set
test\_labels = test\_set

决策树分类器

DecisionTreeClassifier(class_weight=None, criterion='entropy', ...)

dt_model.score

0.9773333333333334

dt\_model.predict(test\_set)

预测

array(\[0, 0, 0, 0, 0\])

查看测试集

test_set.head(5)

朴素贝叶斯

naive\_model.fit(train\_set, train_labels)
naive_model.score

0.8866666666666667

随机森林分类器

RandomForestClassifier(max\_depth=2, random\_state=0)

Importance.sort_values

randomforest\_model.score(test\_set,test_labels)

0.8993333333333333

KNN（K-最近邻居）

data.drop(\['Experience' ,'ID'\] , axis = 1).drop(labels= "PersonalLoan" , axis = 1)
train\_set\_dep = data\["PersonalLoan"\]

acc = accuracy\_score(Y\_Test, predicted)
print(acc)

0.9106070713809206

模型比较

for name, model in models:
    kfold = model\_selection.KFold(n\_splits=10)
    cv\_results = model\_selection.cross\_val\_score(model, X, y, cv, scoring)


# 箱线图算法的比较
plt.figure()

结论

通用银行的目的是将负债客户转变为贷款客户。他们想发起新的营销活动；因此，他们需要有关数据中给出的变量之间的有联系的信息。本研究使用了四种分类算法。从上图可以看出，随机森林 算法似乎具有最高的精度，我们可以选择它作为最终模型。

数据获取

在下面公众号后台回复“银行数据”，可获取完整数据。

点击文末“阅读原文”

获取全文完整资料。

本文选自《Python决策树、随机森林、朴素贝叶斯、KNN（K-最近邻居）分类分析银行拉新活动挖掘潜在贷款客户》。

点击标题查阅往期内容

PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享

用PyTorch机器学习神经网络分类预测银行客户流失模型

R语言用FNN-LSTM假近邻长短期记忆人工神经网络模型进行时间序列深度学习预测4个案例

Python中TensorFlow的长短期记忆神经网络(LSTM)、指数移动平均法预测股票市场和可视化

R语言KERAS用RNN、双向RNNS递归神经网络、LSTM分析预测温度时间序列、 IMDB电影评分情感

Python用Keras神经网络序列模型回归拟合预测、准确度检查和结果可视化

Python用LSTM长短期记忆神经网络对不稳定降雨量时间序列进行预测分析

R语言中的神经网络预测时间序列：多层感知器（MLP）和极限学习机（ELM）数据分析报告

R语言深度学习：用keras神经网络回归模型预测时间序列数据

Matlab用深度学习长短期记忆（LSTM）神经网络对文本数据进行分类

R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据（MNIST）

MATLAB中用BP神经网络预测人体脂肪百分比数据

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

R语言实现CNN（卷积神经网络）模型进行回归数据分析

Python使用神经网络进行简单文本分类

R语言用神经网络改进Nelson-Siegel模型拟合收益率曲线分析

R语言基于递归神经网络RNN的温度时间序列预测

R语言神经网络模型预测车辆数量时间序列

R语言中的BP神经网络模型分析学生成绩

matlab使用长短期记忆（LSTM）神经网络对序列数据进行分类

R语言实现拟合神经网络预测和结果可视化

用R语言实现神经网络预测股票实例

使用PYTHON中KERAS的LSTM递归神经网络进行时间序列预测

python用于NLP的seq2seq模型实例:用Keras实现神经网络机器翻译

用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类

http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247545772&idx=1&sn=f58e4c739c421ad4d248d01a9ad518e7

拓端数据部落

拓端(tecdat.cn)创立于2016年，提供专业的数据分析与挖掘服务，致力于充分挖掘数据价值。

【专题】2024年8月数字化、数智化行业报告合集汇总PDF分享（附原数据表）

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言社区发现算法检测心理学复杂网络：spinglass、探索性图分析walktrap算法与可视化

matlab使用长短期记忆（LSTM）神经网络对序列数据进行分类

数据分享|逻辑回归、随机森林、SVM支持向量机预测心脏病风险数据和模型诊断可视化

【专题】2023年中国仿生机器人产业全景报告PDF合集分享（附原数据表）

R语言对巨灾风险下的再保险合同定价研究案例：广义线性模型和帕累托分布Pareto distributions分析

数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

【专题】2024年中国折叠屏手机市场与消费趋势研究报告合集PDF分享（附原数据表）

PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像

R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

分解商业周期时间序列：线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法

隐马尔可夫模型(HMM)识别不断变化的股市状况股票指数预测实战

Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化

Python用 tslearn 进行时间序列聚类可视化

Python用MarkovRNN马尔可夫递归神经网络建模序列数据t-SNE可视化研究

【专题】2024飞行汽车技术全景报告合集PDF分享（附原数据表）

PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像

共享单车数据可视化分析|附代码数据

【专题】2024年8月中国企业跨境、出海、国际化、全球化行业报告汇总PDF合集分享（附原数据表）

【专题】2023中国新母婴人群研究报告PDF合集分享（附原数据表）

【专题】2024年企业数字化人才实践研究报告合集PDF分享（附原数据表）

【专题】全球商用服务机器人市场研究(2023)报告合集PDF分享（附原数据表）

R语言中贝叶斯网络（BN）、动态贝叶斯网络、线性模型分析错颌畸形数据

【专题】2024年8月医药行业报告合集汇总PDF分享（附原数据表）

数据分享|R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据

MATLAB中的马尔可夫区制转移(Markov regime switching)模型

R语言广义相加（加性）模型（GAMs）与光滑函数可视化

MATLAB中用BP神经网络预测人体脂肪百分比数据

R语言自然语言处理（NLP）：情感分析新闻文本数据

【专题】医疗AI行业研究报告PDF合集分享（附原数据表）

【视频讲解】Python贝叶斯卷积神经网络分类胸部X光图像数据集实例

【专题】2024年8月人工智能AI行业报告合集汇总PDF分享（附原数据表）

R语言ARMA-GARCH模型金融产品价格实证分析黄金价格时间序列

R语言贝叶斯METROPOLIS-HASTINGS GIBBS 吉布斯采样器估计变点指数分布分析泊松过程车站等待时间

R语言Apriori算法关联规则对中药用药复方配伍规律药方挖掘可视化

餐饮业的数字化突围：价格战下的转型与新生

【专题】2023年中国仿生机器人产业全景报告PDF合集分享（附原数据表）

R语言结构方程SEM中的power analysis 效能检验分析

Matlab马尔可夫链蒙特卡罗法（MCMC）估计随机波动率（SV，Stochastic Volatility）模型

【专题】2024年8月中国企业跨境、出海、国际化、全球化行业报告汇总PDF合集分享（附原数据表）

R语言时间序列：ARIMA / GARCH模型的交易策略在外汇市场预测应用

POT超阈值模型和极值理论EVT分析

R语言有极值（EVT）依赖结构的马尔可夫链(MC)对洪水极值分析

R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析

R语言分位数回归预测筛选有上升潜力的股票

灰色关联分析(Grey Relation Analysis,GRA)中国经济社会发展指标

Python复杂网络社区检测：并行谱聚类算法设计与多种算法应用实战研究

【专题】2024年中国游戏出海洞察报告合集PDF分享（附原数据表）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉