论文解析_客户分组对商业银行个人信用评分模型的提升作用研究，作者张亚京-中国人民银行征信中心博士后工作站

财富财经 2024-09-25 10:00 重庆

大家好，我是Toby老师，之前发布过文章《银行客户分群模型-customer segmentation model-更好提升模型预测能力》。今天会为大家解析一篇客户分群论文。

经典分组模型论文

2021年有篇经典论文《客户分组对商业银行个人信用评分模型的提升作用研究》发布。其作者在中国人民银行征信中心博士后工作站工作，发布过多篇金融风控相关论文，在此论文有较深研究，其论文有一定深度。各位学员可以多关注和学习。

下面我简单解析一下论文经典地方。作者将总体样本进行分组，再对分组后的每个客群单独构建信用评分模型。作者采用 CART 决策树、模糊 C 均值聚类两种方法对样本数据中全部借款人进行客户分组，再对分组后的每个客群进行 WOE（Weight ofEvidence）数值转换和逻辑回归信用评分模型的构建，并采用模型性能指标AUC（Area Under Curve）、KS（Kolmogorov-Smirnov）进行模型对比，分析分组对于模型精度的影响，并比较无监督学习与有监督学习在分组模型中的优劣。

分组模型意义

实际建模中，很多建模人员往往只重视机器学习技术，算法本身，试图从多算法比较，调参来提高模型性能，而忽略了如何从业务方面提升模型性能。

市场细分是知识营销最重要的领域之一。在银行中，这确实是一项具有挑战性的任务，因为数据库庞大且多维。

分组在我们专业领域也可以称为分群。客户分组是信用评分模型开发的重要一环，即根据客户特点将样本划分为不同客群，再针对每个客群构建信用评分卡。相较于直接使用全样本构建的单一信用评分模型，分组后构建的信用评分模型可能在一定程度上提升评分模型的准确率。

数据选择和划分

作者选取美国网络借贷平台 Prosper 的个人贷款数据集，样本时间跨度为2011年7月至2014年 7 月，共 71 817 个样本。作者抽取 80%的样本为训练集，20%的样本为测试集，如表1所示。将逾期90天以上的样本作为违约坏客户，令 y=1；其余为好客户，令y=0。Prosper数据集之前Toby老师有发文章介绍《美国真正的p2p鼻祖-PROSPER金融科技公司-理想风控建模数据集》。金融领域很多人长期把lendingclub当成美国p2p鼻祖。真相是Prosper公司才是美国真正意义上p2p鼻祖。lendingclub只是名气更大，让人产生错觉。Prosper Marketplace, Inc.是一家位于加利福尼亚州旧金山的金融服务公司。Prosper Funding LLC 是其子公司之一，运营着 Prosper.com，这是一个个人可以申请借钱、开信用卡或投资个人贷款的网站。

Prosper数据集在我们公司《Python风控建模实战案例数据库》里可以找到，微信扫二维码收藏。

CART分类（有监督学习）

作者用CART模型把客户分为4组结果。参数选择上，作者用基尼系数评估变量重要性，叶子节点最小样本数min_sample设为5000，depth深度设为3。

CART（Classification and Regression Trees）模型是一种决策树学习技术，用于分类和回归任务。CART模型通过递归地将数据集分割成越来越小的组（或节点），每个组内的样本在目标变量上具有高度的相似性。

Toby老师补充一下CART更多细节，CART使用基尼不纯度（Gini impurity）或交叉熵作为分割标准。在回归问题中，CART使用均方误差（MSE）作为分割标准。CART通常使用成本复杂度剪枝（cost-complexity pruning），这是一种在构建树之后进行的剪枝方法，旨在优化模型的泛化能力。

'''在这段代码中，我们使用了鸢尾花（Iris）数据集来训练和测试CART模型。我们创建了一个DecisionTreeClassifier对象，并指定了使用基尼不纯度（Gini index）作为分割标准。然后，我们训练模型并预测测试集，最后计算了模型的准确率。'''from sklearn.tree import DecisionTreeClassifierfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_score
# 加载数据集iris = load_iris()X = iris.datay = iris.target
# 划分训练集和测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 创建CART模型cart_model = DecisionTreeClassifier(criterion='gini', random_state=42)
# 训练模型cart_model.fit(X_train, y_train)
# 预测测试集y_pred = cart_model.predict(X_test)
# 计算准确率accuracy = accuracy_score(y_test, y_pred)print(f'Accuracy: {accuracy:.4f}')

模糊聚类Fuzzy Clustering（无监督学习）

作者使用模糊聚类方法，把数据集分为5组客群。提醒一下，模糊聚类之前，需要将数据进行归一化，本文采用“最大值最小值”方法将数据转化为 0 到 1 之间。

下图是作者采用模糊聚类（Fuzzy Clustering）后坏客户占比和样本比例。

实验结果来看，模糊聚类在测试集的AUC略高于cart算法，accuracy稍差。

模糊聚类（Fuzzy Clustering）是一种统计方法，用于将数据集中的样本划分为多个类别或簇，同时考虑到样本可能属于多个类别的程度。这种方法特别适用于处理具有不确定性或模糊性的分类问题。

基本原理

模糊聚类的核心思想是使用模糊集合理论来描述样本与类别之间的关系。在模糊聚类中，每个样本对于每个类别都有一个隶属度，表示样本属于该类别的程度。隶属度的取值范围在0到1之间，1表示完全属于该类别，0表示完全不属于。

常见算法

模糊C均值聚类（Fuzzy C-Means, FCM）：

这是最常用的模糊聚类算法之一。它通过迭代优化一个目标函数来确定样本的隶属度和类别中心。算法的目标是最小化样本与类别中心之间的加权距离的平方和。作者论文中使用的就是此方法。

模糊C中心聚类（Fuzzy C-Centroid）：

与FCM类似，但更侧重于类别中心的确定。

模糊C均值聚类算法的改进版本：

包括模糊C均值聚类算法的多种改进版本，如模糊C均值聚类算法的改进版本，它们通过引入不同的距离度量、隶属度函数或优化策略来提高聚类性能 .

Python：使用scikit-fuzzy库可以实现模糊聚类（Fuzzy Clustering）

'''pip install scikit-fuzzy在这段代码中，我们首先生成了一些随机数据作为示例。然后，我们定义了模糊聚类的参数，包括聚类个数、隶属度的幂指数、误差阈值和最大迭代次数。接着，我们使用cluster.cmeans函数执行模糊C均值聚类，并绘制了聚类结果。请注意，这个示例代码提供了一个基本的框架，你可能需要根据实际的数据集和问题进行调整。此外，你可以尝试不同的参数（如n_clusters和m）来观察聚类效果的变化。'''import numpy as npimport matplotlib.pyplot as pltfrom skfuzzy import cluster
# 创建一些随机数据data = np.random.rand(100, 2)
# 定义模糊聚类的参数n_clusters = 3  # 聚类个数m = 2  # 隶属度的幂指数error = 0.005  # 误差阈值maxiter = 1000  # 最大迭代次数
# 执行模糊C均值聚类cntr, u, u0, d, jm, p, fpc = cluster.cmeans(data, n_clusters, m, error=error, maxiter=maxiter, init=None)
# 绘制聚类结果plt.scatter(data[:, 0], data[:, 1], c=p[:, 0], cmap='viridis', edgecolor='k', s=50, alpha=0.5)plt.scatter(cntr[:, 0], cntr[:, 1], c='red', s=200, edgecolor='k', marker='x')  # 聚类中心plt.title('Fuzzy C-Means Clustering')plt.xlabel('Feature 1')plt.ylabel('Feature 2')plt.show()

实战中分群模型更复杂

上述论文《客户分组对商业银行个人信用评分模型的提升作用研究》只给我们展示了部分实验数据，并没有显示所有数据。实战中分群模型更复杂，分群模型并不一定能提升模型性能。有时候可以，有时候反而更低。这取决于分类方法，变量选择和数据分布。

样本分群后，也不意味着每个分群子模型性能都能得到提高。Toby老师在分群模型实验中发现，部分分群子模型性能可以提高，其它子模型会降低。

在大量实验中，有监督学习的模型效果会明显高于无监督学习模型，此论文的结论不一定适用于其它数据集，泛化能力有待进一步验证。

金融风控相关课程

《客户分组对商业银行个人信用评分模型的提升作用研究》论文解析就为大家介绍到这里。如果大家感兴趣，欢迎关注《python金融风控评分卡模型和数据分析(加强版)》，学习更多系统化风控建模内容。扫一扫下面二维码点击收藏，以备之后工作和学习使用。

专利_论文建模定制服务

重庆未来之智信息技术咨询服务有限公司专业从事AI机器学习建模，为国内外多家金融公司建立模型。公司客户包括国内诸多金融机构，银行，证券公司，科研所。

同时我们也为科研高端人群提供专利，论文定制服务，例如研究生，博士生，导师涉及的毕业论文，申博论文，中文核心期刊，CCF，EI会议。

专利，论文定制服务项目提供发票，合同，流程全齐。

如果你有专利，论文定制服务需求，请商务联系QQ：231469242，微信：drug666123，或扫描下面二维码加微信咨询。

金融风控领域，我们是专业的！

http://mp.weixin.qq.com/s?__biz=MzU2MjczMTU0OA==&mid=2247498454&idx=1&sn=56c6d892a15aafec6bc5a367da9e831c

python风控模型

金融风控领域企业科研，论文核心期刊，专利，毕业设计建模定制服务，商务联系QQ：231469242

最新文章

谷歌2024博士奖学金公布，华人学者大放异彩

银行面试-风控贷后策略数据分析岗位，附面试题

python信用评分卡建模（附代码）2024年版

灌水神刊《Heliyon》On hold！学术水军天塌了

金融信用风险建模完整指南

逻辑回归变量系数可为负数吗？应该如何解释？

互联网借贷产品和利息汇总-互联网的尽头是放贷

逻辑回归-逐步回归（stepwise regression）的利弊分析

免费和收费外部数据源汇总

银行面试-风险政策和风险模型岗位区别？附广大银行和苏州银行招聘参考案例

银行面试-风险政策和风险模型岗位区别？

风控中英文术语手册(银行_消费金融信贷业务)_v11

开箱点评！2024年四川省大学生数据科学与统计建模竞赛（算法赛）-基于新网银行数据集

金融风控系列课大全

报名了，奖金6万！2024年四川省大学生数据科学与统计建模竞赛（算法赛）-基于新网银行数据集

中国建设银行2023年风控模型竞赛！金融大数据应用-企业信贷风险防控

基于“三农”（农业、农村、农民）信贷风险预测模型

金融风控实战-Python信用评分卡建模全流程！（万字阐述，收藏）

金融风控系列课大全

巴塞尔协议（I,II ,III） - 意义、解释、历史、类型，确保金融系统的稳定性和安全性

金融信用风险建模完整指南

论文复现-基于Stacking融合模型的信用贷款违约预测的研究，以Give Me Some Credit数据集为例

论文专利AI实验数据库（含数据集和程序代码），10月重大更新

模型竞赛融合模型stacking16条经验总结和5个成功案例(互联网最全，硬核收藏)

论文福音！金融风控建模数据库10月重大升级，私有数据库查重无忧

芝麻信用分的核心变量和构建过程

手把手教你构建逻辑回归模型logistics regression

使用 D-Tale高效探索 Pandas DataFrame

python信用评分卡建模（附代码）2024年版

统计学_生存分析/Weibull Distribution韦布尔分布（python代码实现）

论文复现-基于决策树算法构建银行贷款审批预测模型（金融风控场景）

洛伦兹曲线（Lorenz curve）-揭秘贫富差异原因（Python代码实现）

python金融风控评分卡模型和数据分析(加强版)_2024年版_论文专利企业建模

Python数据科学和模型交流群

论文解析_客户分组对商业银行个人信用评分模型的提升作用研究，作者张亚京-中国人民银行征信中心博士后工作站

金融风控模型专利_论文定制服务

标准误(Standard Error)的蒙特卡洛模拟

python金融风控评分卡模型和数据分析(加强版)_2024年版_论文专利企业建模

Python数据科学和模型交流群

论文解析_客户分组对商业银行个人信用评分模型的提升作用研究，作者张亚京-中国人民银行征信中心博士后工作站

金融风控模型专利_论文定制服务

PandasGUI | python可视化GUI 神器

呆瓜半小时入门python数据分析

轻松一刻，python乌龟绘图-小猪佩奇，可爱乌龟，新冠病毒

热烈庆祝我司被评为重庆市科技型企业！

滚动率分析（Roll Rate Analysis）

Precision-Recall (PR) 曲线（附代码）-金融风控模型核心指标

2023年金融科技建模大赛（初赛）开箱点评

python金融风控评分卡模型和数据分析(加强版)_2024年版_论文专利企业建模

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉