首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

使用SAS EnterpriseMiner进行数据挖掘：信用评分构建记分卡模型

科技科技 2025-01-16 22:25 浙江

原文链接：http://tecdat.cn/?p=3348

信用记分卡一直是信用评分的标准模型，因为它们易于理解，使您能够轻松评分新数据-即计算新客户的信用评分（点击文末“阅读原文”获取完整代码数据）。

本文将指导您完成使用Credit Scoring for SAS® EnterpriseMiner™开发的信用记分卡的基本步骤，这是我将在信用评分中发布的一系列技巧中的第一个。

建立记分卡用于构建信用记分卡的基本流程图中的节点包括：输入数据源，数据分区，交互式分组和记分卡。在本例中，您可以使用SAS Enterprise Miner的“帮助”菜单中提供的德语信用数据集。单击Help-> Generate Sample Data Source - > German Credit。该数据集具有二元目标good_bad，其指示客户是否默认其每月付款（指定为值'BAD'），以及与作为输入或特征的人口统计和信用局相关的若干其他变量。

使用SAS代写EnterpriseMiner进行数据挖掘：信用评分构建记分卡模型

交互式分组节点简而言之，交互式分组节点是一个非常灵活的工具，用于对变量进行分箱或分组。这个节点：

使用您可以轻松调整的选项来分类输入变量
计算每个输入变量的箱的证据权重
计算基尼和信息值，并拒绝具有这些统计值的低值的输入变量

在幕后运行的过程可以根据您可以轻松定制的某些约束找到相对于目标的输入的最佳分级。确保使用节点的交互式应用程序直观地确认事件计数和证据权重趋势对您的分箱有意义。如有必要，您可以合并箱，创建新组或手动调整证据权重。

使用SAS代写EnterpriseMiner进行数据挖掘：信用评分构建记分卡模型

手动调整证据权重

对于某些变量输入，您可能需要手动调整证据权重（WOE）。例如，可变采用总结了信用申请人在当前工作中受雇的年数。一般而言，当前工作的年数往往与信用违约成反比。对于该数据集，证据权重不会因第1组至第5组单调减少这一事实可能是由于多种原因。例如，这个数据集可能是样本偏向的，因为许多使用<2的应用程序是手动选择或“挑选”，并且它们的良好行为反映在低事件数和低权重证据中。要防止此样本偏差影响您的记分卡，您可以使用交互式应用程序中“分组”选项卡的“粗略详细信息”视图上的“手动WOE”列。对于组1，将WOE从0.1283更改为0.7，对于组2，将WOE从-0.13131更改为-0.5。新的WOE和信息值被重新计算为新信息值。

点击标题查阅往期内容

R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集

左右滑动查看更多

01

02

03

04

使用SAS代写EnterpriseMiner进行数据挖掘：信用评分构建记分卡模型

记分卡节点对使用“交互式分组”节点找到的箱或组感到满意后，运行“记分卡”节点以使用分组输入对逻辑回归进行建模。然后，它将创建每个输入组或属性的赔率的预测日志的线性变换，使其更易于解释。

默认情况下，每增加20个得分点，事件的几率就会翻倍。您正在建模的事件是付款默认值，这意味着例如，与得分为150的应用程序相比，得分为130分的应用程序的违约几率要高一倍。

在结果中，有几个有用的图表和表格，包括记分卡，分数分布，KS图，权衡图和许多其他。

使用SAS代写EnterpriseMiner进行数据挖掘：信用评分构建记分卡模型

输出变量和不利特征请注意，从导出的数据集中，记分卡节点会创建多个变量。带有前缀SCR_的变量是记分卡中每个变量的记分卡点，SCORECARD_POINTS是每个应用程序的总点数。

使用SAS代写EnterpriseMiner进行数据挖掘：信用评分构建记分卡模型

当您指定记分卡属性生成报告=是以输出不良特征时，您的结果还将包括每个观察结果降低得分最多的变量。您最多可以选择5种不利特征。作为如何解释此列的示例，对于下面数据集的第一次观察，扣除了14个得分点，因为贷款的目的标记为1,3,8，缺失或未知。

使用SAS代写EnterpriseMiner进行数据挖掘：信用评分构建记分卡模型

本文中分析的数据、代码分享到会员群，扫描下面二维码即可加群！

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《使用SAS EnterpriseMiner进行数据挖掘：信用评分构建记分卡模型》。

点击标题查阅往期内容

R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集

PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

PYTHON集成机器学习：用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

R语言集成模型：提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

R语言基于树的方法：决策树，随机森林，Bagging，增强树

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

spss modeler用决策树神经网络预测ST的股票

R语言中使用线性模型、回归决策树自动组合特征因子水平

R语言中自编基尼系数的CART回归决策树的实现

R语言用rle，svm和rpart决策树进行时间序列预测

python在Scikit-learn中用决策树和随机森林预测NBA获胜者

python中使用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和交叉验证

R语言里的非线性模型：多项式回归、局部样条、平滑样条、广义相加模型GAM分析

R语言用标准最小二乘OLS，广义相加模型GAM ，样条函数进行逻辑回归LOGISTIC分类

R语言ISLR工资数据进行多项式回归和样条回归分析

R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型

R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量

R语言分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷时间序列预测

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

如何用R语言在机器学习中建立集成模型？

R语言ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测

在python 深度学习Keras中计算神经网络集成模型

R语言ARIMA集成模型预测时间序列分析

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

R语言基于树的方法：决策树，随机森林，Bagging，增强树

R语言基于Bootstrap的线性回归预测置信区间估计方法

R语言使用bootstrap和增量法计算广义线性模型（GLM）预测置信区间

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

Matlab建立SVM，KNN和朴素贝叶斯模型分类绘制ROC曲线

matlab使用分位数随机森林（QRF）回归树检测异常值

拓端数据部落

拓端(tecdat.cn)创立于2016年，提供专业的数据分析与挖掘服务，致力于充分挖掘数据价值。

最新文章

R语言基于ARMA-GARCH-VaR模型拟合和预测实证研究分析案例

基于出租车GPS轨迹数据的研究：出租车行程的数据分析

2024新能源企业“出海”系列之驶向中东、东南亚报告合集PDF分享（附原数据表）

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

R语言ARMA-GARCH模型金融产品价格实证分析黄金价格时间序列

SPSS modeler用关联规则Apriori模型对笔记本电脑购买事务销量数据研究

R语言两层2^k析因试验设计（因子设计）分析工厂产量数据和Lenth方法检验显著性可视化|数据分享

SPSS大学生网络购物行为研究：因子分析、主成分、聚类、交叉表和卡方检验

R语言用贝叶斯层次模型进行空间数据分析

【专题】为2025制定可付诸实践的IT战略规划报告汇总PDF洞察（附原数据表）

2024人工智能AI+制造业应用落地研究报告汇总PDF洞察（附原数据表）

中国综合算力指数（2024年）报告汇总PDF洞察（附原数据表）

2024微短剧行业生态洞察报告汇总PDF洞察（附原数据表）

【专题】2024休闲食品白皮书报告合集PDF分享（附原数据表）

【专题】2023-2024年中国企业出海发展研究报告PDF合集分享（附原数据表）

天猫超市年货节白酒品类复盘报告汇总PDF洞察（附原数据表）

R语言ARMA-GARCH模型金融产品价格实证分析黄金价格时间序列

预见2025-中国行业趋势报告汇总PDF洞察（附原数据表）

工业人工智能白皮书2025年：边缘AI驱动，助力新质生产力报告汇总PDF洞察（附原数据表）

2024年中国医药研发蓝皮书报告汇总PDF洞察（附原数据表）

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

【专题】2024年AIGC应用层趋势报告合集PDF分享（附原数据表）

【专题】2024年人工智能AI行业报告汇总PDF洞察（附原数据表）

用SPSS估计HLM多层（层次）线性模型模型

python中Copula在多元联合分布建模可视化2实例合集|附数据代码

R语言Gibbs抽样的贝叶斯简单线性回归仿真分析

WinBUGS对多元随机波动率SV模型：贝叶斯估计与模型比较

【专题】2024年新能源汽车、智能汽车行业报告汇总PDF洞察（附原数据表）

【专题】2024年出口跨境电商促销趋势白皮书报告汇总PDF洞察（附原数据表）

SPSS Modeler决策树分类模型分析商店顾客消费商品数据

使用SAS EnterpriseMiner进行数据挖掘：信用评分构建记分卡模型

【专题】2023中国数字政府建设与发展白皮书报告PDF合集分享（附原数据表）

【视频】R语言支持向量分类器SVM原理及房价数据预测应用及回归、LASSO、决策树、随机森林、GBM、神经网络对比可视化

【专题】2024年数字化、数智化发展行业研究报告汇总PDF洞察（附原数据表）

【专题】2023年中国数字金融调查报告PDF合集分享（附原数据表）

R语言用Rshiny探索lme4广义线性混合模型（GLMM）和线性混合模型（LMM）

SPSS Modeler用K-means（K-均值）聚类、CHAID、CART决策树分析31省市土地利用情况和GDP数据

R语言Black Scholes和Cox-Ross-Rubinstein期权定价模型案例

SPSS Modeler决策树分类模型分析商店顾客消费商品数据

数据分享|R语言机器学习预测案例合集：众筹平台、机票折扣、糖尿病患者、员工满意度

Python线性混合效应回归LMER分析大鼠幼崽体重数据、假设检验可视化|数据分享

数据分享|python分类预测职员离职:逻辑回归、梯度提升、随机森林、XGB、CatBoost、LGBM交叉验证可视化

R语言和STAN,JAGS：用RSTAN,RJAG建立贝叶斯多元线性回归预测选举数据

【视频讲解】偏最小二乘结构方程模型PLS-SEM分析白茶产业数字化对共同富裕的影响|附代码数据

R语言基于Bootstrap的线性回归预测置信区间估计方法分析汽车制动距离|数据分享

数据分享|Python在Scikit-Learn可视化随机森林中的决策树分析房价数据

python在Scikit-learn中用决策树和随机森林预测NBA获胜者

数据分享|R语言逐步回归模型对电影票房、放映场数、观影人数预测可视化

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

【专题】2024年人工智能AI行业报告汇总PDF洞察（附原数据表）

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉