开箱点评！2024年四川省大学生数据科学与统计建模竞赛（算法赛）-基于新网银行数据集

财富 2024-10-25 11:30 重庆

模型竞赛背景

为进一步培养学生创新精神和实践能力，鼓励学生运用统计学模型、机器学习模型等数据科学专业知识，协助解决经济社会领域中的实际问题，由四川省教育厅主办，西南财经大学与四川新网银行承办，四川省普通本科高等学校统计学类专业教学指导委员会、四川省统计学会协办的2024年四川省大学生数据科学与统计建模竞赛正式启动。目前模型竞赛报名截止时间到11月7日，还没有报名的同学赶紧报名！

举办方：

四川省教育厅承办：西南财经大学、新网银行协办：四川省普通本科高等学校统计学类专业教学指导委员会、四川省统计学会

大赛背景

机器学习模型在信用风险评估领域已被广泛应用，在疫情、经济增速变化等事件冲击下，经济环境和数据规律会发生变化，可能导致机器学习模型面临概念漂移（Concept Drift）问题，如何在跨周期样本上构建区分能力稳定的风险模型是金融机构风险管理关注的重要问题，新网银行以建设“新一代数字科技普惠银行”为愿景，始终坚持技术立行，通过敏捷的信息科技体系和精准的智能风控体系，推动数字普惠金融业务发展。本次比赛将提供真实业务场景下的跨越长周期客户脱敏信贷数据，包含多产品（客群）的高维特征数据，以及风险表现标签；邀请参赛者对数据进行探索分析，综合利用机器学习算法、深度学习算法、大模型等技术设计区分能力高、稳定性强的信用风险预测模型。

QQ学习交流群：1026993837

电脑配置推荐

Toby老师对数据解压后，数据量有1GB多，推荐参赛大学生电脑配置硬盘要准备200GB+空间来准备这个项目。内存推荐16GB+，有条件的32GB，高纬度数据在绘图可视化和IV计算，变量相关性计算，卡方分箱，融合模型，调参等环节非常耗时。CPU推荐至少i7处理器，基本频率建议高于：3.10GHz，保证较快运算速度。

Toby老师强调一下，台式机运行速度远高于笔记本电脑，推荐台式机做实验。笔记本很多硬件虽然型号类似，但是阉割版，性能比台式机低。

开箱点评-评分标准

评分标准

用户提交的结果使用AUC稳定性指标进行评估。对于每个date对应的预测，都会计算一个AUC。通过每个date的AUC，拟合一条线性回归线a * x+ b，并计算下降率min(0, a)，用于惩罚预测能力下降的模型。通过计算上述线性回归残差的标准差，对模型的波动性施加惩罚。

指标计算：AUC稳定性指标 = mean(AUC) + 4* min(0, a) - std(残差)

点评：之前模型竞赛，参赛方不停上传测试数据，有一种暴力尝试的运气心理成分。这次评分标准比较新颖，意味着用户不能随意上传测试数据，如果上传数据效果不好，会面临惩罚扣分。

开箱点评-竞赛难度

今年四川省大学生数据科学与统计建模竞赛和前几年完全不在一个层次。这次模型竞赛有三千+变量，难度四星级，对大学生来说太难了。

高纬度模型竞赛不仅要有很好建模算法知识，还要有数据清洗，特征工程功底。可以说高纬度数据大部分时间花在数据清洗上。

开箱点评-模型实验

1.读取数据

读取数据，观察推荐用df.head()函数，观察前5条数据。我们初步观察到很多变量含有NaN，这就是空缺值。

import pandas as pdimport numpy as np#读取exceldata_train_x=pd.read_csv("train_data.csv")#特征：数据包括客户基本信息类（x0-x20），征信数据-历史金融借贷类（x20-x256）、征信数据-其他行为类（x256-x3805）#此次模型竞赛难度较大，属于解决真实场景银行风控建模，X变量总数高达3805个。但大家不用担心，实际企业模型中20个变量足以。data_train_x.head()

2.描述性统计

知己知彼百战百胜，Toby老师建议参数初学者不要一来就建模，而是先观察数据，而且要仔细观察，包括变量缺失率，数值类型，异常数据，相关性，唯一值等指标。通过观察后，我们才因地制宜的谋划相应算法策略来实验。df.info()是最常见观察函数，发现该数据集占用1.8GB内存，数据维度，数据类型都有汇总。

通过观察，发现本项目数据量太大，建议用csv格式存储数据。csv比Excel跑数据更节省时间。

data_train_x.info()

<class 'pandas.core.frame.DataFrame'>RangeIndex: 61866 entries, 0 to 61865Columns: 3807 entries, idx to X3805dtypes: float64(3806), int64(1)memory usage: 1.8 GB

jupyter notebook不能完全展示所有数据，我们可以调用df.to_csv函数来存储样本数据到本地观察。

data_train_x.head().to_csv("data_train_x_样本.csv")

读取目标变量数据。通过观察，y有61866条数据和X数据一致，这点核实很重要，否则之后建模会报错。

#读取excel#y有61866条数据和X数据一致，这点核实很重要，否则之后建模会报错 data_train_y=pd.read_csv("train_target.csv")

data_train_y.info()

<class 'pandas.core.frame.DataFrame'>RangeIndex: 61866 entries, 0 to 61865Data columns (total 3 columns): #   Column  Non-Null Count  Dtype  ---  ------  --------------  -----  0   idx     61866 non-null  int64  1   date    61866 non-null  int64  2   y       61866 non-null  float64dtypes: float64(1), int64(2)memory usage: 1.4 MB

data_train_y.head()

Toby老师调用describe()函数统计变量的计数，中位数，方差，最小值，四分位数，最大值，这有利于观察数据分布和异常值。

#描述性统计data_train_x.describe()

3.违约率统计

Toby老师通过value_counts()函数统计违约率，违约率0.18329938900203666，和官网公布的约占比18%基本一致。希望银行业务上真实违约率不是18%，那可不是好事！

#时间变量：变量date记录了客户的授信所属的阶段#风险标签：客户在授信后是否发生逾期，其中y=1代表逾期，y=0代表未逾期。#训练集正样本（y=1）有11340条，11340/61866=0.18329938900203666，和官网公布的约占比18%基本一致。#测试集正样本占比11%。data_train_y["y"].value_counts()

4.变量直方图

Toby老师对部分重要变量观察，数据分布在0-1直接。人的大脑对可视化图像理解优于数字，因此我们可绘图观察数据分布，更容易发现数据分布和问题。官网的说明：相关数据经过脱敏，分层抽样、模拟转换等处理。看来真实数据的确经过了模拟转换。如果新网银行用真实数据来实验，我们的模型是有更好提升空间。转换后数据会降低模型性能。

所有变量直方图太小，个别变量观察不仔细，我们可以对单个变量绘制直方图，这是x228变量观察。

这是x280变量观察。

5.变量相关性分析和热力图

Toby老师发现有超过8000对变量组合存在高度相关性。这暗示模型降维空间很大。

但Toby老师取前几十个变量绘图观察，发现相关性问题并不严重。

Toby老师改良了热力图，加入了数字，可以更清楚发现重要变量相关性并不高。

Toby老师通过对重要四个变量绘制配对图，发现没啥相关性。

3D图观察结论也是一样

6.变量缺失率

Toby老师观察变量缺失率高于50%的有2295个变量。

7.变量筛选

并非所有变量都可以入模，比如idx变量对建模无意义，应删除。其它需要删除变量很多，包括缺失率高，相关性高，空缺值率高的变量，大家需要多次实验。

#idx变量对建模无意义，应删除。data_train_x1= data_train_x.loc[:,"X0":"X3805"]

8.变量重要性

Toby老师通过IV值或feature importance观察，这次数据集没有强变量，都是数千个弱变量组成。巧妇难煮无米之炊，模型性能要好离不开强变量。不同算法对模型性能提升空间是有限的。新网银行业务方还需要探索更多强变量入模。

官网公布特征：数据包括客户基本信息类（x0-x20），征信数据-历史金融借贷类（x20-x256）、征信数据-其他行为类（x256-x3805）。我们记住两个关键节点：20和256。通过观察Toby老师发现重要变量分布在征信数据-历史金融借贷类和征信数据-其他行为类。客户基本信息类变量基本属于价值含量低变量。

Toby老师实验不同算法，得到的变量重要性排序有区别，X280，X237，X118这三个变量是该数据集的重要变量。如果要提升模型性能，可以围绕这3个变量做特征工程。

Toby老师通过SHAP绘图，整体分析变量数值趋势对违约率影响，如下图，整体区分能力还是显著。

Toby老师通过SHAP绘图对单个贷款用户分析。

Toby老师通过瀑布图分析X237变量，当值接近1时，违约概率显著上升。

9.模型建立和验证

目前比赛第一名最优成绩为0.70628，最差成绩0.44，差异挺大。

Toby老师初步快速测试了一下，线下AUC可达到0.68397，和目前第一名相差0.022。下面是具体模型验证指标：

model accuracy is: 0.8199892241379311model precision is: 0.5840336134453782model sensitivity is: 0.04111209701271813f1_score: 0.07681680022105554AUC: 0.6839764397640001gini 0.36795287952800027ks value:0.2625

该数据集质量不太好，建模AUC很一般。即使通过衍生大量变量或做融合模型来提升模型性能，上千变量的模型实际上很难部署上线，出现问题，也很难找bug。

10.彩蛋

Toby老师无意中发现该项目有个变量是彩蛋，放入模型后有显著性能提升。这是提升后模型验证结果。模型AUC从0.6839提升到了0.6841。

model accuracy is: 0.8196120689655172model precision is: 0.5647058823529412model sensitivity is: 0.04259094942324756f1_score: 0.0792079207920792AUC: 0.684113150067871not very good classifiergini 0.368226300135742ks value:0.2578

总结

这此模型实验只是快速测试，后期加上变量特征工程处理，融合模型，调参，模型还有提升空间。这次模型竞赛项目还是模拟转换后的僵尸数据，参赛者对业务理解并无帮助。Toby老师认为大家通过模型竞赛来挖掘业务重要因子，然后反馈业务，而不是为了竞赛而竞赛，本末倒置。如果存在合规问题，举办方可以处理或删除相关变量。经验丰富建模人员通过构造衍生变量可以提升模型性能，但这些变量都是脱敏的，只能消耗大量时间暴力尝试。Toby老师希望举办方以更开放心态为大家带来真实数据来比赛。总之这次模型竞赛可以很好锻炼大家应对高纬度模型数据清洗和建模能力，大家应该积极参与，锻炼自己数据科学能力。

现在大学生团队还是挺厉害，比2年前强多了。这次模型竞赛AUC要上0.7，需要在诸多环节下功夫，没有大量建模经验学生要做到这点很难。诸多参数选手可谓人才！新网银行可以特招入职。

最新文章

谷歌2024博士奖学金公布，华人学者大放异彩

银行面试-风控贷后策略数据分析岗位，附面试题

python信用评分卡建模（附代码）2024年版

灌水神刊《Heliyon》On hold！学术水军天塌了

金融信用风险建模完整指南

逻辑回归变量系数可为负数吗？应该如何解释？

互联网借贷产品和利息汇总-互联网的尽头是放贷

逻辑回归-逐步回归（stepwise regression）的利弊分析

免费和收费外部数据源汇总

银行面试-风险政策和风险模型岗位区别？附广大银行和苏州银行招聘参考案例

银行面试-风险政策和风险模型岗位区别？

风控中英文术语手册(银行_消费金融信贷业务)_v11

开箱点评！2024年四川省大学生数据科学与统计建模竞赛（算法赛）-基于新网银行数据集

金融风控系列课大全

报名了，奖金6万！2024年四川省大学生数据科学与统计建模竞赛（算法赛）-基于新网银行数据集

中国建设银行2023年风控模型竞赛！金融大数据应用-企业信贷风险防控

基于“三农”（农业、农村、农民）信贷风险预测模型

金融风控实战-Python信用评分卡建模全流程！（万字阐述，收藏）

金融风控系列课大全

巴塞尔协议（I,II ,III） - 意义、解释、历史、类型，确保金融系统的稳定性和安全性

金融信用风险建模完整指南

论文复现-基于Stacking融合模型的信用贷款违约预测的研究，以Give Me Some Credit数据集为例

论文专利AI实验数据库（含数据集和程序代码），10月重大更新

模型竞赛融合模型stacking16条经验总结和5个成功案例(互联网最全，硬核收藏)

论文福音！金融风控建模数据库10月重大升级，私有数据库查重无忧

芝麻信用分的核心变量和构建过程

手把手教你构建逻辑回归模型logistics regression

使用 D-Tale高效探索 Pandas DataFrame

python信用评分卡建模（附代码）2024年版

统计学_生存分析/Weibull Distribution韦布尔分布（python代码实现）

论文复现-基于决策树算法构建银行贷款审批预测模型（金融风控场景）

洛伦兹曲线（Lorenz curve）-揭秘贫富差异原因（Python代码实现）

python金融风控评分卡模型和数据分析(加强版)_2024年版_论文专利企业建模

Python数据科学和模型交流群

论文解析_客户分组对商业银行个人信用评分模型的提升作用研究，作者张亚京-中国人民银行征信中心博士后工作站

金融风控模型专利_论文定制服务

标准误(Standard Error)的蒙特卡洛模拟

python金融风控评分卡模型和数据分析(加强版)_2024年版_论文专利企业建模

Python数据科学和模型交流群

论文解析_客户分组对商业银行个人信用评分模型的提升作用研究，作者张亚京-中国人民银行征信中心博士后工作站

金融风控模型专利_论文定制服务

PandasGUI | python可视化GUI 神器

呆瓜半小时入门python数据分析

轻松一刻，python乌龟绘图-小猪佩奇，可爱乌龟，新冠病毒

热烈庆祝我司被评为重庆市科技型企业！

滚动率分析（Roll Rate Analysis）

Precision-Recall (PR) 曲线（附代码）-金融风控模型核心指标

2023年金融科技建模大赛（初赛）开箱点评

python金融风控评分卡模型和数据分析(加强版)_2024年版_论文专利企业建模

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉