为进一步培养学生创新精神和实践能力,鼓励学生运用统计学模型、机器学习模型等数据科学专业知识,协助解决经济社会领域中的实际问题,由四川省教育厅主办,西南财经大学与四川新网银行承办,四川省普通本科高等学校统计学类专业教学指导委员会、四川省统计学会协办的2024年四川省大学生数据科学与统计建模竞赛正式启动。目前模型竞赛报名截止时间到11月7日,还没有报名的同学赶紧报名!
举办方:
四川省教育厅 承办:西南财经大学、新网银行 协办:四川省普通本科高等学校统计学类专业教学指导委员会、四川省统计学会
大赛背景
机器学习模型在信用风险评估领域已被广泛应用,在疫情、经济增速变化等事件冲击下,经济环境和数据规律会发生变化,可能导致机器学习模型面临概念漂移(Concept Drift)问题,如何在跨周期样本上构建区分能力稳定的风险模型是金融机构风险管理关注的重要问题,新网银行以建设“新一代数字科技普惠银行”为愿景, 始终坚持技术立行,通过敏捷的信息科技体系和精准的智能风控体系,推动数字普惠金融业务发展。本次比赛将提供真实业务场景下的跨越长周期客户脱敏信贷数据,包含多产品(客群)的高维特征数据,以及风险表现标签;邀请参赛者对数据进行探索分析,综合利用机器学习算法、深度学习算法、大模型等技术设计区分能力高、稳定性强的信用风险预测模型。
QQ学习交流群:1026993837
赛题描述
题目:跨经济周期智能风控模型算法大赛
赛题介绍:参赛选手基于所提供的数据构建模型准确预测客户风险,数据涵盖人口统计、借还款行为等多个维度的特征信息,以及贷款申请后的风险表现数据,期望选手开发模型,对客户风险进行识别,帮助金融机构进一步提升模型在跨经济周期样本上的风险识别和防范能力。
初赛任务:
预测验证集上的客户违约概率,通过大赛网页提交预测结果。
复赛任务:
模型解决报告评审
展示任务:
现场汇报交流,含挑战创意任务:尝试运用大模型,提升风险建模的效率、改进效果,形式不限;如通过agent实现自动化的数据清洗、风险建模、报告生成、端到端的智能风控策略设计等。
时间安排
1.报名(即日-11月7日)
报名方式:参赛选手于报名规定时间内在DataCastle完成注册和报名。
参赛选手于11月7日12:00前以参赛团队为单位提交身份证明材料(学生证/在读证明/学籍证明)至组委会邮箱,用于参赛选手身份查验。
2.初赛(即日-11月7日)
(1)初赛于线上平台DataCastle进行,参赛选手在DataCastle下载数据,并在本地进行算法调试,预测验证集上的客户违约概率,通过DataCastle提交结果。
(2)客观提交分为公私榜,公榜成绩将在每次完成提交后出分。公榜每天提交次数上限5次,提交格式错误将不计入当日成功提交次数,当日总提交次数不能超过20次(禁止小号或通过作弊手段参与竞赛,一经查实取消参赛资格)。私榜成绩将在团队选择提交私榜文件后(如未选择,则系统默认选择公榜最优成绩文件+最后提交文件提交至私榜),公榜提交截至后2小时公布私榜排名。
(3)公榜客观提交时间为2024-10-14 12:00:00至2024-11-7 12:00:00,私榜客观提交时间为2024-10-14 12:00:00至2024-11-7 12:00:00。私榜成绩公布时间为公榜提交结束后2小时。
3.复赛(11月14日-11月20日)
(1)私榜排名前60%团队进入复赛,进入复赛的队伍需在2024年11月13日24:00前提交主观评审材料。
(2)主观评审材料。进入复赛的队伍需提交与私榜出分情况相同的模型和研究报告(包括报告正文、编程源代码)至组委会邮箱。报告文件夹名为:队号-队长姓名-比赛阶段(第X队-张三-复赛),组委会提供报告固定格式。
(3)报告正文统一为word或pdf格式,可附其余支撑材料。所有提交材料请打包压缩成zip格式,压缩包大小不超过300MB,压缩包命名格式为:队号-队长姓名-比赛阶段。
(4)组织专家进行评审,并遴选出竞赛一、二、三等奖。一等奖的前8支团队进行展示交流。
(5)组委会将于11月20日公布进入展示交流的队伍名单。
4.颁奖
(1)一等奖的前8支团队在颁奖环节就模型解决方案进行现场展示,同时还需展示创意任务完成情况。创业任务指参赛团队可尝试运用大模型,提升风险建模的效率、改进效果,形式不限;如通过agent实现自动化的数据清洗、风险建模、报告生成、端到端的智能风控策略设计等。
(2)各团队在2024年11月25日24:00之前将修改后的电子版研究报告提交到组委会邮箱。报告文件夹名为:队号-队长姓名-比赛阶段(第X队-张三-展示)。
(3)展示主要包括汇报和点评两个环节,团队进行汇报,专家现场点评。
(4)一、二、三等奖团队参加颁奖典礼,现场领取获奖证书。
(5)颁奖时间:2024年11月30日
大赛奖项
1.奖项设置:以参赛队总数为基数,设立一等奖、二等奖、三等奖,获奖比例为10%、20%、30%(小数点后四舍五入)。一等奖队伍的指导教师评为优秀指导教师。
2.奖金设置:一等奖前8支队伍获得由新网银行提供的6万(含税)奖金。
3. 奖励发放:一等奖、二等奖、三等奖及优秀指导教师证书由承办单位盖章,四川省教育厅发布获奖通知。获奖奖金由新网银行发放。
评分标准
提交的结果使用AUC稳定性指标进行评估。对于每个date对应的预测,都会计算一个AUC。通过每个date的AUC,拟合一条线性回归线a * x+ b,并计算下降率min(0, a),用于惩罚预测能力下降的模型。通过计算上述线性回归残差的标准差,对模型的波动性施加惩罚。
指标计算:AUC稳定性指标 = mean(AUC) + 4* min(0, a) - std(残差)
复赛评分规则:
复赛评分 = 70%* MAX(100 - 初赛评分排名,0) + 30%*主观评审成绩
其中:主观评审成绩总分100,包含以下维度:报告完整性(20%) ,代码规范性(20%) ,问题分析和探索(30%),方案创新性(30%) ,每项维度打分,分为5个档次,优异-100分,优秀-90分,良好-80分,中等-70分,中等以下60分。
参赛与组队规则
全国在校大学生(本科、硕士/博士生)均可报名参赛,每支队伍由不超过3名参赛选手及1名指导老师组成,指导老师必须是参赛选手所属院校在职教师,1名学生至多加入一支队伍,鼓励同学们跨学校、跨年级、跨专业组队参赛。
数据说明
特征:数据包括客户基本信息类(x0-x20),征信数据-历史金融借贷类(x20-x256)、征信数据-其他行为类(x256-x3805)
风险标签:客户在授信后是否发生逾期,其中y=1代表逾期,y=0代表未逾期。
时间变量:变量date记录了客户的授信所属的阶段。
样本量:总计8万,其中训练集数据量6.2万,测试集数据量1.8万。训练集正样本(y=1)约占比18%。测试集正样本占比11%。
说明:相关数据经过脱敏,分层抽样、模拟转换等处理,不涉及客户隐私,不反映金融机构真实业务数据指标。
排行榜
Toby老师观察目前有71支团队参赛,估计后续会增加。
目前比赛第一名最优成绩为0.70628,最差成绩0.44,差异挺大。
Toby老师初步快速测试了一下,线下AUC可达到0.68397,和目前第一名相差0.022。这只是快速测试,后期加上变量特征工程处理,融合模型,调参,模型还有提升空间。现在大学生团队还是挺厉害,比2年前强多了。这次模型竞赛AUC要上0.7,需要在诸多环节下功夫,没有大量建模经验学生要做到这点很难,Toby老师隐隐嗅到背后职业战队的味道。诸多参数选手可谓人才!新网银行可以特招入职。
该数据集质量不太好,建模AUC很一般。即使通过衍生大量变量或做融合模型来提升模型性能,上千变量的模型实际上很难部署上线,出现问题,也很难找bug。
由于篇幅有限,今天就讲到这里,过几天会写文章开箱测评《2024年四川省大学生数据科学与统计建模竞赛(算法赛)》大赛,欢迎大家及时关注。
大家可以浏览之前写的模型竞赛相关文章《4月最新桂林银行模型竞赛》,《桂林银行模型竞赛开始了-本科赛道》,《金融大数据应用-企业信贷风险防控-中国建设银行数据集》,《新网银行模型竞赛点评-小微风控算法大赛-早期风险识别》,《2023年金融科技建模大赛(初赛)开箱点评》,《模型竞赛融合模型stacking16条经验总结和5个成功案例》。
2024年四川省大学生数据科学与统计建模竞赛(算法赛)就为大家介绍到这里。如果大家对这次模型竞赛感兴趣,欢迎大家报名课程《python金融风控评分卡模型和数据分析系列》。微信二维码扫一扫收藏课程。该课程包含这次模型竞赛用到的评分卡,集成树,神经网络算法,数据清洗,IV值计算,变量重要性计算,描述性统计等知识,对这次模型竞赛提升有帮助。
商务联系
#
如果你需要三农绿色信贷感兴趣,例如研究生,博士生论文,企业建模需求,我们公司提供一对一机器学习模型定制服务,提供公司正规发票和合同。
商务联系QQ:231469242,微信:drug666123,或扫描下面二维码加微信咨询。
QQ学习群:1026993837,免费领取200G学习资料。