描述性统计分析风控实战讲解(附数据和代码)

文摘   2024-09-10 08:31   广东  
关注金科应用研院,回复“礼包
领取风控资料合集
文末有惊喜小福利,记得看到底呦


描述性统计分析在风控中至关重要,它通过汇总、描述数据特征(如均值、中位数、标准差、分布形态等),帮助识别潜在风险点、异常交易模式及信用评分分布,为风险评估模型提供基础数据支持,从而优化风控策略,提升风险识别与防控能力。


下面通过三个方面介绍一下描述性统计分析

  1. 描述性统计的定义与作用

  2. 描述性统计指标

  3. 描述性统计实战(数据+代码)


描述性统计的定义与作用
01

定义

描述性统计分析是一种通过汇总和描述数据来揭示数据特征的方法,主要用于描述数据的集中趋势、离散程度、分布形态等,从而理解数据的结构。


02

作用
  • 数据概述与理解:提供了数据的基本概述,可以快速理解数据的整体情况

  • 数据质量评估:发现数据中的错误、缺失值和异常值。

  • 数据分布特征:了解数据是正态分布、偏态分布还是其他类型的分布。

  • 决策支持:对比不同维度数据,发现业务存在的机会点。

  • 沟通汇报工具:以简洁直观的方式传达数据的关键信息。


描述性统计指标

描述性统计指标主要有三大类,分别是集中趋势指标、离散程度指标、分布形态指标


01

集中趋势指标

用于衡量数据的中心位置或一般水平,是揭示数据分布特性。

  • 平均值:所有数据之和除以数据的个数,反映数据的平均水平。

  • 中位数:将数据按升序或降序排列后,位于中间位置的数值,反映数据的平均水平,不受极端值影响。

  • 众数:数据中出现次数最多的数值,反映数据的集中点。

  • 百分位数:一组数据从小到大排序后,处于某个百分比位置的值,描述数据在某一特定位置的情况。

02

离散程度指标

描述数据分布中各数值与中心值(如平均数、中位数)的偏离程度。

  • 方差:每个数据与平均数之差的平方的平均值,衡量数据的离散程度。

  • 标准差:方差的算术平方根,衡量数据的离散程度,与原始数据具有相同的单位,更直观。

  • 极差:一组数据中的最大值减去最小值,反映数据的最大波动范围。

  • 四分位距:上四分位数与下四分位数之差,衡量数据中间50%的分布范围,比极差更能反映数据的中间分布情况。


03

分布形态指标

描述数据分布特性的统计量,主要包括偏度系数和峰度系数。

  • 偏度:衡量分布的不对称程度。

  • 度:描述分布的尖峰或平坦程度。


描述性统计实战
01

实战1

某金融公司想要了解2023年各月份的放款金额,以便进行2024年的资金配置。


代码:


描述结果:


说明:

  • 平均每月的放款金额在1000w以上,但波动较大;

  • 偏度<0分布向左偏斜,大部分月份的放款金额在平均值附近或小于平均值;

  • 峰度<0,表示没有特别突出的月份。


结论:

最好是每月储备资金1200万。


02

实战2

某金融机构为了评估其信用卡客户的信用风险,收集了过去一年内信用卡客户的交易数据,包括交易金额、逾期次数、信用额度使用比例(数据集为:case_data.csv)。现需要对该数据集进行描述性统计分析,以便了解客户的基本信用状况分布,为后续的风险评估模型提供基础。


部分代码:


结果:


说明(从交易金额字段来看):

  • 平均交易金额是859,50%分位(中位数)是524,表明消费数据是普遍偏低的。

  • 方差是1164,表示交易金额波动偏大。

  • 偏度>0则表示大部分交易金额在平均值附近或者大于平均值。

  • 峰度>0,表示有交易金额很突出,从结果看出交易金额的最大值是23560,最小交易金额才19。

逾期次数、信用额度使用比例字段同理。


本文附带资料包(文末找科科领取):

1、练习数据(case_data)

2、Python代码

想系统学习更多数据分析方法和模型?想要锻炼自己的分析能力却苦于没有实战机会?从零入门斩获金融数据分析师offer?


那么千万不要错过FAL全新推出的升级版《金融数据分析师集训营2.0》


扫码添加科科微信
免费咨询课程

若无法扫码,加微信:kk2_fal


感谢Dai的分享,如果你喜欢、想要看更多的干货类型的文章,可以把公众号设为星标🌟,顺便转发分享~

FAL长期对外征稿,邀请各大风控人士加入我们,在风控圈分享你的经验与知识👉征稿,快到碗里来,有稿费那种!

金科应用研院
Make Fintech Easier And Smarter
 最新文章