描述性统计分析在风控中至关重要,它通过汇总、描述数据特征(如均值、中位数、标准差、分布形态等),帮助识别潜在风险点、异常交易模式及信用评分分布,为风险评估模型提供基础数据支持,从而优化风控策略,提升风险识别与防控能力。
下面通过三个方面介绍一下描述性统计分析
描述性统计的定义与作用
描述性统计指标
描述性统计实战(数据+代码)
描述性统计分析是一种通过汇总和描述数据来揭示数据特征的方法,主要用于描述数据的集中趋势、离散程度、分布形态等,从而理解数据的结构。
数据概述与理解:提供了数据的基本概述,可以快速理解数据的整体情况
数据质量评估:发现数据中的错误、缺失值和异常值。
数据分布特征:了解数据是正态分布、偏态分布还是其他类型的分布。
决策支持:对比不同维度数据,发现业务存在的机会点。
沟通汇报工具:以简洁直观的方式传达数据的关键信息。
描述性统计指标主要有三大类,分别是集中趋势指标、离散程度指标、分布形态指标
用于衡量数据的中心位置或一般水平,是揭示数据分布特性。
平均值:所有数据之和除以数据的个数,反映数据的平均水平。
中位数:将数据按升序或降序排列后,位于中间位置的数值,反映数据的平均水平,不受极端值影响。
众数:数据中出现次数最多的数值,反映数据的集中点。
百分位数:一组数据从小到大排序后,处于某个百分比位置的值,描述数据在某一特定位置的情况。
描述数据分布中各数值与中心值(如平均数、中位数)的偏离程度。
方差:每个数据与平均数之差的平方的平均值,衡量数据的离散程度。
标准差:方差的算术平方根,衡量数据的离散程度,与原始数据具有相同的单位,更直观。
极差:一组数据中的最大值减去最小值,反映数据的最大波动范围。
四分位距:上四分位数与下四分位数之差,衡量数据中间50%的分布范围,比极差更能反映数据的中间分布情况。
描述数据分布特性的统计量,主要包括偏度系数和峰度系数。
偏度:衡量分布的不对称程度。
峰度:描述分布的尖峰或平坦程度。
某金融公司想要了解2023年各月份的放款金额,以便进行2024年的资金配置。
代码:
描述结果:
说明:
平均每月的放款金额在1000w以上,但波动较大;
偏度<0分布向左偏斜,大部分月份的放款金额在平均值附近或小于平均值;
峰度<0,表示没有特别突出的月份。
结论:
最好是每月储备资金1200万。
某金融机构为了评估其信用卡客户的信用风险,收集了过去一年内信用卡客户的交易数据,包括交易金额、逾期次数、信用额度使用比例(数据集为:case_data.csv)。现需要对该数据集进行描述性统计分析,以便了解客户的基本信用状况分布,为后续的风险评估模型提供基础。
部分代码:
结果:
说明(从交易金额字段来看):
平均交易金额是859,50%分位(中位数)是524,表明消费数据是普遍偏低的。
方差是1164,表示交易金额波动偏大。
偏度>0则表示大部分交易金额在平均值附近或者大于平均值。
峰度>0,表示有交易金额很突出,从结果看出交易金额的最大值是23560,最小交易金额才19。
逾期次数、信用额度使用比例字段同理。
本文附带资料包(文末找科科领取):
1、练习数据(case_data)
2、Python代码
想系统学习更多数据分析方法和模型?想要锻炼自己的分析能力却苦于没有实战机会?从零入门斩获金融数据分析师offer?
那么千万不要错过FAL全新推出的升级版《金融数据分析师集训营2.0》
扫码添加科科微信
免费咨询课程