首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

描述性统计分析风控实战讲解（附数据和代码）

文摘 2024-09-10 08:31 广东

关注“金科应用研院”，回复“礼包”

领取风控资料合集

文末有惊喜小福利，记得看到底呦

描述性统计分析在风控中至关重要，它通过汇总、描述数据特征（如均值、中位数、标准差、分布形态等），帮助识别潜在风险点、异常交易模式及信用评分分布，为风险评估模型提供基础数据支持，从而优化风控策略，提升风险识别与防控能力。

下面通过三个方面介绍一下描述性统计分析

描述性统计的定义与作用
描述性统计指标
描述性统计实战（数据+代码）

描述性统计的定义与作用

01

定义

描述性统计分析是一种通过汇总和描述数据来揭示数据特征的方法，主要用于描述数据的集中趋势、离散程度、分布形态等，从而理解数据的结构。

02

作用

数据概述与理解：提供了数据的基本概述，可以快速理解数据的整体情况
数据质量评估：发现数据中的错误、缺失值和异常值。
数据分布特征：了解数据是正态分布、偏态分布还是其他类型的分布。
决策支持：对比不同维度数据,发现业务存在的机会点。
沟通汇报工具：以简洁直观的方式传达数据的关键信息。

描述性统计指标

描述性统计指标主要有三大类，分别是集中趋势指标、离散程度指标、分布形态指标

01

集中趋势指标

用于衡量数据的中心位置或一般水平，是揭示数据分布特性。

平均值：所有数据之和除以数据的个数，反映数据的平均水平。
中位数：将数据按升序或降序排列后，位于中间位置的数值，反映数据的平均水平，不受极端值影响。
众数：数据中出现次数最多的数值，反映数据的集中点。
百分位数：一组数据从小到大排序后，处于某个百分比位置的值，描述数据在某一特定位置的情况。

02

离散程度指标

描述数据分布中各数值与中心值（如平均数、中位数）的偏离程度。

方差：每个数据与平均数之差的平方的平均值，衡量数据的离散程度。
标准差：方差的算术平方根，衡量数据的离散程度,与原始数据具有相同的单位，更直观。
极差：一组数据中的最大值减去最小值，反映数据的最大波动范围。
四分位距：上四分位数与下四分位数之差，衡量数据中间50%的分布范围，比极差更能反映数据的中间分布情况。

03

分布形态指标

描述数据分布特性的统计量，主要包括偏度系数和峰度系数。

偏度：衡量分布的不对称程度。

峰度：描述分布的尖峰或平坦程度。

描述性统计实战

01

实战1

某金融公司想要了解2023年各月份的放款金额，以便进行2024年的资金配置。

代码：

描述结果：

说明：

平均每月的放款金额在1000w以上，但波动较大；
偏度<0分布向左偏斜,大部分月份的放款金额在平均值附近或小于平均值；
峰度<0,表示没有特别突出的月份。

结论：

最好是每月储备资金1200万。

02

实战2

某金融机构为了评估其信用卡客户的信用风险，收集了过去一年内信用卡客户的交易数据，包括交易金额、逾期次数、信用额度使用比例（数据集为：case_data.csv）。现需要对该数据集进行描述性统计分析，以便了解客户的基本信用状况分布，为后续的风险评估模型提供基础。

部分代码：

结果：

说明（从交易金额字段来看）：

平均交易金额是859，50%分位（中位数）是524，表明消费数据是普遍偏低的。
方差是1164，表示交易金额波动偏大。
偏度>0则表示大部分交易金额在平均值附近或者大于平均值。
峰度>0，表示有交易金额很突出，从结果看出交易金额的最大值是23560，最小交易金额才19。

逾期次数、信用额度使用比例字段同理。

本文附带资料包（文末找科科领取）：

1、练习数据（case_data）

2、Python代码

想系统学习更多数据分析方法和模型？想要锻炼自己的分析能力却苦于没有实战机会？从零入门斩获金融数据分析师offer？

那么千万不要错过FAL全新推出的升级版《金融数据分析师集训营2.0》

扫码添加科科微信
免费咨询课程

若无法扫码，加微信：kk2_fal

感谢Dai的分享，如果你喜欢、想要看更多的干货类型的文章，可以把公众号设为星标🌟，顺便转发分享～

FAL长期对外征稿，邀请各大风控人士加入我们，在风控圈分享你的经验与知识👉征稿，快到碗里来，有稿费那种！

http://mp.weixin.qq.com/s?__biz=MzUzNDYyNjk3MA==&mid=2247555732&idx=1&sn=07e86b96a8766f19017e391114e5e27e

金科应用研院

Make Fintech Easier And Smarter

最新文章

上午10:30直播 | 商业银行客户风险预警管理与模型构建

反欺诈策略——重授信、轻支用模式

如何通过预期损失来度量风险成本？

【2024企业培训】助力数字化风险管理

FAL帮就业（6.12更新)

信贷风控建模之专家打分卡

风控策略基本功丨风险成本计算指标

9月在线招生课程

FAL帮就业（6.12更新)

核心逾期指标计算详解

电商信贷的特色数据范围

【2024企业培训】助力数字化风险管理

FAL帮就业（6.12更新)

汽车金融风控中的欺诈识别和痛点剖析

将薪资差距拉至3-4倍，风控模型岗凭什么？

9月在线招生课程

FAL帮就业（6.12更新)

描述性统计分析风控实战讲解（附数据和代码）

贷后术语解析

【2024企业培训】助力数字化风险管理

FAL帮就业（6.12更新)

商业银行客户风险预警管理与模型构建

风控策略岗非常难找？你没用对方法吧！

9月在线招生课程

FAL帮就业（6.12更新)

贷后管理3大流程，专业术语及指标解析

基于逻辑回归算法模型搭建思路

9月在线招生课程

FAL帮就业（6.12更新)

8类信贷欺诈风险常用的拦截策略

贷中调额的不同场景与方法

【2024企业培训】助力数字化风险管理

FAL帮就业（6.12更新)

风控中常见的对比分析及应用

解析：特征筛选在策略中的应用

9月在线招生课程

FAL帮就业（6.12更新)

国内VS海外：量化风控职业的三大抉择，你该如何选？

拒绝客户捞回方法

【2024企业培训】助力数字化风险管理

FAL帮就业（6.12更新)

“规则&模型”组合分析案例实战（附数据与代码）

5个风控模型评估指标，风控人必知！！！

9月在线招生课程

FAL帮就业（6.12更新)

超50个风控项目实战案例，都在这里了！

风控策略基本功丨风险成本计算指标

8月在线招生课程

FAL帮就业（6.12更新)

A/B测试的实战与应用

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉