二代征信特征衍生技巧(含示例)

文摘   科技   2024-11-04 08:33   美国  


01前言


在风控中,特征衍生是一项十分重要的工作,良好的特征衍生能够深度挖掘出数据中的隐藏信息,规范数据的使用。征信数据,是风控中最常用重要的一部分数据,由于稳定可靠的来源,良好的解释性,符合监管规定,完整的个人信用信息使征信报告成为风控中最常用的数据。因此,使用特征衍生手段对征信数据进行深度挖掘在日常风控工作中尤为重要。




一、特征衍生方法


特征衍生指通过聚合、映射、变形、交叉的方式将原始数据处理为格式统一,具有明确含义的新特征。根据对原始数据的加工次数以及特征加工方式的不同,可以将特征分为原始特征,聚合特征,组合特征以及变形特征。


01
原始特征

原始特征指无需进一步加工即可直接使用或仅通过映射对原始数据格式进行标准处理的特征。


在征信报告中,此类特征通常出现在个人基础信息数据中,包括学历、学位、性别、住宅状况、工作性质等特征。除此之外,信贷信息概要中,经过初步统计的账户数,已使用额度等特征也属于原始特征。


02
聚合特征

聚合特征是指通过数学四则运算加减乘除的方式以及求极值或均值的方式对某一类数据进行分组汇总。


征信报告中,常常使用聚合的方式计算某类账户的总数,总额度因某种原因查询往信的次数,某段时间内发生逾期的次数等。


03
组合特征

组合特征指将两个或多个不同的特征进行交叉组合或比较。


征信报告中,通常将个人基础信息中的住址信息,电话号码与申请信息中输入的住址电话进行对比。此外,也常常将不同类别的征信特征进行组合,例如将查询类特征与额度或账户作比。


04
变形特征

变形特征通常在聚合特征的基础上,通过对数变换,求方差、标准差等非线性变形的方式,对聚合特征进行二次加工,从而增加特征的维度、减少特征之间的相关性。


征信报告中,通常计算额度类特征之间的方差,标准差以减少极值对数据的影响,计算某种查询类特征的标准差作为查询系数。




二、征信特征


征信报告的八大类数据按信息类型可以分为以下几部分:个人基础信息,信贷交易信息以及查询信息。通过特征衍生,可进一步将三部分特征加工为五大类征信特征:基础类,信用卡类,贷款类,逾期类以及查询类。


01
基础类

基础类特征主要由征信报告中个人基础信息部分的数据加工而成。个人基础信息主要描述个人身份概况以及基本社会和经济属性相关的信息,包含身份,婚姻、居住和职业四个模块的数据。


其中,个人性别,学历,学位、就业状况,婚姻状况,居住状况,单位性质等数据通常以码值的形式出现,属于能够直接使用的原始特征。而公司名称,居住地址和公司地址通常会和申请时填写的公司名称,居住地址和公司地址进行交叉对比,此类特征通常是十分有效的反欺诈特征。


02
查询类

查询类特征主要由查询记录明细加工而成。查询记录主要包括查询日期,查询机构类型、查询机构名称,查询原因四个字段。可以粗暴的统计查询次数,某类机构查询约次数,因某种原因查询的次数,查询过征信报告的机构数。此外,还可以加上时间切片,

进一步统计某段时间内以上维度的查询次数。从侧面反映用户的资金饥渴度或多头信息。


03
其他类

除了以上特征外,征信报告中最重要的信贷信息能够通过特征衍生的方式加工方更多不同维度的特征。根据信贷交易的类型基本以分为信用卡类以及贷款类。根据统计维度可分为额度类,账户类,行为类特征。大部分有效的征信特征均由此部分数据加工而来。因篇幅有限,便不在此展开说明。


左右滑动查看更多




结语


征信特征的加工,是使用征信数据的前提,掌握征信特征的加工方法,是一个合格风控人的必备基础,也是风控工作中不可或缺的重要一环。


在做人行征信报告解读时,你是否遇到这样的问题?

  • 二代征信报告与XML版报告,你是否都了解?
  • 特征衍生过程中字段的码值处理如何避坑?
  • 好用的特征list有哪些?
  • 如何构建二代征信特征数据池?
  • ……

我们根据很多学员反馈信息,总结了人行征信数据使用痛点如下:如何进行二代征信的特征衍生与挖掘,二代征信数据如何高效应用,二代征信特征数据池如何搭建等问题。



扫码添加科科微信
免费咨询课程,职业规划



👇点击阅读原文,开启二代人行报告解读的学习之旅!

金科应用研院
Make Fintech Easier And Smarter
 最新文章