人行征信报告能够在风控的多个环节中使用,基础信息可用在准入、反欺诈中;信贷交易信息可用在授额、定价中或用于评分卡模型中,而征信数据在风控中的使用不是一次性的,也不是完全直接参与风控中的。因此,为了提高征信报告的使用价值,完全有必要搭建一个征信数据池,从而可重复,高效率的使用征信报告,将其价值最大化。
搭建数据池首先需要了解的是搭建数据池的基础数据,以及其上下游数据。所以搭建征信报告数据池的第一步,是解析征信报告的数据结构。征信报告可分为八个大类,包括个人基础信息,信息概要,信贷交易信息明细,非信贷交易信息明细,公共信息明细,其他标注及声明,查询记录以及报告头。
按出现的次数,又可以将以上八类数据分为三类:
1. 出现且仅出现一次,例如报告头;
2. 出现大于一次但不超过N次,例如个人信息中的职业信息,居住信息等;
3. 可能出现无数次,例如借贷账户信息。
各个大类信息进一步拆分为24个数据块,24个信息单元。每类数据的详细信息如下表:
征信报告中的数据,大部分时间并不是以原始数据直接作用于风控中的,而是需要通过特征衍生手段从不同维度计算出上万维的特征。搭建征信报告的数据池,可以减少重复性的工作,大幅提高工作效率。
征信数据仅仅是整个风控数据中的一小部分,根据上下游数据流转方向,可将征信数据大致划分为下图的结构中:
当获取原始征信报文后,可以按其原始结构将征信报文解析为二十四个模块别分存于贴源层中,然后使用特征衍生手段将数据进一步加工为二次特征以便后续进一步使用。
征信报告中八个模块的数据,常用数据可分为个人基础信息,贷款信息,信用卡信息,查询信息四个模块分别进行二次加工后按日跑批计算,以备后续使用。加工的过程中,需要注意的是如果同一用户在同一天有多份报告,或者同一用户在不同日期有多份报告,可以按根据需要取最新的数据对旧的人行数据进行覆盖,以保证二次加工特征的有效性和唯一性。
二代征信报告与XML版报告,你是否都了解? 特征衍生过程中字段的码值处理如何避坑? 好用的特征list有哪些? 如何构建二代征信特征数据池? ……
我们根据很多学员反馈信息,总结了人行征信数据使用痛点如下:如何进行二代征信的特征衍生与挖掘,二代征信数据如何高效应用,二代征信特征数据池如何搭建等问题。
扫码添加科科微信
免费咨询课程,职业规划
本次课程会从业务角度出发,系统讲解二代人行征信报告数据衍生挖掘思路及应用,既兼顾“知识体系”,又强力保证“实用性”的课程。
例如如何衍生有效特征、特征在模型与策略中的应用等。
课程内容抢先看:
👇点击阅读原文,开启二代人行报告解读的学习之旅!