二代征信数据池搭建技巧

文摘科技 2024-11-06 08:33 美国

前言

人行征信报告能够在风控的多个环节中使用，基础信息可用在准入、反欺诈中；信贷交易信息可用在授额、定价中或用于评分卡模型中，而征信数据在风控中的使用不是一次性的，也不是完全直接参与风控中的。因此，为了提高征信报告的使用价值，完全有必要搭建一个征信数据池，从而可重复，高效率的使用征信报告，将其价值最大化。

一、征信报告的数据结构

搭建数据池首先需要了解的是搭建数据池的基础数据，以及其上下游数据。所以搭建征信报告数据池的第一步，是解析征信报告的数据结构。征信报告可分为八个大类，包括个人基础信息，信息概要，信贷交易信息明细，非信贷交易信息明细，公共信息明细，其他标注及声明，查询记录以及报告头。

按出现的次数，又可以将以上八类数据分为三类：

1. 出现且仅出现一次，例如报告头；

2. 出现大于一次但不超过N次，例如个人信息中的职业信息，居住信息等；

3. 可能出现无数次，例如借贷账户信息。

各个大类信息进一步拆分为24个数据块，24个信息单元。每类数据的详细信息如下表：

二、征信数据池

征信报告中的数据，大部分时间并不是以原始数据直接作用于风控中的，而是需要通过特征衍生手段从不同维度计算出上万维的特征。搭建征信报告的数据池，可以减少重复性的工作，大幅提高工作效率。

征信数据仅仅是整个风控数据中的一小部分，根据上下游数据流转方向，可将征信数据大致划分为下图的结构中：

当获取原始征信报文后，可以按其原始结构将征信报文解析为二十四个模块别分存于贴源层中，然后使用特征衍生手段将数据进一步加工为二次特征以便后续进一步使用。

征信报告中八个模块的数据，常用数据可分为个人基础信息，贷款信息，信用卡信息，查询信息四个模块分别进行二次加工后按日跑批计算，以备后续使用。加工的过程中，需要注意的是如果同一用户在同一天有多份报告，或者同一用户在不同日期有多份报告，可以按根据需要取最新的数据对旧的人行数据进行覆盖，以保证二次加工特征的有效性和唯一性。

在做人行征信报告解读时，你是否遇到这样的问题？

二代征信报告与XML版报告，你是否都了解?
特征衍生过程中字段的码值处理如何避坑？
好用的特征list有哪些？
如何构建二代征信特征数据池？
……

我们根据很多学员反馈信息，总结了人行征信数据使用痛点如下：如何进行二代征信的特征衍生与挖掘，二代征信数据如何高效应用，二代征信特征数据池如何搭建等问题。

扫码添加科科微信
免费咨询课程，职业规划

本次课程会从业务角度出发，系统讲解二代人行征信报告数据衍生挖掘思路及应用，既兼顾“知识体系”，又强力保证“实用性”的课程。

第一，你需要知道，有哪些“数据”可看，以及这些数据可能会有什么用，彼此的关系是什么。

本次课程中，导师会将二代征信报告与XML版报告一同拿出来关联解读，帮助你快速地与业务系统进行对应。

第二，你需要知道，有哪些特征衍生变量需要解读，以及如何进行多维特征交叉解读。

例如基础类、信用卡类、贷款类、逾期类、查询类特征深度衍生、交叉解读。

第三，你需要知道，衍生特征在风控策略与模型中的实战应用。

例如如何衍生有效特征、特征在模型与策略中的应用等。

课程内容抢先看：

左右滑动查看更多

👇点击阅读原文，开启二代人行报告解读的学习之旅！

http://mp.weixin.qq.com/s?__biz=MzUzNDYyNjk3MA==&mid=2247555862&idx=1&sn=ce77d3beb7bd4cc521483dc00013a48b

金科应用研院

Make Fintech Easier And Smarter

最新文章

Vintage计算需要关注哪些指标？

模型和策略到底是个什么关系？评分模型如何应用于决策

信贷业务19个核心指标解析

3大类20系列企业网课

小微普惠客户标签体系设计

电商信贷的特色数据范围

重新认识贷中管理-从预警到调额

面试风控策略的灵魂3问（含应答技巧）

11月在线招生课程

先收藏了，风控核心15套报表(作用->示例->逻辑)

电商信贷的特色数据范围

【2024企业培训】助力数字化风险管理

值得反复学习Vintage(概念->实战->衍生->解读->应用)

荐：风控高薪入门指南（附岗位核心技能表）

【2024企业培训】助力数字化风险管理

二代征信数据池搭建技巧

先学SQL、Python，再学策略？90%的人都做错了！

二代征信特征衍生技巧（含示例）

详解行为评分卡（B卡）的构建

外部数据源选择与分析技巧（附测试结果）

数据分析师VS策略分析师

【2024企业培训】助力数字化风险管理

从案例看反欺诈：如何构建有效的风控体系

LR和XGB在风控模型中的对比

从案例看时间序列如何助力风险预警

15个核心贷后术语

5个高频问题与解答（策略分析）

常见的6个风控贷前策略

挖掘SDK数据的关键策略与案例分析

电商信贷的特色数据范围

告别数据孤岛，构建全面语义数据体系的成功实践

从案例看实战：策略与模型如何提升信贷风控准确率

数据分析师VS策略分析师，谁能走得更远？

洞察客户价值：AI助力银行提升风控与营销效率

“三率三性三度”三方数据评估实战

讲真，风控策略的入职门槛越来越高了……

风险上升，如何破局？资产结构盘点与调优

【2024企业培训】助力数字化风险管理

常见的6个风控贷前策略

从容化解风险：深度解析信用风险压力测试的应用

揭示洗钱新手段与防控策略

数据分析师的灵魂——AB测试详解！

深入解析资产组合管理的方法与策略

产品盈利性评价方法

老客户也有风险？贷中支用评分的惊人发现

《682页金融科技从业十大宝典》最新消息！

如何用策略挖掘降低逾期风险

特征工程实操的三个阶段

模型面试题：如何做数据清洗工作？（80%可能性提问）

不良率下降的的秘诀：风险预警管理与模型优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉