关注“金科应用研院”,回复“礼包”
领取“风控资料合集”
课程讲师:李老师
在当今高度数字化的时代,数据已成为金融机构不可或缺的资产,选择外部数据对风控行业至关重要,它能拓宽数据维度,增强风险评估的全面性,提高风控模型的准确性,并有效减少信息不对称,降低欺诈风险,高质量的数据整合和分析能力直接关系到贷款审批的准确性、风险管理的效能以及客户体验的提升。
下面从4个方面来介绍外部数据从选择到运用的过程:
符合业务场景的外部数据源介绍
数据测试分析与接入
数据整合与集市构建
测试效果不错的外部数据分享
首先,介绍小额信贷业务场景中常见的外部数据。
征信数据:指记录个人或企业信用状况的信息汇总。关于选择的话,如果有条件的话,可以查人行,人行这个征信数据是比较大的。如果没有资质或者渠道去查人行的话,百行的征信数据也不错,百行有征信报告。
黑名单数据:指记录有严重逾期、骗贷、诈骗等高风险行为的用户或实体名单。黑名单的数据比较分散,每一家数据机构不一样,人行、百行都有。
下图是人行、百行中常见的征信、黑名单数据。
互金多头数据:指那些涉及多个借贷平台或金融机构的借款人的相关信息。在行业里面做的比较久的就是同盾了,除同盾之外就是百融,通常用这两家的数据用的最多,他们与客户建立了联防联控机制,客户会查询同盾、百融多头数据,用于分析和风险管理。这种合作让同盾、百融能够收集并整合来自多个行业的数据。
社交网络数据:指通过社交网络收集和分析的用户行为、关系等数据。字节的社交网络数据是最全的,阿里和腾讯也会输出这种外部数据,产品也比较成熟,比如腾讯的反欺诈分。
电商数据:指电商平台中用户行为、交易、商品等信息。比较大的数据源机构是淘宝和京东,但是电商数据和我们金融业务可能相关性不是那么大,有些数据对我们业务的提升和增益不是那么高。
以下是某企业的反欺诈评分和信用评分介绍。
选择外部数据通常需要考量以下依据:
相关性:数据应直接或间接与风控目标相关,能提供有价值的洞察。
准确性(有效性)与完整性:数据质量高,更新及时,覆盖全面。
成本效益:评估数据采购和维护的成本,与预期收益对比。
合规性:确保数据获取方式合法,尊重隐私法规。
其次,在选择了外部数据源之后,下一步就是对数据进行测试分析和产品对接,数据评估分析指标主要有以下4点:
数据测试分析评估
覆盖率
评估目的:确保数据能够广泛地覆盖目标群体和场景。
评估方法:确认数据中是否存在明显的空白区域或群体,以避免偏差。
准确性
评估目的:验证数据的真实性、完整性和无误性。
评估方法:对比数据选择多个时间点进行回溯,查看结果是否一致
有效性
评估目的:确保数据对风控模型的有效性,即数据能够提升模型的预测能力。
评估方法:
IV:计算各个特征的信息价值,IV越高表示该特征区分好客户与坏客户的潜力越大。
KS:衡量模型排序能力的一个指标,KS值越大表示模型区分好坏客户的能力越强。
Lift & Gini:评估模型相对于随机选择的提升度,以及模型的排序能力。
稳定性
评估目的:确保数据随时间的稳定性,避免模型因数据漂移而失效。
评估方法:PSI
产品对接
产品对接是一个关键的步骤,它涉及将外部数据源与风控系统或平台进行集成和整合,以实现数据的顺利流通、处理和应用。步骤大致如下:
数据整合
拿到外部数据后,有时候可能还要将这些数据进行整合,数据整合是指将多源数据收集、整理、加载到统一数据源。数据整合主要有以下6个内容:
数据集市构建
数据集市,是为特定用户群体构建的小型数据仓库,过构建数据集市,企业可以快速响应业务需求,提高数据质量和一致性,降低开发和维护成本,数据集市的构建逻辑大致有以下6个方面:
给大家分享一下FAL老师测试过效果不错的一些数据,仅供参考。
本次内容节选自:知识星球-大咖直播《31期:小额信贷业务的外部数据整合与底层数据集市搭建》,长按海报,扫码了解详情!
FAL长期对外征稿,邀请各大风控人士加入我们,在风控圈分享你的经验与知识👉征稿,快到碗里来,有稿费那种!
感谢您看到这里
微信公众号对话框回复“小福利”
领取粉丝专属优惠券