数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
对于建模工作而言,工作的职责就是做到精确建模,内容包括样本准备、模型设计、数据准备、特征工程、模型的建立与评估、模型监控等工作。
要想实现好的风控,前提是保证数据的质量,而数据就是较为关键的一步。但是模型的输入是受限的,如果数据有缺陷、没做好清洗工作,那模型就不可能精准。因此,当建模得不到一个准确结果时,第一时间要怀疑的不是用错模型,而是用错了数据。
数据清洗工作包括用户唯一性检查,Missing值检查,异常值检查,Zero-rate等。稳定性验证主要考察变量在时间序列上的稳定性,衡量的指标有PSI、平均值/方差,IV等。
具体的数据清洗流程包括:
1、缺失值判断:了解缺失值产生的原因。数据缺失引起的原因多种多样,大致可以概括为IT系统原因、前端录入原因和接入征信公司原因。
2、缺失值处理:缺失值处理的方法有替代、删除、保留这三种方式。
替代法是指用一个已知的经验值代替缺失值。连续性的变量我们可以用变量的平均值或中位数来填充缺失值;离散型的变量可以用众数来填充缺失值;也可以根据样本其他的已知信息利用回归技术逐个计算出缺失处的值:了解异常值出现的原因,根据实际情况决定是否保留异常值。
删除法是选择直接删除包含缺失值的样本。这种做法的前提是需要样本量足够大,而且缺失值是随机的且少量的;另外也可以选择删除缺失值过多的变量,不纳入到分析的样本中。
保留法可以先使用一些数理统计的方法,比如说卡方检验来检验缺失值较多的变量与目标变量的相关关系。如果该变量与目标变量存在一定的相关性,就可以采用保留法,作为某个特殊类别的样本组处理。
如果该变量与目标变量的相关性较弱或者无关,可根据样本量大小选择不同的缺失值处理方法。样本量较大的可选择删除法;样本量小的可采用替代法来处理。
3、常变量/同值化处理:对同值较高或者方差较低的变量作剔除。
4、分类变量降基处理:分类变量可以根据bad_rate编码后再做分箱,也可以将少数类合并成一类,确保每一类中都有好坏样本。
看似流程简单,但需要注意:数据清理一般针对具体应用,因而难以归纳统一的方法和步骤,根据数据不同可以给出相应的数据清理方法。
(想对模型岗位进一步理解,戳小金老师微信咨询xj_fal)
由FAL与全体授课老师用心研发、开发的模型机会创造营,不仅教授评分模型标准开发流程还会详解特征工程。另外,课程一半的时间老师与学生进行案例代码实操教学,学到并能会运用才是学习的关键!⬇️
1、特征工程最全解析(分析+辅助模型)
特征的构建决定了建模的成败,好的特征会让我们在建模的路上事半功倍。可以说建模的流程中大部分的时间都在做特征的构建和筛选。
通过学习单特征构建、多特征筛选、四类主流特征构造方法以及各种特征辅助模型构建特征,全面解析特征工程的“套路”,学会自己进行特征评估和特征构建。
2、二分类模型主流算法全流程精讲(带全流程案例实操)
没有代码基础?本课程包含纯干货的快速SQL、Python入门讲解,帮助您在学习途中扫清工具的障碍。
没有算法基础?本课程将带你从最简单的线性回归入手,逐一串讲各类风控模型常用算法。包括但不限于风控模型中最常用的逻辑回归、到更高级的GBDT、XGBoost、LBGM等。并且结合案例的实操,帮您从理论和应用两个层面完成学习的闭环。
3、全场景评分卡模型体系应用
本课程中囊括了全场景的风控评分卡模型种类,包括:
申请类(贷前)评分卡与各种A卡子模型
行为类(贷中)评分卡与各种B卡子模型
催收类(贷后)评分卡与各种C卡子模型
组合评分卡模型
结合实际的应用场景,无论您将来要进入哪个岗位,都有对应的内容帮助你更好的进行模型应用。
4、学一用三:细化场景建模案例实操(贷中支用)
通过对贷中支用模型开发场景的案例实操讲解,能够进一步细化对于信贷评分模型的理解,从而举一反三,彻底掌握评分卡建模,从样本设计到模型开发模型验证的全流程。从此无论面对何种场景化的模型变种,都可以用相同的“套路”解决。
对于社招,最大的门槛不是学历、背景,而是有没有相关项目经验。这简直是所有转岗人士的死穴。FAL怎么为大家“解穴”呢?
1. 教你最实用的“经验”
建模特征处理、构建与选择的经验;
各类子模型的经验,应对各种业务细分场景下如何开发模型的问题;
参数优化的经验,让你快准狠的调整核心参数,模型一步到位,让面试官都感觉到你“经验十足“。