特征工程实操的三个阶段

文摘   2024-09-20 09:02   广东  

关注金科应用研院,回复“礼包

领取“风控资料合集

文末还有惊喜小福利,记得看到底呦





什么是特征工程


特征工程是从数据中提炼出能更好识别目标对象特征的过程,包含原始数据加工、提取有效价值信息等,是机器学习中核心的一环。


特征工程大体可以分为三个阶段:

特征预处理与转换:对原始数据进行处理,包括处理缺失值、异常值、特征重编码、特征归一等,本质上是构造映射函数对特征进行转换和处理。

特征衍生:在第一阶段差产生特征的基础上生成新的特征。

特征选择与降维:以选择式或者降维式对全量特征进行维度缩减。


特征工程是一个重要但是耗时的过程。万里长征第一步,好的特征预处理与转换能极大的降低后续动作的成本,为特征提取与衍生提供良好的数据基础。常见特征预处理过程中存在的问题及解决方法如下:


  • 错误值:指在数据录入、计算等过程中因人为或者系统错误导致的数据层面的错误。


解决方法:

  1. 首先通过值的基础频数计算,了解特征的所有值以及对应的频次;

  2. 结合业务逻辑,判断对应的值与频次是否合理,从而明确是否是错误值;

  3. 是错误值的情况下,根据正确的业务逻辑进行修正;

  4. 无法明确的情况下,可以不用处理,但需标注。



  • 缺失值:指在数据中存在空数据的情况。

解决方法:

1)首先通过值的基础频数计算,了解特征的所有值以及对应的频次,识别出缺失值;

2)如果缺失值对应频次较低,比如小于3%,可以考虑直接删除带有缺失值的记录;

3)缺失值对应频次较高,此时需要使用补全数据的方式,常用的有均值、加权均值、中位数、众数、专家补全、随机法等方法补足;

4)如果缺失值对应频次较高,且无法对缺失值进行补全,那么需要承认缺失值的存在,并认可其存在的规律进行真值转换,例如:

  转换前:性别(值:男、女、未知)

  转化后:性别男(值:Y/N)、性别女(值:Y/N)、性别未知(值:Y/N)。



  • 重复值:指在数据中存多条数据记录的情况或者主键ID相同但是匹配到的属性值不同的情况。

解决方法:

1)如果重复的数据是为了调节样本不均衡的问题,对其中少数样本进行简单过采样造成的,此时无需进行去重操作;

2)如果重复值是由于记录数据不同时间节点导致的,则需要根据特征的取值情况处理,例如:之前采集客户的数据中,客户使用的收集是Iphone;新的采集记录是安卓,客户其他数据均一样。此时需要考虑这个样本中链接客户信息的主ID记录对应的时间戳是在新数据采集前还是新数据采集后,与该时间戳的取值保持一致即可。


  • 异常值:一般是指在所获统计数据中相对误差较大的观测数据。

解决方法:

  1. 计算特征的分布统计,识别异常值。异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值;

  1. 同时进行基础的频数计算,了解特征的所有值以及对应的频次,从业务角度识别出异常值;

  2. 少量的异常值可以直接删除;

  3. 异常值非常多时需要进行填充,可以考虑平均值,中位数,众数、随机数等方法;

  4. 无法填充的可以设置为Null值处理。



特征衍生


基于原始数据预处理后的特征量往往无法支持开发出一个极具商业应用价值的模型,此时我们就需要做一些差异化特征的生成和探索,所以特征衍生是评分卡中非常重要的环节,一般可以通过业务专家经验衍生或者自动化衍生来进行。两者结合使用,有利于提高模型的预测准确性和建模效果。


专家经验衍生是指根据领域专家的知识和经验来衍生新的特征变量,这种方法能更好地结合业务情况和风险倾向,提取的特征变量具有更强的可解释性,有助于提升模型的预测效果。但是,这种方式的主要问题在于纯靠经验和灵感,效率比较低下、产量较低、无法复制思路从而缺乏通用性。


自动化衍生指按照一定的逻辑批量生产特征,这种方式能够大幅提升特征工程工作效率。通过自动化衍生特征的方式,突破专家经验的局限,能快速挖掘出更多特征,带来一些创新性的发现的可能性。但是这种方式衍生出来的特征仍然需要经过业务角度的可解释评估才能入模,所以也少不了人工参与。



特征选择与降维


简单来说过特征的选择与降维就是在特定条件下,为了除去那些对模型用处不大的特征,从而得到一组最优“不相关”主变量的过程。计算成本最小的方式就是通过变量WOE趋势、IV值等标准进行筛选和过滤,也是过滤法。


在实际场景的建模过程中,由于仅考虑单个变量对于目标属性的影响可能忽略变量之间的潜在关系,从而导致数据的多重共线性。这会影响到模型的泛化能力。所以特征选择/降维是不可缺少的步骤。简单介绍两种降维方法,无监督和有监督各一种:


主成分分析(PCA): 是常用的线性降维方法,将高纬的特征向量合并成为低纬度的特征属性,无监督的降维方法。


线性判断分析(LDA): LDA是一种基于分类模型进行特征属性合并的操作,有监督的降维方法。


两者都是通过投影的方式,将高维的数据映射到低维的空间中,通过控制低维空间中的一些限制条件,从而达到使用较少数据,同时保留较多的原数据点的效果。当然在原理和应用上仍然是存在一些差异的。




END

看到这里,如果你想了解更多特征工程解析、风控模型的类型、算法以及作用,与模型的搭建方法以及应用场景,加强风控建模业务模型技巧经验、提升建模能力,从0-1全面学习风控模型,推荐学习「量化风控模型机会创造营3.0」



感谢老师的分享,如果你喜欢、想要看更多的干货类型的文章,可以把公众号设为星标🌟,并且转发分享。

FAL长期对外征稿,邀请各大风控人士加入我们,在风控圈分享你的经验与知识👉征稿,快到碗里来,有稿费那种!


感谢您看到这里

微信公众号对话框回复“小福利”
领取粉丝专属优惠券


金科应用研院
Make Fintech Easier And Smarter
 最新文章