首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

特征工程实操的三个阶段

文摘 2024-09-20 09:02 广东

关注“金科应用研院”，回复“礼包”

领取“风控资料合集”

文末还有惊喜小福利，记得看到底呦

什么是特征工程

特征工程是从数据中提炼出能更好识别目标对象特征的过程，包含原始数据加工、提取有效价值信息等，是机器学习中核心的一环。

特征工程大体可以分为三个阶段：

特征预处理与转换：对原始数据进行处理，包括处理缺失值、异常值、特征重编码、特征归一等，本质上是构造映射函数对特征进行转换和处理。

特征衍生：在第一阶段差产生特征的基础上生成新的特征。

特征选择与降维：以选择式或者降维式对全量特征进行维度缩减。

特征工程是一个重要但是耗时的过程。万里长征第一步，好的特征预处理与转换能极大的降低后续动作的成本，为特征提取与衍生提供良好的数据基础。常见特征预处理过程中存在的问题及解决方法如下：

错误值：指在数据录入、计算等过程中因人为或者系统错误导致的数据层面的错误。

解决方法：

首先通过值的基础频数计算，了解特征的所有值以及对应的频次；
结合业务逻辑，判断对应的值与频次是否合理，从而明确是否是错误值；
是错误值的情况下，根据正确的业务逻辑进行修正；
无法明确的情况下，可以不用处理，但需标注。

缺失值：指在数据中存在空数据的情况。

解决方法：

1）首先通过值的基础频数计算，了解特征的所有值以及对应的频次，识别出缺失值；

2）如果缺失值对应频次较低，比如小于3%，可以考虑直接删除带有缺失值的记录；

3）缺失值对应频次较高，此时需要使用补全数据的方式，常用的有均值、加权均值、中位数、众数、专家补全、随机法等方法补足；

4）如果缺失值对应频次较高，且无法对缺失值进行补全，那么需要承认缺失值的存在，并认可其存在的规律进行真值转换，例如：

转换前：性别（值：男、女、未知）

转化后：性别男（值：Y/N)、性别女（值：Y/N)、性别未知（值：Y/N)。

重复值：指在数据中存多条数据记录的情况或者主键ID相同但是匹配到的属性值不同的情况。

解决方法：

1）如果重复的数据是为了调节样本不均衡的问题，对其中少数样本进行简单过采样造成的，此时无需进行去重操作；

2）如果重复值是由于记录数据不同时间节点导致的，则需要根据特征的取值情况处理，例如：之前采集客户的数据中，客户使用的收集是Iphone；新的采集记录是安卓，客户其他数据均一样。此时需要考虑这个样本中链接客户信息的主ID记录对应的时间戳是在新数据采集前还是新数据采集后，与该时间戳的取值保持一致即可。

异常值：一般是指在所获统计数据中相对误差较大的观测数据。

解决方法：

计算特征的分布统计，识别异常值。异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值；

同时进行基础的频数计算，了解特征的所有值以及对应的频次，从业务角度识别出异常值；
少量的异常值可以直接删除；
异常值非常多时需要进行填充，可以考虑平均值，中位数，众数、随机数等方法；
无法填充的可以设置为Null值处理。

特征衍生

基于原始数据预处理后的特征量往往无法支持开发出一个极具商业应用价值的模型，此时我们就需要做一些差异化特征的生成和探索，所以特征衍生是评分卡中非常重要的环节，一般可以通过业务专家经验衍生或者自动化衍生来进行。两者结合使用，有利于提高模型的预测准确性和建模效果。

专家经验衍生是指根据领域专家的知识和经验来衍生新的特征变量，这种方法能更好地结合业务情况和风险倾向，提取的特征变量具有更强的可解释性，有助于提升模型的预测效果。但是，这种方式的主要问题在于纯靠经验和灵感，效率比较低下、产量较低、无法复制思路从而缺乏通用性。

自动化衍生指按照一定的逻辑批量生产特征，这种方式能够大幅提升特征工程工作效率。通过自动化衍生特征的方式，突破专家经验的局限，能快速挖掘出更多特征，带来一些创新性的发现的可能性。但是这种方式衍生出来的特征仍然需要经过业务角度的可解释评估才能入模，所以也少不了人工参与。

特征选择与降维

简单来说过特征的选择与降维就是在特定条件下，为了除去那些对模型用处不大的特征，从而得到一组最优“不相关”主变量的过程。计算成本最小的方式就是通过变量WOE趋势、IV值等标准进行筛选和过滤，也是过滤法。

在实际场景的建模过程中，由于仅考虑单个变量对于目标属性的影响可能忽略变量之间的潜在关系，从而导致数据的多重共线性。这会影响到模型的泛化能力。所以特征选择/降维是不可缺少的步骤。简单介绍两种降维方法，无监督和有监督各一种：

主成分分析(PCA)：是常用的线性降维方法，将高纬的特征向量合并成为低纬度的特征属性，无监督的降维方法。

线性判断分析(LDA)： LDA是一种基于分类模型进行特征属性合并的操作，有监督的降维方法。

两者都是通过投影的方式，将高维的数据映射到低维的空间中，通过控制低维空间中的一些限制条件，从而达到使用较少数据，同时保留较多的原数据点的效果。当然在原理和应用上仍然是存在一些差异的。

END

看到这里，如果你想了解更多特征工程解析、风控模型的类型、算法以及作用，与模型的搭建方法以及应用场景，加强风控建模业务模型技巧经验、提升建模能力，从0-1全面学习风控模型，推荐学习「量化风控模型机会创造营3.0」

感谢老师的分享，如果你喜欢、想要看更多的干货类型的文章，可以把公众号设为星标🌟，并且转发分享。

FAL长期对外征稿，邀请各大风控人士加入我们，在风控圈分享你的经验与知识👉征稿，快到碗里来，有稿费那种！

感谢您看到这里

微信公众号对话框回复“小福利”
领取粉丝专属优惠券

http://mp.weixin.qq.com/s?__biz=MzUzNDYyNjk3MA==&mid=2247555759&idx=1&sn=695dc1e377081ea195c33830f307a0af

金科应用研院

Make Fintech Easier And Smarter

最新文章

Vintage计算需要关注哪些指标？

模型和策略到底是个什么关系？评分模型如何应用于决策

信贷业务19个核心指标解析

3大类20系列企业网课

小微普惠客户标签体系设计

电商信贷的特色数据范围

重新认识贷中管理-从预警到调额

面试风控策略的灵魂3问（含应答技巧）

11月在线招生课程

先收藏了，风控核心15套报表(作用->示例->逻辑)

电商信贷的特色数据范围

【2024企业培训】助力数字化风险管理

值得反复学习Vintage(概念->实战->衍生->解读->应用)

荐：风控高薪入门指南（附岗位核心技能表）

【2024企业培训】助力数字化风险管理

二代征信数据池搭建技巧

先学SQL、Python，再学策略？90%的人都做错了！

二代征信特征衍生技巧（含示例）

详解行为评分卡（B卡）的构建

外部数据源选择与分析技巧（附测试结果）

数据分析师VS策略分析师

【2024企业培训】助力数字化风险管理

从案例看反欺诈：如何构建有效的风控体系

LR和XGB在风控模型中的对比

从案例看时间序列如何助力风险预警

15个核心贷后术语

5个高频问题与解答（策略分析）

常见的6个风控贷前策略

挖掘SDK数据的关键策略与案例分析

电商信贷的特色数据范围

告别数据孤岛，构建全面语义数据体系的成功实践

从案例看实战：策略与模型如何提升信贷风控准确率

数据分析师VS策略分析师，谁能走得更远？

洞察客户价值：AI助力银行提升风控与营销效率

“三率三性三度”三方数据评估实战

讲真，风控策略的入职门槛越来越高了……

风险上升，如何破局？资产结构盘点与调优

【2024企业培训】助力数字化风险管理

常见的6个风控贷前策略

从容化解风险：深度解析信用风险压力测试的应用

揭示洗钱新手段与防控策略

数据分析师的灵魂——AB测试详解！

深入解析资产组合管理的方法与策略

产品盈利性评价方法

老客户也有风险？贷中支用评分的惊人发现

《682页金融科技从业十大宝典》最新消息！

如何用策略挖掘降低逾期风险

特征工程实操的三个阶段

模型面试题：如何做数据清洗工作？（80%可能性提问）

不良率下降的的秘诀：风险预警管理与模型优化

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉