本文重点
本文将了解机器学习的特征工程,有一句话是说:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,这句话充分说明了特征工程的作用,如果将特征工程做好,那么模型的效果是不会差的。
特征工程的基本概念
特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。简而言之,特征工程就是一个把原始数据转变成特征的过程,这些特征能够很好地描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)。
从数学的角度来看,特征工程就是人工地去设计输入变量X。维基百科对特征工程的定义是:特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。
特征工程的重要性
特征工程直接影响机器学习模型的表现,因为模型的效果很大程度上取决于输入数据的质量和特征的选择。好的特征工程可以帮助算法更好地从数据中学习,并发现数据中的隐藏模式和关联性。它可以减少噪声和冗余信息,提高模型的泛化能力,并且有助于应对数据不平衡和缺失值等问题。
具体来说,特征工程的重要性体现在以下几个方面:
提高模型的准确率和鲁棒性:通过精心选择和转换特征,可以改善模型的准确率和鲁棒性。
减少模型的复杂度:特征工程可以减少模型的参数数量,避免过拟合,提高模型的泛化能力。
加速模型的训练过程:通过选择低维特征、缩放特征等手段,可以加速模型的训练过程。
特征工程的四个关键步骤
1、数据预处理
2、特征选择
3、特征降维
4、特征构造
数据预处理
数据预处理是特征工程的第一步。
我们需要将数据进行统一化处理,举一个例子,比如房子的特征有房屋面积还有房屋的数量这两个特征,那么面积可能是100平米,而房屋数量也能就3个,这两个特征相差三倍,所以没有在同一规格,需要将二者进行归一化处理,将数据统一到同一个个规格中。
有的数据还会存在缺失值,那么此时我们需要对其进行处理,常用的方式有以下几种:
1、均值
2、就近填补
3、K近邻法
4、将缺失值也作为一种特征,有缺失为1,无缺失为0
5、舍弃该缺失值
6、训练一个模型,预测缺失值
特征选择
数据处理完成之后,我们需要进行特征选择,因为一开始没有必要使用所有的特征,我们可以通过下面的方法找到最合适的特征。
1、方差选择法:如果某个特征的方差特别小,那么说明这个特征变化很小,有可能对模型的影响力很小。
2、使用相关系数(连续变量)和统计检验(离散变量)来对特征进行评估。
3、互信息法可以用来检测自变量对因变量的相关性