决定机器学习的上限！一文带你搞懂起到核心作用的特征工程技术！

文摘 2024-08-23 22:24 湖南

1 .特征工程是什么？

2.数据预处理

2.1 无量纲化　　　　
2.1.1 标准化　　　　
2.1.2 区间缩放法　　　　
2.1.3 标准化与归一化的区别　　
2.2 对定量特征二值化　　
2.3 对定性特征哑编码　　
2.4 缺失值计算　　
2.5 数据变换

3.特征选择

3.1 Filter　　　　
3.1.1 方差选择法　　　　
3.1.2 相关系数法　　　　
3.1.3 卡方检验　　　　
3.1.4 互信息法　　
3.2 Wrapper　　　　
3.2.1 递归特征消除法　　
3.3 Embedded　　　　
3.3.1 基于惩罚项的特征选择法　　　　
3.3.2 基于树模型的特征选择法4 降维

4.1 主成分分析法（PCA）　　

4.2 线性判别分析法（LDA）

1 .特征工程是什么？

有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳，人们认为特征工程包括以下方面：

特征处理是特征工程的核心部分，sklearn提供了较为完整的特征处理方法，包括数据预处理，特征选择，降维等。首次接触到sklearn，通常会被其丰富且方便的算法模型库吸引，但是这里介绍的特征处理库也十分强大！

本文中使用sklearn中的IRIS（鸢尾花）数据集来对特征处理功能进行说明。IRIS数据集由Fisher在1936年整理，包含4个特征（Sepal.Length（花萼长度）、Sepal.Width（花萼宽度）、Petal.Length（花瓣长度）、Petal.Width（花瓣宽度）），特征值都为正浮点数，单位为厘米。目标值为鸢尾花的分类（Iris Setosa（山鸢尾）、Iris Versicolour（杂色鸢尾），Iris Virginica（维吉尼亚鸢尾））。导入IRIS数据集的代码如下：

from sklearn.datasets import load_iris
#导入IRIS数据集iris = load_iris()
#特征矩阵iris.data
#目标向量iris.target

2.数据预处理

通过特征提取，我们能得到未经处理的特征，这时的特征可能有以下问题：

不属于同一量纲：即特征的规格不一样，不能够放在一起比较。无量纲化可以解决这一问题。
信息冗余：对于某些定量特征，其包含的有效信息为区间划分，例如学习成绩，假若只关心“及格”或不“及格”，那么需要将定量的考分，转换成“1”和“0”表示及格和未及格。二值化可以解决这一问题。
定性特征不能直接使用：某些机器学习算法和模型只能接受定量特征的输入，那么需要将定性特征转换为定量特征。最简单的方式是为每一种定性值指定一个定量值，但是这种方式过于灵活，增加了调参的工作。通常使用哑编码的方式将定性特征转换为定量特征：假设有N种定性值，则将这一个特征扩展为N种特征，当原始特征值为第i种定性值时，第i个扩展特征赋值为1，其他扩展特征赋值为0。哑编码的方式相比直接指定的方式，不用增加调参的工作，对于线性模型来说，使用哑编码后的特征可达到非线性的效果。
存在缺失值：缺失值需要补充。
信息利用率低：不同的机器学习算法和模型对数据中信息的利用是不同的，之前提到在线性模型中，使用对定性特征哑编码可以达到非线性的效果。类似地，对定量变量多项式化，或者进行其他的转换，都能达到非线性的效果。

我们使用sklearn中的preproccessing库来进行数据预处理，可以覆盖以上问题的解决方案。

2.1 无量纲化

无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和区间缩放法。标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布。区间缩放法利用了边界值信息，将特征的取值区间缩放到某个特点的范围，例如[0, 1]等。

2.1.1 标准化

标准化需要计算特征的均值和标准差，公式表达为：

使用preproccessing库的StandardScaler类对数据进行标准化的代码如下：

from sklearn.preprocessing import StandardScaler
#标准化，返回值为标准化后的数据StandardScaler().fit_transform(iris.data)

2.1.2 区间缩放法

区间缩放法的思路有多种，常见的一种为利用两个最值进行缩放，公式表达为：

使用preproccessing库的MinMaxScaler类对数据进行区间缩放的代码如下：

from sklearn.preprocessing import MinMaxScaler
#区间缩放，返回值为缩放到[0, 1]区间的数据MinMaxScaler().fit_transform(iris.data)

2.1.3 标准化与归一化的区别

简单来说，标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为“单位向量”。规则为l2的归一化公式如下：

使用preproccessing库的Normalizer类对数据进行归一化的代码如下：

from sklearn.preprocessing import Normalizer
#归一化，返回值为归一化后的数据Normalizer().fit_transform(iris.data)

2.2 对定量特征二值化

定量特征二值化的核心在于设定一个阈值，大于阈值的赋值为1，小于等于阈值的赋值为0，公式表达如下：

使用preproccessing库的Binarizer类对数据进行二值化的代码如下：

from sklearn.preprocessing import Binarizer
#二值化，阈值设置为3，返回值为二值化后的数据Binarizer(threshold=3).fit_transform(iris.data)

2.3 对定性特征哑编码

由于IRIS数据集的特征皆为定量特征，故使用其目标值进行哑编码（实际上是不需要的）。使用preproccessing库的OneHotEncoder类对数据进行哑编码的代码如下：

from sklearn.preprocessing import OneHotEncoder
#哑编码，对IRIS数据集的目标值，返回值为哑编码后的数据OneHotEncoder().fit_transform(iris.target.reshape((-1,1)))

2.4 缺失值计算

由于IRIS数据集没有缺失值，故对数据集新增一个样本，4个特征均赋值为NaN，表示数据缺失。使用preproccessing库的Imputer类对数据进行缺失值计算的代码如下：

from numpy import vstack, array, nanfrom sklearn.preprocessing import Imputer
#缺失值计算，返回值为计算缺失值后的数据#参数missing_value为缺失值的表示形式，默认为NaN#参数strategy为缺失值填充方式，默认为mean（均值）Imputer().fit_transform(vstack((array([nan, nan, nan, nan]), iris.data)))

2.5 数据变换

常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。4个特征，度为2的多项式转换公式如下：

使用preproccessing库的PolynomialFeatures类对数据进行多项式转换的代码如下：

from sklearn.preprocessing import PolynomialFeatures
#多项式转换#参数degree为度，默认值为2PolynomialFeatures().fit_transform(iris.data)

基于单变元函数的数据变换可以使用一个统一的方式完成，使用preproccessing库的FunctionTransformer对数据进行对数函数转换的代码如下：

from numpy import log1pfrom sklearn.preprocessing import FunctionTransformer
#自定义转换函数为对数函数的数据变换#第一个参数是单变元函数FunctionTransformer(log1p).fit_transform(iris.data)

3.特征选择

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：

特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。
特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除方差法外，本文介绍的其他方法均从相关性考虑。

根据特征选择的形式又可以将特征选择方法分为3种：

Filter：过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。
Wrapper：包装法，根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。
Embedded：集成法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。

我们使用sklearn中的feature_selection库来进行特征选择。

3.1 Filter

3.1.1 方差选择法

使用方差选择法，先要计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征。使用feature_selection库的VarianceThreshold类来选择特征的代码如下：

from sklearn.feature_selection import VarianceThreshold
#方差选择法，返回值为特征选择后的数据#参数threshold为方差的阈值VarianceThreshold(threshold=3).fit_transform(iris.data)

3.1.2 相关系数法

使用相关系数法，先要计算各个特征对目标值的相关系数以及相关系数的P值。用feature_selection库的SelectKBest类结合相关系数来选择特征的代码如下：

from sklearn.feature_selection import SelectKBestfrom scipy.stats import pearsonr
#选择K个最好的特征，返回选择特征后的数据#第一个参数为计算评估特征是否好的函数，该函数输入特征矩阵和目标向量，输出二元组（评分，P值）的数组，数组第i项为第i个特征的评分和P值。在此定义为计算相关系数#参数k为选择的特征个数SelectKBest(lambda X, Y: array(map(lambda x:pearsonr(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)

3.1.3 卡方检验

经典的卡方检验是检验定性自变量对定性因变量的相关性。假设自变量有N种取值，因变量有M种取值，考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距，构建统计量：

不难发现，这个统计量的含义简而言之就是自变量对因变量的相关性。用feature_selection库的SelectKBest类结合卡方检验来选择特征的代码如下：

from sklearn.feature_selection import SelectKBestfrom sklearn.feature_selection import chi2
#选择K个最好的特征，返回选择特征后的数据SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)

3.1.4 互信息法

经典的互信息也是评价定性自变量对定性因变量的相关性的，互信息计算公式如下：

为了处理定量数据，最大信息系数法被提出，使用feature_selection库的SelectKBest类结合最大信息系数法来选择特征的代码如下：

from sklearn.feature_selection import SelectKBest from minepy import MINE
 #由于MINE的设计不是函数式的，定义mic方法将其为函数式的，返回一个二元组，二元组的第2项设置成固定的P值0.5 def mic(x, y):     m = MINE()     m.compute_score(x, y)     return (m.mic(), 0.5)
#选择K个最好的特征，返回特征选择后的数据SelectKBest(lambda X, Y: array(map(lambda x:mic(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)

3.2 Wrapper

3.2.1 递归特征消除法

递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练。使用feature_selection库的RFE类来选择特征的代码如下：

from sklearn.feature_selection import RFEfrom sklearn.linear_model import LogisticRegression
#递归特征消除法，返回特征选择后的数据#参数estimator为基模型#参数n_features_to_select为选择的特征个数RFE(estimator=LogisticRegression(), n_features_to_select=2).fit_transform(iris.data, iris.target)

3.3 Embedded

3.3.1 基于惩罚项的特征选择法

使用带惩罚项的基模型，除了筛选出特征外，同时也进行了降维。使用feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型，来选择特征的代码如下：

from sklearn.feature_selection import SelectFromModelfrom sklearn.linear_model import LogisticRegression
#带L1惩罚项的逻辑回归作为基模型的特征选择SelectFromModel(LogisticRegression(penalty="l1", C=0.1)).fit_transform(iris.data, iris.target)

实际上，L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个，所以没选到的特征不代表不重要。故，可结合L2惩罚项来优化。具体操作为：若一个特征在L1中的权值为1，选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合，将这一集合中的特征平分L1中的权值，故需要构建一个新的逻辑回归模型:

from sklearn.linear_model import LogisticRegression
class LR(LogisticRegression):    def __init__(self, threshold=0.01, dual=False, tol=1e-4, C=1.0,                 fit_intercept=True, intercept_scaling=1, class_weight=None,                 random_state=None, solver='liblinear', max_iter=100,                 multi_class='ovr', verbose=0, warm_start=False, n_jobs=1):
        #权值相近的阈值        self.threshold = threshold        LogisticRegression.__init__(self, penalty='l1', dual=dual, tol=tol, C=C,                 fit_intercept=fit_intercept, intercept_scaling=intercept_scaling, class_weight=class_weight,                 random_state=random_state, solver=solver, max_iter=max_iter,                 multi_class=multi_class, verbose=verbose, warm_start=warm_start, n_jobs=n_jobs)        #使用同样的参数创建L2逻辑回归        self.l2 = LogisticRegression(penalty='l2', dual=dual, tol=tol, C=C, fit_intercept=fit_intercept, intercept_scaling=intercept_scaling, class_weight = class_weight, random_state=random_state, solver=solver, max_iter=max_iter, multi_class=multi_class, verbose=verbose, warm_start=warm_start, n_jobs=n_jobs)
    def fit(self, X, y, sample_weight=None):        #训练L1逻辑回归        super(LR, self).fit(X, y, sample_weight=sample_weight)        self.coef_old_ = self.coef_.copy()        #训练L2逻辑回归        self.l2.fit(X, y, sample_weight=sample_weight)
        cntOfRow, cntOfCol = self.coef_.shape        #权值系数矩阵的行数对应目标值的种类数目        for i in range(cntOfRow):            for j in range(cntOfCol):                coef = self.coef_[i][j]                #L1逻辑回归的权值系数不为0                if coef != 0:                    idx = [j]                    #对应在L2逻辑回归中的权值系数                    coef1 = self.l2.coef_[i][j]                    for k in range(cntOfCol):                        coef2 = self.l2.coef_[i][k]                        #在L2逻辑回归中，权值系数之差小于设定的阈值，且在L1中对应的权值为0                        if abs(coef1-coef2) < self.threshold and j != k and self.coef_[i][k] == 0:                            idx.append(k)                    #计算这一类特征的权值系数均值                    mean = coef / len(idx)                    self.coef_[i][idx] = mean        return self

使用feature_selection库的SelectFromModel类结合带L1以及L2惩罚项的逻辑回归模型，来选择特征的代码如下：

from sklearn.feature_selection import SelectFromModel
#带L1和L2惩罚项的逻辑回归作为基模型的特征选择#参数threshold为权值系数之差的阈值SelectFromModel(LR(threshold=0.5, C=0.1)).fit_transform(iris.data, iris.target)

3.3.2 基于树模型的特征选择法

树模型中GBDT也可用来作为基模型进行特征选择，使用feature_selection库的SelectFromModel类结合GBDT模型，来选择特征的代码如下：

from sklearn.feature_selection import SelectFromModelfrom sklearn.ensemble import GradientBoostingClassifier
#GBDT作为基模型的特征选择SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)

4.降维

当特征选择完成后，可以直接训练模型了，但是可能由于特征矩阵过大，导致计算量大，训练时间长的问题，因此降低特征矩阵维度也是必不可少的。常见的降维方法除了以上提到的基于L1惩罚项的模型以外，另外还有主成分分析法（PCA）和线性判别分析（LDA），线性判别分析本身也是一个分类模型。PCA和LDA有很多的相似点，其本质是要将原始的样本映射到维度更低的样本空间中，但是PCA和LDA的映射目标不一样：PCA是为了让映射后的样本具有最大的发散性；而LDA是为了让映射后的样本有最好的分类性能**。所以说PCA是一种无监督的降维方法，而LDA是一种有监督的降维方法。

4.1 主成分分析法（PCA）

使用decomposition库的PCA类选择特征的代码如下：

from sklearn.decomposition import PCA
#主成分分析法，返回降维后的数据#参数n_components为主成分数目PCA(n_components=2).fit_transform(iris.data)

4.2 线性判别分析法（LDA）

使用lda库的LDA类选择特征的代码如下：

from sklearn.lda import LDA
#线性判别分析法，返回降维后的数据#参数n_components为降维后的维数LDA(n_components=2).fit_transform(iris.data, iris.target)

http://mp.weixin.qq.com/s?__biz=MzkyOTQwOTMzMg==&mid=2247490850&idx=1&sn=c7f4553fa87c9107478301db1176941d

AI算法工程师Future

B站同名，日常分享人工智能领域知识及学习资源。

不能再详细了！机器学习深度学习研究生3年切实可行的规划路径思维导图，花了我半个多月的时间终于做出来了！

不想到处找教程？这本ML教程册子囊括了12种所有常用的机器学习算法！而且图文并茂、深入浅出！有着超绝的阅读体验！

真的好发论文！建议医学方向的同学看看这本【基于深度学习的医学图像数据可视化分析与处理】

目标检测必学经典模型：SSD模型的搭建、训练与测试详细教程！

想学机器学习深度学习但是没有数学基础怎么办？如何不浪费时间针对性的学，这两本书是我一直都非常推荐的！一本国内一本国外！

只想看书来掌握深度学习？那就看这三本吧！入门-进阶-实战！

找不到论文代码怎么办？给计算机视觉方向的研1新手整理的论文代码汇总文档来啦！！一半经典一半前沿！不用自己到处翻论文了！

认真写书的教授都是好老师！国内写深度学习最好的一本书！它>统计学习方法>西瓜书

初学者话题：学习机器学习需要哪些基础知识呢？今天一次性给大家说的明明白白！

初学深度学习的同学们！建议先看这册综述来对深度学习建立一个宏观且深度的了解！

学习摸不着头脑？研1小白如何正确不踩坑的快速入门图像/语义分割方向？路线图来啦！

刚进组的研1小白入门机器学习深度学习需要多久时间？这篇文章绝对带你彻底搞明白！

AI在金融领域发挥重大作用！安利给金融生和金融从业者的金融人工智能书！写的真的太棒了！

纯小白在搞医疗AI方向，怎么快速入门啊？非常细致的给你讲清楚针对性的最佳学习路径！

小白怎么从零快速发表/水一篇深度学习论文啊？？有没有好的学习路径？

刚读研，深度学习直接上花书吗？要先学机器学习吗？感觉要学的东西好多啊不知道怎么去学，有没有学习路线啊？？？

整理到鼠标都快点烂了！应该是全网机器学习深度学习学习资源最全汇总了吧，一次性让你找到全网优质学习资源！

对国内同学友好+学完就能让你立马用起来的深度学习教程，应该就只有这一个了！

希望大家都不要踩坑！本科生研究生快速入门深度学习目标检测方向的学习路径分享！

写这么好干嘛？这本24年的新书让我轻松学会了复现各种经典主流深度学习模型！

不能再详细了！使用YOLO V5训练自己的数据集，从环境搭建开始教你！

这绝对是国内基于Pytorch学深度学习最好的书！！终于把各种神经网络、建模、调参都给搞明白了！

看得我酣畅淋漓！豆瓣9.6分！这本书为什么是大家公认最好的机器学习书籍？

终于搞懂了卷积神经网络：卷积层，池化层，全连接层！图文并茂、透彻解析！

深度学习最热or好发论文的方向！今年最全的多模态大模型综述来啦！由西工大在8月2号发布！

【深度学习基本功】基于PyTorch来实现图像分类任务！所有代码都有详细注释！

按阶段划分！学习人工智能的12本优质书籍分享！不用再纠结什么阶段看什么书了！

豆瓣评分9.2，被认为是史上有关金融与机器学习的最佳书籍！由利用AI算法管理数个10亿美元基金的巨佬撰写！

决定机器学习的上限！一文带你搞懂起到核心作用的特征工程技术！

这本关于Transformer模型的书真的写的太棒了！世界上第一本把Transformer进行了全面、系统级解读的书籍！

建议所有神经网络初学者把它作为第一本书来阅读！豆瓣9.2分！当当1万4千多评价好评率99.9%！

读研读博真得靠自己！拥有20多篇SCI的斯坦福博士的科研入门中文教程，帮你避开要踩几年的坑，养成完善的科研习惯！

麻了！刚开始学机器学习深度学习，知道数学很重要，但具体应该学哪些数学知识呢？

机器学习领域权威：中科院博士纯手写的机器学习西瓜书手推笔记，让你学习效率翻倍！

10大主流机器学习算法教程分享！据说国内90%的ML教程文档都是翻译抄袭这的！

从零基础到成功发表一篇深度学习论文需要准备什么、需要多少时间？

一文上千字带你通透看懂神经网络中的梯度下降和反向传播！

如果你想要深刻理解机器学习算法，这本24年的新书真的很适合！

GitHub星标26K！来自谷歌大脑团队精心制作的深度学习调参指南手册中文版！全是经验啊！

刚学机器学习深度学习，但看不懂开源项目的文件是什么意思怎么办？？？点进来就解决了！

kaggle上拿了1477块奖牌的大神写了一本号称可以解决几乎所有机器学习深度学习问题的神书！

终于搞懂了PyTorch神经网络构建与Tensorboard可视化直观显示了！绝对的通俗易懂讲解！

有了这个星标近10k的CNN卷积神经网络可视化解读工具，不可能学不会CNN了！

GitHub标星12.7K！如果你深受机器学习深度学习数学基础困扰，那这个就太适合你了！

4个可以帮助深度学习新手快速提升代码能力的宝藏工具！标星近百K！！

一定要懂！手把手带你搞懂推动深度学习发展的里程碑之作AlexNet网络！

这本信号处理与机器学习书让我轻松掌握了如何使用机器学习方法来处理各种信号数据！

GitHub星标21.8k！作者登顶github热门开发者榜单榜首！LLM大模型神仙入门教程分享！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉