首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

数据预处理10大必备技巧

情感 2024-08-08 20:48 湖北

公众号：尤而小屋
整理：Peter

大家好，我是Peter~

数据预处理方法的重要性在于它能够清洗和转换原始数据，使其适合用于机器学习模型训练。有效的预处理可以帮助去除噪声、处理缺失值和异常数据，提升模型的准确性和稳定性。

此外，合适的预处理还能减少模型过拟合的风险，增强模型的泛化能力。

今儿总结的十个方面的数据预处理方法，如果有没有总结全的，大家评论区给出~

数据清洗
数据标准化
数据归一化
类别编码
特征选择
特征缩放
特征构造
降维
数据增强
数据平衡

1. 数据清洗（Data Cleaning）

数据清洗是指处理缺失值和异常值，以提高数据质量和模型性能。

原理

缺失值处理：可以选择删除含有缺失值的样本或特征，或者使用插值、均值、中位数、众数等方法填补缺失值。
异常值处理：可以使用统计方法（如Z-Score）或基于模型的方法（如IQR）处理异常值。

核心公式

处理缺失值：

均值填补：对于一个有缺失值的特征列，其均值计算为：

用这个均值填补缺失值。

处理异常值：

Z-Score：标准化后的值计算公式为：

其中，是均值，是标准差。通常，|Z|>3 被认为是异常值。

2. 数据标准化（Standardization）

标准化是将数据转换为均值为0、标准差为1的分布，通常用于高斯分布的数据。

原理

标准化后的数据具有相同的尺度，减少特征之间量纲不一致的影响，有助于提高某些机器学习算法的性能。

核心公式

标准化公式：

其中，是特征的均值，是特征的标准差。

假设，其均值和标准差分别为：

标准化后的数据：

3. 数据归一化（Normalization）

归一化是将数据缩放到特定范围（通常是[0, 1]），特别适用于距离度量敏感的算法，如K近邻算法。

原理

归一化后的数据每个特征的取值范围相同，有助于提高某些机器学习算法的性能。

核心公式

归一化公式：

其中，和分别是特征的最小值和最大值。

假设，其最小值和最大值分别为：

归一化后的数据：

4. 类别编码（Categorical Encoding）

将类别特征转换为数值形式，以便机器学习算法能够处理。

原理

机器学习算法通常只能处理数值特征，因此需要将类别特征转换为数值。

核心公式

独热编码（One-Hot Encoding）：对于一个类别特征具有个不同的类别，将其转换为维向量，其中只有一个位置为1，其余为0。

例如，假设特征有三个类别：红色、绿色、蓝色。则：

红色：[1, 0, 0]
绿色：[0, 1, 0]
蓝色：[0, 0, 1]

5. 特征选择（Feature Selection）

特征选择是选择对模型训练最重要的特征，去除冗余或不相关特征，提高模型性能。

原理

减少数据维度，去除冗余或不相关特征，可以提高模型的性能和训练速度，减少过拟合。

核心公式

可以使用基于树模型的特征重要性度量，如在随机森林中计算特征重要性：

其中，是第棵树中特征的重要性度量。

假设使用基于Gini系数的特征重要性计算方法，单棵树的特征重要性可以表示为：

其中，是所有包含特征的节点，是节点的样本数量，是总样本数量，是节点上的Gini系数变化。

6. 特征缩放（Feature Scaling）

调整特征的尺度，使其在相似的范围内，常用于标准化和归一化之外的方法。

原理

减少特征值范围的差异，帮助某些算法更快收敛。

核心公式

最大最小缩放：

对数变换：

其中，加1是为了避免对数零或负值的问题。

7. 特征构造（Feature Engineering）

从现有数据中创建新的特征，以揭示数据中的隐藏关系，提高模型表现。

原理

通过特征构造，可以揭示数据中的隐藏关系，提升模型表现。

核心公式

例如，对于两个特征和构造交互特征：

8. 降维（Dimensionality Reduction）

减少特征数量，保留主要信息，常用方法包括PCA、LDA等。

原理

通过降维方法，减少数据维度，同时保留大部分信息。

核心公式

主成分分析（PCA）：

数据中心化：
计算协方差矩阵：
特征值分解：
选择前个最大特征值对应的特征向量构成变换矩阵
变换数据：

9. 数据增强（Data Augmentation）

通过对数据进行变换增加数据的多样性，提高模型泛化能力，常用于图像和文本处理任务。

原理

通过数据增强生成更多样本，提高模型泛化能力。

核心公式

例如，图像旋转：

其中，是旋转矩阵，是旋转角度。

10. 数据平衡（Data Balancing）

处理类别不平衡问题，可以使用过采样（如SMOTE）、欠采样等方法。

原理

通过过采样、欠采样等方法平衡类别分布，提高模型在少数类上的表现。

核心公式

过采样（SMOTE）：通过在少数类样本之间插值生成新的样本。对于两个少数类样本和，生成新样本：

其中，是随机数。

http://mp.weixin.qq.com/s?__biz=Mzg3ODY2MDAyMQ==&mid=2247560384&idx=1&sn=10113e202a115f02d0364b9b6036925a

尤而小屋，一个温馨且有爱的小屋🏡 小屋主人，一手代码谋求生存，一手掌勺享受生活，欢迎你的光临~

最新文章

时间序列预测神器Prophet【教程3】：突变点预测

酷炫！10张BI可视化大屏模板，拿来即用！

机器学习：欧式距离、曼哈顿距离、切比雪夫距离

Neo4j，图算法最强总结！

畅销19万册！MySQL入门经典书重磅升级

机器学习集成方法总结：Bagging, Boosting, Stacking, Voting, Blending

最强图解微型神经网络：多层感知器MLP

李飞飞：一位备受尊敬的女性AI学者

基于深度学习的工业异常检测

具身智能，下一波AI浪潮！

数据别愁！14个机器学习电影数据集

总结7大数据分析方法

Python实现10种顶流聚类算法（附代码）

由浅入深！100个pandas数据处理技巧

超强图解Transformer

豆瓣9.6，多语言版本全球发行，AWS经典再升级！

刚刚！阿里巴巴公布“姜萍时间”调查结果公布

大模型&推荐系统，强强联手！

从小白到Kaggle Grandmaster的比赛技巧

基于支持向量机和SVM的人脸识别案例

热销17万册，《算法图解》第二版终于来了！

8种高级特征工程技术

jupyter notebook进阶使用：nbextensions

中国高校面积Top10

大模型应用开发：RAG入门与实战（文末赠书）

2024年诺贝尔物理学奖，颁给了搞AI的！

刚刚，诺贝尔化学奖，揭晓！AI是没有边界的！

上海交大ACM班总教头俞勇教授团队第4本重磅新作出版啦！

后悔没早看！985研究生必备论文配图法

突发！高通准备收购英特尔？

《李宏毅：深度学习详解》终于出版了！

pandas处理时间序列数据：基础知识点

IBM中国裁员赔偿N+3！千人被裁，中国研发部彻底关闭！

基于长短期记忆模型LSTM的股价预测实战

机器学习神器Scikit-Learn超强图解

豆瓣评分9.3，畅销29年，深受哈佛、剑桥、清华等名校青睐

时间序列预测神器Prophet【教程2】：饱和预测

吴恩达，YYDS!

吴恩达团队最新成果: ManyICL

销量超10万+，这3本书凭什么能得到Python之父推荐？

数据预处理10大必备技巧

时间序列预测神器Prophet【教程1】：极简入门案例

Python实现10种概率分布（附代码）

文末赠书|AI for science：人工智能驱动科学创新

深度学习10种优化算法原理及实现（附代码）

2024最值得关注的10个深度学习算法

国产大模型之光-Kimi AI

机器学习：基于scikit-learn进行特征工程

彻底弄懂Python单星号、双星号的使用

超强Pandas图解教程

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉