机器学习中降维和特征选择的对比介绍

科技 2024-11-20 10:54 安徽

作者 | Ankit Sanjyal

转 | Deephub Imba

在machine learning中，特征降维和特征选择是两个常见的概念，在应用machine learning来解决问题的论文中经常会出现。特征降维和特征选择的目的都是使数据的维数降低，使数据维度降小。但实际上两者的区别是很大，他们的本质是完全不同的。

降维?

降低数据集中特征的维数，同时保持尽可能多的信息的技术被称为降维。它是机器学习和数据挖掘中常用的技术，可以最大限度地降低数据复杂性并提高模型性能。

降维可以通过多种方式实现，包括:

主成分分析 (PCA)：PCA 是一种统计方法，可识别一组不相关的变量，将原始变量进行线性组合，称为主成分。

第一个主成分解释了数据中最大的方差，然后每个后续成分解释主键变少。PCA 经常用作机器学习算法的数据预处理步骤，因为它有助于降低数据复杂性并提高模型性能。

LDA(线性判别分析):LDA是一种用于分类工作的统计工具。它的工作原理是确定数据属性的线性组合，最大限度地分离不同类别。为了提高模型性能，LDA经常与其他分类技术(如逻辑回归或支持向量机)结合使用。

t-SNE: t-分布随机邻居嵌入(t-SNE)是一种非线性降维方法，特别适用于显示高维数据集。它保留数据的局部结构来，也就是说在原始空间中靠近的点在低维空间中也会靠近。t-SNE经常用于数据可视化，因为它可以帮助识别数据中的模式和关系。

独立分量分析（Independent Component Analysis） ICA实际上也是对数据在原有特征空间中做的一个线性变换。相对于PCA这种降秩操作，ICA并不是通过在不同方向上方差的大小，即数据在该方向上的分散程度来判断那些是主要成分，那些是不需要到特征。而ICA并没有设定一个所谓主要成分和次要成分的概念，ICA认为所有的成分同等重要，而我们的目标并非将重要特征提取出来，而是找到一个线性变换，使得变换后的结果具有最强的独立性。PCA中的不相关太弱，我们希望数据的各阶统计量都能利用，即我们利用大于2的统计量来表征。而ICA并不要求特征是正交的。如下图所示：

还有许多其他技术可以用于降维，包括多维缩放、自编码器等。技术的选择将取决于数据的具体特征和分析的目标。

特征选择?

在数据集中选择一个特征子集(也称为预测因子或自变量)用于机器学习模型的过程被称为特征选择。特征选择的目的是发现对预测目标变量(也称为响应变量或因变量)最相关和最重要的特征。

使用特征选择有很多优点:

改进的模型可解释性:通过降低模型中的特征量，可以更容易地掌握和解释变量和模型预测之间的关系。
降低过拟合的危险:当一个模型包含太多特征时，它更有可能过拟合，这意味着它在训练数据上表现良好，但在新的未知数据上表现不佳。通过选择最相关特征的子集，可以帮助限制过拟合的风险。
改进模型性能:通过从模型中删除不相关或多余的特征，可以提高模型的性能和准确性。

有许多可用的特征选择方法:

过滤方法:这些方法基于相关或相互信息等统计测量来选择特征。
包装器方法:这些方法利用机器学习算法来评估各种特征子集的性能，并选择最佳的一个。
嵌入方法:这些方法将特征选择作为机器学习算法训练过程的一部分。

所使用的特征选择方法将由数据的质量和研究的目标决定。为了为模型选择最优的特征子集，通常是尝试各种方法并比较结果。

降维与特征选择的区别

特征选择从数据集中选择最重要特征的子集，特征选择不会改变原始特征的含义和数值，只是对原始特征进行筛选。而降维将数据转换为低维空间，会改变原始特征中特征的含义和数值，可以理解为低维的特征映射。这两种策略都可以用来提高机器学习模型的性能和可解释性，但它们的运作方式是截然不同的。

推荐阅读

（点击标题可跳转阅读）

《机器学习 100 天》视频讲解

公众号历史文章精选

我的深度学习入门路线

重磅！

1700多页的《人工智能学习路线、干货分享全集》PDF文档

扫描下方二维码，添加我的微信，领取1700多页的《人工智能学习路线、干货分享全集》PDF文档（一定要备注：资料）。

长按扫码，申请入群

感谢你的分享，点赞，在看三连

http://mp.weixin.qq.com/s?__biz=MzIwOTc2MTUyMg==&mid=2247568408&idx=3&sn=e928f553a57e55cfb4a335a89b45f714

AI有道

一个值得关注的 AI 技术公众号。主要涉及人工智能领域 Python、ML 、CV、NLP 等前沿知识、干货笔记和优质资源！我们致力于为您提供切实可行的 AI 学习路线。

最新文章

确实可以封神了：一个悄然崛起的国产项目！

新的 Mamba 架构又双叒来了！上交大 & 华为提出 QuadMamba ：多个视觉任务 SOTA!

绝了，图片秒变代码，开发越来越简单了！

不是，现在都流行用 Kaggle 写论文了吗？

吴恩达出手，开源最新 Python 包，一个接口调用 OpenAI 等模型！

超越 GPT-4o！开源科研神器登场

小红书，把“失业线”压到了32岁

斯坦福大学发布全球人工智能实力排行榜

更新了！带 Agent 的 Cursor 太疯狂了

王者归来！Transformer 彻底爆发了！

突破 XGBoost！时间序列预测！！

美国 AI 曼哈顿计划 793 页文件曝光！全力研发 AGI，十大战略直指中国

万字长文，大模型分布式训练的学习过程总结

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

特朗普上台，第一刀再次扎在了留学生身上。。。

大模型中上分技巧大总结！！

FLUX“官方版ControlNet”来了！

训练大模型，这次竟卡在没图这里了。。。

Make U-Nets Great Again！北大&华为强强联合

计算机视觉顶尖期刊和会议有哪些？

王炸！字节又一爆款面试神器诞生了！

突破 LSTM！时间序列预测！！

谷歌浏览器，要被强制出售！

ChatGPT 4.0 与 Claude Pro 国内直接用！

史上最强！YOLOv11 杀疯了！

知名开源项目，阿里官宣停更，太痛了！

机器学习中降维和特征选择的对比介绍

直播预约 | CDCC 施耐德电气专场：算领未来，赋能无限！

已注销！985 新校区，不建了

12 个 ChatGPT 写作秘诀让你事半功倍！OpenAI 官方发布

王者归来！白皮书《从头训练大模型最佳实践》开源了。。。

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！

打破纪录！中国科学家让薛定谔的猫活了 23 分钟

好生猛，全球首款 AI 游戏问世！

谷歌 2024 博士奖学金名单揭晓！清华姚班大神吕欣，KAN一作刘子鸣获奖

211 大学教授、博导，落马！

深入理解机器学习中的正则化

教授何恺明在 MIT 的第二门课——《深度生成模型》，讲座PPT陆续已出

裁员 9000 人。

ChatGPT 4o 国内直接用！

全球首例：14 岁男孩和 AI 聊天网恋后被诱导自杀，生前对话曝光

今年顶会这情况。。。大家提前做准备吧！

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

Ilya 认错，Scaling Law 崩了？自曝 SSI 秘密技术路线取代 OpenAI

被导师放养，后果可能很严重。。。

GPT-5 被曝不及预期，OpenAI 员工：没什么科学突破了，接下来只需要工程

开源版 SearchGPT 来了，两张 3090 就可复现，超越 Perplexity 付费版

80w，确实可以封神了！

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉