CICC科普栏目｜降维和特征选择的对比介绍

科技 2024-11-10 22:06 北京

在machine learning中，特征降维和特征选择是两个常见的概念，在应用machine learning来解决问题的论文中经常会出现。特征降维和特征选择的目的都是使数据的维数降低，使数据维度降小。但实际上两者的区别是很大，他们的本质是完全不同的。

降维?

降低数据集中特征的维数，同时保持尽可能多的信息的技术被称为降维。它是机器学习和数据挖掘中常用的技术，可以最大限度地降低数据复杂性并提高模型性能。

降维可以通过多种方式实现，包括:

主成分分析 (PCA)：PCA 是一种统计方法，可识别一组不相关的变量，将原始变量进行线性组合，称为主成分。

第一个主成分解释了数据中最大的方差，然后每个后续成分解释主键变少。PCA 经常用作机器学习算法的数据预处理步骤，因为它有助于降低数据复杂性并提高模型性能。

LDA(线性判别分析):LDA是一种用于分类工作的统计工具。它的工作原理是确定数据属性的线性组合，最大限度地分离不同类别。为了提高模型性能，LDA经常与其他分类技术(如逻辑回归或支持向量机)结合使用。

t-SNE: t-分布随机邻居嵌入(t-SNE)是一种非线性降维方法，特别适用于显示高维数据集。它保留数据的局部结构来，也就是说在原始空间中靠近的点在低维空间中也会靠近。t-SNE经常用于数据可视化，因为它可以帮助识别数据中的模式和关系。

独立分量分析（Independent Component Analysis） ICA实际上也是对数据在原有特征空间中做的一个线性变换。相对于PCA这种降秩操作，ICA并不是通过在不同方向上方差的大小，即数据在该方向上的分散程度来判断那些是主要成分，那些是不需要到特征。而ICA并没有设定一个所谓主要成分和次要成分的概念，ICA认为所有的成分同等重要，而我们的目标并非将重要特征提取出来，而是找到一个线性变换，使得变换后的结果具有最强的独立性。PCA中的不相关太弱，我们希望数据的各阶统计量都能利用，即我们利用大于2的统计量来表征。而ICA并不要求特征是正交的。如下图所示：

还有许多其他技术可以用于降维，包括多维缩放、自编码器等。技术的选择将取决于数据的具体特征和分析的目标。

特征选择?

在数据集中选择一个特征子集(也称为预测因子或自变量)用于机器学习模型的过程被称为特征选择。特征选择的目的是发现对预测目标变量(也称为响应变量或因变量)最相关和最重要的特征。

使用特征选择有很多优点:

改进的模型可解释性:通过降低模型中的特征量，可以更容易地掌握和解释变量和模型预测之间的关系。
降低过拟合的危险:当一个模型包含太多特征时，它更有可能过拟合，这意味着它在训练数据上表现良好，但在新的未知数据上表现不佳。通过选择最相关特征的子集，可以帮助限制过拟合的风险。
改进模型性能:通过从模型中删除不相关或多余的特征，可以提高模型的性能和准确性。

有许多可用的特征选择方法:

过滤方法:这些方法基于相关或相互信息等统计测量来选择特征。
包装器方法:这些方法利用机器学习算法来评估各种特征子集的性能，并选择最佳的一个。
嵌入方法:这些方法将特征选择作为机器学习算法训练过程的一部分。

所使用的特征选择方法将由数据的质量和研究的目标决定。为了为模型选择最优的特征子集，通常是尝试各种方法并比较结果。

降维与特征选择的区别

特征选择从数据集中选择最重要特征的子集，特征选择不会改变原始特征的含义和数值，只是对原始特征进行筛选。而降维将数据转换为低维空间，会改变原始特征中特征的含义和数值，可以理解为低维的特征映射。这两种策略都可以用来提高机器学习模型的性能和可解释性，但它们的运作方式是截然不同的。

编辑 /张志红

审核 / 范瑞强

复核 / 张志红

本文来源：数学中国

关注公众号了解更多

会员申请请在公众号内回复“个人会员”或“单位会员

欢迎关注中国指挥与控制学会媒体矩阵

CICC官方抖音

CICC头条号

CICC微博号

CICC官方网站

CICC官方微信公众号

《指挥与控制学报》官网

国际无人系统大会官网

中国指挥控制大会官网

全国兵棋推演大赛

全国空中智能博弈大赛

搜狐号

一点号

http://mp.weixin.qq.com/s?__biz=MzA4ODcwOTExMQ==&mid=2655791992&idx=6&sn=978742f4e4e960223f0a2307ca696bc0

中国指挥与控制学会

中国指挥与控制学会是中国科协、国家民政部批准成立的国家一级学会，是由我国从事指挥与控制科学技术领域的单位和科技工作者自愿结成的学术性、全国性社团组织。学会办事机构挂靠中国兵器工业集团公司。

面向机弹一体的未来空战火力运用思考

小型无人机蜂群和作战管理：不断发展的战争格局

现代作战加速向无人化转变

CICC党建栏目｜三块浮雕背后的革命故事

CICC科普栏目｜顶级俄国数学家是怎样炼成的？

喜报 | 中国指挥与控制学会官方微信视频号平台播放量超10万

中国指挥与控制学会认知与行为专业委员会协助举办院士大课堂系列活动

直播预告：《遥感共性产品技术交流与产品培训会》

美国低成本精确制导弹药发展情况

CICC党建栏目｜从“红旗勋章”到“五章一簿”，功勋奖章制度的形成与发展

CICC科普栏目｜漫谈数学与数学人

美国陆军持续转型

软件定义技术在电子战中的应用进展

AI的推理与人类的推理有着根本的区别

反无人机系统与现有部队的整合

CICC党建栏目｜一口水井下，藏着一个“隐形医院”......

CICC科普栏目｜人工智能与机器学习在网络安全应用中的区别

提升新兴领域国防动员能力

X-62A——人工智能赋能的未来杀器

人工智能综述：物理学与人工智能的跨界新范式

实现统一天空愿景：为未来航空运输整合ATM与AAM

李大钊每月收入足以过上富足生活，为何家中入不敷出？

CICC科普栏目｜统计方法在论文中的正确打开方式

2024第八届全国集群智能与协同控制大会最新议程

反无人机系统与现有部队的整合

军用机器人及其反制

海上无人威胁的新型防御系统

CICC科普栏目｜Python中进行特征重要性分析的9个常用方法

2024年IEEE第16届自抗扰控制研讨会于珠海成功举办

关于举办智能博弈技术与应用实战研修班的通知

自主武器系统：军事行动的未来

CICC党建栏目｜当心！这些做法会泄露组织秘密

CICC科普栏目｜图像特征提取与匹配技术

利用兵棋推演了解大规模战斗行动中的持续保障

浅析无人机蜂群的实战运用

谈谈军事需求提报和军地对接的重要意义

CICC党建栏目｜对违反廉洁纪律行为的处分

CICC科普栏目｜餐巾纸上画的一张图，让他获得诺奖并成为“大科学之父”

2024年第四届复杂系统可靠性科学与工程论坛成功举办

关于召开“2024第三届大数据科学与工程论坛”的通知

战斗管理辅助的系统性方法

CICC党建栏目｜公务接待正负面清单

CICC科普栏目｜Python可视化核心步骤

【CICC原创】基于迁移学习的雷达信号类型自动识别方法

浅析这款自动人道主义排雷系统

协同战斗飞行器的发展与运用

关于召开“中国指挥与控制学会无人系统专业委员会三届一次会议暨无人系统技术交流会”的通知

CICC党建栏目｜如何对发展对象进行政治审查？

CICC科普栏目｜高空中的气象“高速公路”：西风急流如何影响现代飞行？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉