首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

主成分分析（PCA）的数学推导

文摘 2024-10-21 07:22 荷兰

主成分分析（Principal component analysis, PCA）是一个在统计以及机器学习领域十分常用的方法，很多偏应用的文章和视频已经很好地讲解了PCA的几何解释，以及具体在做什么。这篇文章我来写一下PCA方法的数学推导。

首先，我们知道，PCA尝试从数据集中逐一提取方差最大的成分（Components），直到保留的成分能够解释数据大部分的方差/变异，同时这些保留的成分数量往往又远小于原始变量的数量（因为大多数数据集中的变量都存在比较强的相关），从而达到降维的目的。

那么我们如何获得这样的成分呢？假设我们有一组随机变量x₁, x₂, …, x_p，那么我们将成分定义为它们的线性组合：

我们想要做的是使这个组合出来的新成分的方差最大。现在有一个显而易见的答案摆在我们面前，就是将所有⍺值设置为无限大，这样就可以获得方差无限大的成分了！这显然不是我们想要的结果，所以我们需要对⍺的值施加一些限制，设置如下：

如上，我们保证⍺₁向量的模为1，这样就保证了各个⍺的平方和始终为1，我们在这个限制下调整成分中每个x变量的配比，从而使获得的成分的方差最大。

现在我们需要求这个成分的方差，我在《【线性代数】二次型转化的小技巧与应用》的文章中讲过如何求一组变量线性组合的方差，结果如下：

接下来我们需要在⍺₁^T⍺₁=1的限制条件下，去最大化这一项，我们该如何做呢？我在《透彻解析拉格朗日乘数法》中提到了我们可以用拉格朗日乘数法，将上式改写为：

然后，我们就可以对该式进行求导，将其等于0来获得最大值的情况：

（上述过程中涉及到了Matrix Calculus，是我尚未更新过的内容，我会根据这期内容的读者反馈，阅读量以及点赞量来决定是否更新）

从求导后的结果，我们发现，⍺₁向量及为所有x变量协方差矩阵的特征向量。我们还可以利用该结果回过头来计算对应成分的方差即为特征根：

所以，如果我们要方差最大的成分，仅需将所有x变量按照最大的特征根（方差）对应的特征向量进行线性组合，然后我们可以选取第二大的特征根对应的特征向量进行线性组合，获得方差第二大的成分，依此类推……

同时，由于协方差矩阵是对称矩阵，我们很容易知道它的各个特征向量相互正交，进而可以得出每个主成分相互独立（协方差为0），或者说相互正交：

上述的过程是PCA的一种数学推导以及计算方式，实际上，我们也可以用奇异值分解来完成PCA，同时我们能够通过奇异值分解的方法洞见更多有关PCA的性质，关于这一点，我会在后面的文章中慢慢总结。如果这篇文章对你有帮助的话，欢迎点个赞和在看，你的支持是我更新最大的动力！

http://mp.weixin.qq.com/s?__biz=MzU0MzEwOTE2MQ==&mid=2247485035&idx=1&sn=abbc40bcf80895436859cbcf7aae65ec

PsychoStatisticia

一个统计学研究者的个人天地

最新文章

在课题组里该不该用“师兄师姐”这样的敬称？

统计学是不是一门独立学科？

3分钟快速理解卷积的直观含义

思考鄙视链是突破认知瓶颈的最好方法

主成分分析（PCA）的数学推导

聊聊我对是否应该留在学术圈的一些思考

当统计检验不显著时，为什么要说“无法拒绝零假设”

如何获取优质的知识/信息源

【结构方程模型系列】结构方程模型与线性回归的联系

统计学上的无偏性，一致性以及有效性是什么？

我在荷兰大学的博士第一周

透彻解析拉格朗日乘数法

谈谈我对Ridge回归数学原理的一些新理解

【线性代数】二次型转化的小技巧与应用

12周统计提高班公开招生

【线性代数】直观理解伪逆矩阵

第一期统计学私教课学员反馈

写公众号半年了，来看看我赚了多少钱！

粉丝群入群新规则

贝叶斯与最大似然估计的联系

聊聊我成年后学会的最重要的人生道理

第一本讲义出炉+新粉丝群进群规则

聊聊回国一个多月来最大的感受

假设检验讲义早鸟价最后一天！！！

NBA球星告诉你，统计学中的辛普森悖论到底是什么？

可视化理解固定/随机效应模型

探讨极端值（Outliers）对回归模型的影响

从统计学的角度探讨中国奥运游泳队的服药疑云

985就读的我为什么要休学出国打工度假

聊聊我是如何实现谋生和理想的统一的

【旧文分享】聊聊培根与自我成长

贝叶斯与频数派的根本区别是什么？

发论文不应该成为做科研的主要目的

统计学讲义早鸟价订购+粉丝群新名额

聊一些中国人学习英语可能存在的错误认知

聊一个令我受益终生的学习秘诀/mindset

回国前聊聊在荷比念了两个硕士最大的收获

如何用一句话向外行人解释p值

为什么学好英语可能比数理化更有用

【线性装逼】全网最强奇异值分解证明

【线性天书】从线性代数的角度理解多重共线性的后果

本科生该不该积极参与科研项目？

【可视化理解特征向量】线代老师教不明白的，我来教！

为什么应该坚持阅读英文原文的学术著作

【线性代数】当我们在谈论特征根/特征向量时，我们到底在谈论什么？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉