【线性天书】从线性代数的角度理解多重共线性的后果

文摘 2024-07-10 05:36 比利时

在这个公众号最早开始发文章的时候，我写过一篇关于多重共线性的文章：

这篇文章通过一种比较intuitive和简单的方式介绍了为什么多重共线性在线性回归模型中会成问题，今天我们从线性代数的角度来聊聊为什么线性回归模型中的多重共线性是成问题的。

要看懂这篇文章会涉及到一些比较进阶的线性代数知识，比如读者至少要清楚地了解四个基本子空间（Four fundamental subspaces）的知识。（在写完这篇文章以后，我才发现我写的已经很数学很“天书”了，所以你要是在任何一刻觉得阅读不适或无法理解的话，欢迎随时退出）

我在《慎点！！！多元线性回归最小二乘法推导》一文中聊过通过矩阵求解最小二乘的思路和结果，假如我们有如下的线性回归方程：

我们可以将它用矩阵形式简写为：

通过最小化误差向量的l-2 norm，我们最终可以获得这样一个方程：

如果想要真正求解b，你就需要计算X^TX的逆矩阵：

什么时候我们无法通过上述方法求解b？其实就是X^TX不可逆（Singular）的情况。显然，X^TX一定为方阵，所以当X^TX不存在逆时，也就意味着其不满秩，或者说，N(X^TX)（该矩阵的零空间）不仅仅包含零向量。

简而言之，假如我们想要通过上述方程求解b，X^TX就必须可逆（Invertible），N(X^TX)中就仅能包含零向量，我们如何能够保证这一点呢？让我先抛出答案：

1）当X中的各列独立时，X^TX必可逆。

为了验证这个答案的正确性，让我们先将问题转化一下。当X中各列独立时，实际上就意味着N(X)中仅仅包括零向量；而前述提到，当X^TX可逆时，N(X^TX)也仅包含零向量。所以，如果我们能够证明下述：

2）N(X)和N(X^TX)是相同的（Identical）。

就相当于证明了定理1）！如何证明定理2）呢？我们先来看N(X)中的向量c是否总落在N(X^TX)中：

很好！接下来我们再来看看N(X^TX)中的向量d是否总落在N(X)中：

好！现在两方面都验证了，我们成功证明了定理2），也就自然而然得出了定理1）。同时，通过定理2）的证明，我们还可以多看一步：定理1）反过来也是成立的（X各列独立是X^TX可逆的充要条件）！

现在让我们回到这篇文章的主题，多重共线性为什么会出问题呢？我们想象一种多重共线性的极端情况，也就是某两个x变量的数值完全相同，那是不是就是在说明X中的有两条相同的列，或者说，X中的列不独立。由于我们已经证明了定理1）中的二条件互为充要条件，我们可以得出此时X^TX也不可逆——这就造成了我们有关于b的方程不再能够求解。

大家或许听说过Lasso regression和ridge regression，它们的中文翻译分别为：套索回归和岭回归（Stupid translation!）。这两种回归都可以解决多重共线性的问题，而对它们原理的一种解释就是它们会给X^TX加入一些元素，让它从不可逆变为可逆……

但我们知道，多重共线性只会导致beta系数估计值的方差过大，我们仍旧能够获得最终的模型参数估计，那么这些估计值到底是如何获得的呢？我还不知道，后续知道了或许会更新，或许就干脆不更新了。因为这明显已经要成为我公众号最“天书”的一篇文章了，以后要少更这种文章，以免让读者以为作者已经成仙了……

http://mp.weixin.qq.com/s?__biz=MzU0MzEwOTE2MQ==&mid=2247484648&idx=1&sn=eb2ed346108a16dcf1bebd11af13958c

PsychoStatisticia

一个统计学研究者的个人天地

最新文章

聊聊为什么很多留学生的英语水平如此之差

用R语言实现科研数据高效预处理（一）

记录一下读博以来和导师的第一次“吵架”

在课题组里该不该用“师兄师姐”这样的敬称？

统计学是不是一门独立学科？

3分钟快速理解卷积的直观含义

思考鄙视链是突破认知瓶颈的最好方法

主成分分析（PCA）的数学推导

聊聊我对是否应该留在学术圈的一些思考

当统计检验不显著时，为什么要说“无法拒绝零假设”

如何获取优质的知识/信息源

【结构方程模型系列】结构方程模型与线性回归的联系

统计学上的无偏性，一致性以及有效性是什么？

我在荷兰大学的博士第一周

透彻解析拉格朗日乘数法

谈谈我对Ridge回归数学原理的一些新理解

【线性代数】二次型转化的小技巧与应用

12周统计提高班公开招生

【线性代数】直观理解伪逆矩阵

第一期统计学私教课学员反馈

写公众号半年了，来看看我赚了多少钱！

粉丝群入群新规则

贝叶斯与最大似然估计的联系

聊聊我成年后学会的最重要的人生道理

第一本讲义出炉+新粉丝群进群规则

聊聊回国一个多月来最大的感受

假设检验讲义早鸟价最后一天！！！

NBA球星告诉你，统计学中的辛普森悖论到底是什么？

可视化理解固定/随机效应模型

探讨极端值（Outliers）对回归模型的影响

从统计学的角度探讨中国奥运游泳队的服药疑云

985就读的我为什么要休学出国打工度假

聊聊我是如何实现谋生和理想的统一的

【旧文分享】聊聊培根与自我成长

贝叶斯与频数派的根本区别是什么？

发论文不应该成为做科研的主要目的

统计学讲义早鸟价订购+粉丝群新名额

聊一些中国人学习英语可能存在的错误认知

聊一个令我受益终生的学习秘诀/mindset

回国前聊聊在荷比念了两个硕士最大的收获

如何用一句话向外行人解释p值

为什么学好英语可能比数理化更有用

【线性装逼】全网最强奇异值分解证明

【线性天书】从线性代数的角度理解多重共线性的后果

本科生该不该积极参与科研项目？

【可视化理解特征向量】线代老师教不明白的，我来教！

为什么应该坚持阅读英文原文的学术著作

【线性代数】当我们在谈论特征根/特征向量时，我们到底在谈论什么？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉