谈谈我对Ridge回归数学原理的一些新理解

文摘   2024-09-14 08:01   荷兰  

Ridge回归是一个在数学原理方面困扰了我很久的统计方法,今天稍微多想明白了一些,就把它总结一下。内容中会涉及到很多的数学运算,我也不会逐一讲解很多背景内容,所以对该话题不了解的读者在阅读过程中如果觉得跳跃,是很正常的事情。


我在课上学习Ridge时,最先碰到的是如下这个公式:

【公式1】

上式第一项为我们在做least squares的残差平方和,Ridge和普通的回归不同,Ridge加入了第二项Penalty term,在这一项的控制下,x中所有系数的平方和(l2-norm)不能过大,从而起到了防止过拟合(Overfitting)和变量选择(Variable Selection)的目的。


但是除了这个公式,我还碰到过这样一个公式,也是Ridge回归下的:

【公式2】

因为Ridge有一个应用情境是在多重共线性下,矩阵A呈现nearly singular的情况时,矩阵ATA也会面临相同的问题。这时,我们可以给这个矩阵加上δ2倍的单位矩阵,就可以免受这个问题。


我今天想要讨论的问题是,我们如何将公式1,与公式2联系起来呢?

因为我们需要最小化公式1,所以我们可以做在least squares中相同的事情,先对对公式1求导:

这里用到了矩阵求导的知识,可能有没接触过矩阵求导或者不太熟练的读者,如果你对矩阵求导感兴趣,也可以给我留言,等我后面总结得差不多了也可以写一篇总结。

我们接下来可以将上式等于0

如上,我们成功得到了公式2的结果,这个计算过程我接触的大多数教科书里面都不会提到,比如Gilbert Strang”Linear Algebra Learning from Data”一书就直接引出了公式2,再比如”The Elements of Statistical Learning”中直接说这个很简单,我就不算了……

(所以说,也难怪很多人不爱学数学,有时候看到这种话真的很心态爆炸啊!)


我们还可以再来观察下公式2还告诉了我们什么。我们知道,在惯常的Least squares中,我们要求解Ax=b的最优解(最小化残差平方和),进一步获得了Normal equationATAx=ATb。

那么在Ridge Regression中,我们其实可以Ax=b其实被改写成了如下的样子:

【方程1】

实际上,Ridge回归就是在原来的A下方添加了一个单位矩阵,然后将对应b向量中增加的元素用0填充。我们可以用矩阵分块乘法先来验证一下这个新的矩阵A*是否符合公式2的描述:

我们还可以将方程1与公式1联系起来,我们可以通过矩阵分块乘法将方程1改写成如下方程组:

我们可以将如上方程组理解为我们同时对方程组的两个方程进行least squares,来确保它们二者的残差平方和最小,也就是最小化公式1


如上,就是我对于Ridge回归的一些新的理解,相似的思路应该也可以套用在Lasso回归上,但我还没有尝试。我现在觉得我对Regularized Regression的理解还有欠缺,还差很多才可以达到自圆其说的地步,所以我会在等我完全理解了以后再写一些读者/新手友好的,教材式的文章。以上的笔记总结主要是一种分享,如果有一样在学习相似问题的读者,这些内容或许可以给你一些启发!

--------------------------------

最后,还是照常给自己打一波广告,我的统计提高班目前还剩一个名额,有兴趣的读者和朋友可以抓紧,详情可见:

12周统计提高班公开招生


PsychoStatisticia
一个统计学研究者的个人天地
 最新文章