描述变量间的关系是科研活动的基石,而我们常将描述这种关系的工具称做函数,它们可以是单一的方程,也可能是一组函数。函数的本质是对真实世界的简化,但同时,我们又需要它们尽可能准确地反映真实世界,换成学术上的说法,对函数的核心要求是:在输入自变量后,函数输出的因变量和真实世界的观测值的差值应尽可能的小,为此,我们常借助一些方法来找到那个最优的函数,而最常用的方法就是最小二乘法。
先来看最常见的线性关系的拟合,这是最小二乘法最能发挥作用的场景。
首先是一个自变量的情况,我们需要找到自变量x和因变量y之间的关系。根据观测,认为二者间最可能存在线性关系。于是,我们构造出了熟悉的一元一次方程:m是斜率,c是截距,他们被统称为参数。问题转变:找到这样一条直线,使其能最好地描述图中蓝点的“走势”。什么是“最好”?我们需要定量比较,与该过程对应的方法就被称作最小二乘法。顾名思议,“二乘”即为平方,是真实观测值和模型预测值之间的差值,即二者的距离;“最小”指的是上述所有距离的平方和要最小,符号化上文的表达得到下面的计算公式。
平方运算会放大差异,因此,我们应该格外小心那些数据中的极值。
如上图所示,绿色线为蓝色数据点拟合出来的直线;然而,若是在数据中出现如蓝色x所示的极值点,应用最小二乘法拟合后的直线(红色)会发生较大的变化。为此,我们应根据实验需求思考是否应该保留这些极值点,同时,这些极值数据点也提醒我们在数据记录过程中可能存在的问题。回到最小二乘法的算法上来。上述等式右边为一个二次函数,xi和yi已知,m和c未知,求其最大值的过程就是求其导数为0时m和c的值,于是分别对m和c求偏导,再连立两个等式,解二元一次方程组即可求得m和c的值。(详细推导过程见文末链接)惊喜的是,斜率m的求解公式符合直觉,即m等于y因为x的改变而改变的程度(自变量和因变量的协方差除以自变量的方差,这步除法类似于均一化处理,避免由自变量本身较大的分布范围引起的协方差过大的情况出现)。上文中我们所有的讨论都是针对单一自变量的,但更多情况下,是众多变量的组合诱发了一个结果,此时我们就需要建立多元回归模型了。
最小二乘法的基本思想不变,只是在求解过程中加入矩阵运算来简化书写和计算过程。每一个自变量都对应一个或多个系数,我们将这些系数组成的参数矩阵称作β。略去计算过程,我们直接得到下面的参数计算公式。(详细推导过程见文末链接)值得一提的是,在应用最小二乘法前,有三个条件需要满足:上述3点的证明涉及到较繁琐的证明过程,此处给大家提供感性理解:前两个条件都是为了确保假设检验的有效性。当残差符合正态分布时,估计系数的统计性质(如置信区间和显著性检验)才能被准确计算;方差齐性(即方差不变)保证了估计量的有效性和标准误的准确性。当自变量之间高度相关(即存在多重共线性)时,最小二乘法难以准确区分每个自变量的独立影响。这会导致估计的系数不稳定,意味着小的数据变化可能引起系数的大幅波动,增大了系数估计的方差。结果是模型的可靠性降低,预测精度受影响。减少自变量间的多重共线性有助于提高模型的稳定性和精确性。
审校
阮神辉(Karlsruhe Institute of Technology流体力学专业博士在读)
公式推导过程可参考如下网址:
https://www.bilibili.com/video/BV1Z64y1V7y4/?spm_id_from=333.337.search-card.all.click&vd_source=1a187ae35da0ac903fffd185ee9b0224