从不会到不怕——线性回归

文摘   2024-10-27 05:08   德国  

线性回归的基本概念

假设我们有一组小鼠的数据,其中记录了小鼠的体重(自变量)和体型(因变量)。我们希望通过小鼠的体重来预测其体型。

在这个过程中,我们会绘制体重与体型的散点图,并试图在图中找到一条直线,尽可能“靠近”所有的数据点。靠近数据点的意思是使得每个点到直线的距离之和最小。这就是最小二乘法的核心。

最小二乘法的具体过程

最小二乘法用于确定最佳拟合直线。具体步骤如下:
  1. 绘制一条直线:随意选一条直线,并测量每个数据点到该直线的距离。
  2. 计算残差:残差是数据点到直线的垂直距离。我们用这个距离的平方来表示误差。
  3. 计算误差平方和(RSS):将每个残差平方相加得到误差平方和。
  4. 旋转直线:不断调整直线的位置和角度,直到找到一个位置,使得误差平方和最小。
通过这种方法得到的直线叫做最小二乘法拟合直线。这条线的数学表达式是:

R 平方值(R²)——衡量拟合效果

R 平方值(R²)用于表示模型的拟合效果,它可以告诉我们自变量(体重)对因变量(体型)的解释程度。R² 值的范围是 0 到 1,值越接近 1,说明模型越能解释数据的变化。计算 R² 的公式为:

其中:
  • SST(总平方和):所有数据点到均值的距离平方和。反映了数据的总变异性。
  • SSR(残差平方和):所有数据点到拟合直线的距离平方和。反映了模型未能解释的变异性。

举例

假设我们计算出以下数据:

意味着体重可以解释体型 60% 的变异性。

调整后的 R²——防止过度拟合

当我们加入更多变量(如尾巴长度)时,可能会让 R² 值增加。然而,并不是所有增加的变量都有助于解释因变量的变化,这可能导致过度拟合。为避免这种情况,可以使用调整后的 R²,其公式会考虑变量的数量,减少无效变量带来的影响。

p 值和 F 统计量——确定结果的显著性

R² 值能告诉我们模型的拟合程度,但不能确认这种关系是否显著。因此,我们还需要计算 p 值来判断结果的显著性。

F 统计量的计算过程

F 统计量通过以下公式计算:
在这里,我们将已解释的变异性(R² 的分子)与未解释的变异性(R² 的分母)进行对比。如果 F 值较大,说明模型中的变量(如体重)对因变量的影响显著。

p 值的解释

p 值是统计显著性检验的结果。较小的 p 值(一般小于 0.05)表示模型的效果显著,即体重与体型之间的关系并非偶然。

示例总结

假设我们有以下数据和结果:

总结
线性回归分析的关键在于找到最佳拟合直线评估其解释效果。R² 值衡量模型的拟合度,调整后的 R² 避免过度拟合,而 F 值和 p 值则判断结果的显著性。通过这些指标,可以更好地判断模型的有效性和预测能力。

Dr Leo
ENT医生的科研分享
 最新文章