从不会到不怕 —— 多元回归

文摘   2024-10-28 03:35   德国  

简单回归 vs 多元回归

简单回归的目的是找到自变量和因变量之间的线性关系。例如,假设我们想用“鼠标的体重”来预测“身体长度”,我们可以拟合出一个线性方程:
其中,aaa 是截距,bbb 是体重的回归系数。
多元回归则允许我们增加多个自变量来提升预测准确性。比如,在预测鼠标的身体长度时,我们可以使用“体重”和“尾巴长度”这两个变量。多元回归方程将扩展为:

多元回归的基本原理:高维空间与附加维度

在简单回归中,拟合的数据是一条直线,但在多元回归中,我们实际上是在拟合一个“平面”或更高维的对象。例如:
  • 当有两个自变量(体重和尾巴长度)时,模型是一个二维平面。
  • 如果再加入第三个变量(比如食物摄入量),模型就变成三维空间的拟合。

这并不复杂,实际操作上只是引入更多的数据变量,让模型能够更加灵活和精确。

R平方(R²)的计算与调整

R平方是衡量模型拟合效果的指标。它表示自变量可以解释因变量的变异比例。R平方的计算公式为:
  • SS Residual:模型预测值与实际值之间的平方和。
  • SS Total:实际值与均值之间的平方和。

在多元回归中,为了补偿增加的变量数量,使用“调整后的R平方”。调整后的R平方考虑了自变量的个数,避免因引入过多变量导致R平方值虚高的问题。

p值和F值的计算方法

p值是判断模型显著性的指标。我们可以通过F检验来计算p值,方法如下:
  • P_fit(拟合参数数量):等于模型中所有估计参数的数量。
    • 简单回归:P_fit = 2(截距 + 自变量)
    • 多元回归:P_fit = 3(截距 + 2个自变量)
  • P_mean(均值参数数量):在简单和多元回归中均为1,因为都只有一个因变量的均值。

在多元回归中,如果增加自变量导致F值较大、p值较小,说明增加该自变量的效果显著。

多元回归的具体示例

假设我们有以下数据集,记录了几只鼠标的体重、尾巴长度和身体长度:

6. 简单回归与多元回归的比较

简单回归:只使用体重预测身体长度。模型可能为:
多元回归:使用体重和尾巴长度共同预测身体长度。模型可能为:
计算R平方和F值:
我们使用R平方和F值来评估模型。以下是简单回归和多元回归的拟合效果对比表:
从表中可以看出:
  • 多元回归的R平方和调整后R平方均比简单回归高,表明增加尾巴长度这个变量提升了模型的拟合效果。
  • F值增加,且p值降低,表示加入尾巴长度这一变量后,模型的预测效果显著提高。

应用建议

多元回归可以通过引入多个自变量来提高模型的解释力,但需要合理选择变量,避免“过拟合”。在增加变量后,通过R平方、F值和p值的变化,可以判断这些变量是否值得加入模型。

总结

Dr Leo
ENT医生的科研分享
 最新文章