线性回归的基本概念
假设我们有一组小鼠的数据,其中记录了小鼠的体重(自变量)和体型(因变量)。我们希望通过小鼠的体重来预测其体型。
最小二乘法的具体过程
绘制一条直线:随意选一条直线,并测量每个数据点到该直线的距离。 计算残差:残差是数据点到直线的垂直距离。我们用这个距离的平方来表示误差。 计算误差平方和(RSS):将每个残差平方相加得到误差平方和。 旋转直线:不断调整直线的位置和角度,直到找到一个位置,使得误差平方和最小。
R 平方值(R²)——衡量拟合效果
R 平方值(R²)用于表示模型的拟合效果,它可以告诉我们自变量(体重)对因变量(体型)的解释程度。R² 值的范围是 0 到 1,值越接近 1,说明模型越能解释数据的变化。计算 R² 的公式为:
SST(总平方和):所有数据点到均值的距离平方和。反映了数据的总变异性。 SSR(残差平方和):所有数据点到拟合直线的距离平方和。反映了模型未能解释的变异性。
举例
意味着体重可以解释体型 60% 的变异性。
调整后的 R²——防止过度拟合
p 值和 F 统计量——确定结果的显著性
F 统计量的计算过程
p 值的解释
p 值是统计显著性检验的结果。较小的 p 值(一般小于 0.05)表示模型的效果显著,即体重与体型之间的关系并非偶然。