PSYCH统计实验室
原理
当我们拥有包含一个自变量和一个因变量的数据集时,通常使用简单线性回归来量化两者之间的关系。然而,简单线性回归假设自变量和因变量之间的关系是线性的。用数学符号表示为:
Y = β0 + β1X + ε
其中,Y是因变量,X是自变量,β0是截距项,β1是系数,ε是随机误差。
但在实际中,自变量和因变量之间的关系可能是非线性的,因此使用线性回归会导致模型的拟合效果较差。解决自变量和因变量之间非线性关系的一种方法是使用多项式回归 (Polynomial Regression),用数学符号表示为:Y = β0 + β1X + β2X² + … + βhXʰ + ε
在这个方程中,h 是多项式的次数。随着 h 值的增加,模型能够更好地拟合非线性关系。
当自变量与因变量之间的关系为非线性时,我们会使用多项式回归。
散点图
检测非线性关系最简单的方法是绘制自变量与因变量的散点图。
例如,如果创建如下散点图,可以看到两个变量之间的关系大致呈线性,因此线性回归在这种数据上可能会有较好的表现。
如果散点图中两个变量之间的关系是非线性的,则应该使用多项式回归。
残差与拟合值图
另一种检测非线性关系的方法是对数据拟合一个简单线性回归模型,然后生成残差与拟合值的图。
如果残差大致均匀分布在零附近且没有明显的规律,那么简单线性回归可能已经足够。
然而,如果残差在图中表现出非线性模式,这就表明自变量与因变量之间的关系可能是非线性的。
计算模型的 R²
回归模型的 R² 值表明了因变量的变异中有多少百分比可以被自变量解释。
如果对数据集拟合了一个简单线性回归模型,但模型的 R² 值较低,这可能表明自变量与因变量之间的关系比简单的线性关系更为复杂,因此需要尝试使用多项式回归。
多项式回归的偏差-方差权衡
使用多项式回归时,存在Bias-Variance权衡。随着多项式次数的增加,偏差会减少,但方差会增加。与所有机器学习模型一样,研究者必须找到偏差和方差之间的最佳权衡。在大多数情况下,适当增加多项式的次数会有所帮助,但超过某个值后,模型开始拟合数据中的噪声,mean squared error反而会增加。为了选择最优模型,研究者通常使用 k 折交叉验证来选择 MSE 最小的模型。
参考内容
Bobbitt, Z. (2020, November 18). An Introduction to Polynomial Regression. Statology. https://www.statology.org/polynomial-regression/
PSYCH统计实验室
通知公告
网络分析课程目前开放视频课啦
单次课200元/讲(学生),250元/讲(非学生)
共有四讲内容:
①横断面网络分析简介与基础
②网络分析与因子分析
③交叉滞后网络分析
④时间序列网络分析
购买后开放视频权限14天,可多次申请。
并赠送所有课程相关资料(无PPT)
如果想申请购买,请联系M18812507626
更多资讯
关注我们
文稿:Ns
排版:Little Star
责编:Wink
审核:摘星
本文由“Psych统计自习室”课题组原创,欢迎转发至朋友圈。如需转载请联系后台,征得作者同意后方可转载。