多项式回归的原理与操作

文摘 2024-10-12 09:43 北京

PSYCH统计实验室

原理

当我们拥有包含一个自变量和一个因变量的数据集时，通常使用简单线性回归来量化两者之间的关系。然而，简单线性回归假设自变量和因变量之间的关系是线性的。用数学符号表示为：

Y = β0 + β1X + ε

其中，Y是因变量，X是自变量，β0是截距项，β1是系数，ε是随机误差。

但在实际中，自变量和因变量之间的关系可能是非线性的，因此使用线性回归会导致模型的拟合效果较差。解决自变量和因变量之间非线性关系的一种方法是使用多项式回归 (Polynomial Regression)，用数学符号表示为：Y = β0 + β1X + β2X² + … + βhXʰ + ε

在这个方程中，h 是多项式的次数。随着 h 值的增加，模型能够更好地拟合非线性关系。

什么时候使用多项式回归

当自变量与因变量之间的关系为非线性时，我们会使用多项式回归。

散点图

检测非线性关系最简单的方法是绘制自变量与因变量的散点图。

例如，如果创建如下散点图，可以看到两个变量之间的关系大致呈线性，因此线性回归在这种数据上可能会有较好的表现。

如果散点图中两个变量之间的关系是非线性的，则应该使用多项式回归。

残差与拟合值图

另一种检测非线性关系的方法是对数据拟合一个简单线性回归模型，然后生成残差与拟合值的图。

如果残差大致均匀分布在零附近且没有明显的规律，那么简单线性回归可能已经足够。

然而，如果残差在图中表现出非线性模式，这就表明自变量与因变量之间的关系可能是非线性的。

计算模型的 R²

回归模型的 R² 值表明了因变量的变异中有多少百分比可以被自变量解释。

如果对数据集拟合了一个简单线性回归模型，但模型的 R² 值较低，这可能表明自变量与因变量之间的关系比简单的线性关系更为复杂，因此需要尝试使用多项式回归。

多项式回归的偏差-方差权衡

使用多项式回归时，存在Bias-Variance权衡。随着多项式次数的增加，偏差会减少，但方差会增加。与所有机器学习模型一样，研究者必须找到偏差和方差之间的最佳权衡。在大多数情况下，适当增加多项式的次数会有所帮助，但超过某个值后，模型开始拟合数据中的噪声，mean squared error反而会增加。为了选择最优模型，研究者通常使用 k 折交叉验证来选择 MSE 最小的模型。

操作

library(ggplot2)

set.seed(1)

# 创建数据集

df <- data.frame(hours = runif(50, 5, 15), score=50)

df$score = df$score + df$hours^3/150 + df$hours*runif(50, 1, 2)

# 查看生成的数据

head(df)

# hours score

# 1 7.655087 64.30191

# 2 8.721239 70.65430

# 3 10.728534 73.66114

# 4 14.082078 86.14630

# 5 7.016819 59.81595

# 6 13.983897 83.60510

# 绘制散点图

ggplot(df, aes(x=hours, y=score)) +

geom_point()

# 将数据集随机打乱

df.shuffled <- df[sample(nrow(df)),]

# 参数设置

K <- 10

degree <- 5

# 将数据划分为十份

folds<- cut(seq(1,nrow(df.shuffled)),breaks=K,

labels=FALSE)

# 创建 MSE 存储矩阵

mse = matrix(data=NA,

nrow=K,ncol=degree)

# 进行 k 折交叉验证

for(i in 1:K){

testIndexes <- which(folds==

i,arr.ind=TRUE)

testData <- df.shuffled[testIndexes, ]

trainData <- df.shuffled[-testIndexes, ]

for (j in 1:degree){

fit.train = lm(score ~

poly(hours,j), data=trainData)

fit.test = predict(fit.train, newdata

=testData) mse[i,j]=mean

((fit.test- testData$score)^2)

}

# 计算每个多项式次数的平均 MSE

colMeans(mse)

# 9.886172 8.589655 9.439514

10.214915 12.745574

# 根据结果可知，2此项的MSE值最小，

为8.589655

best = lm(score ~ poly(hours,2,

raw=T), data=df)

# 绘制最终的结果图

ggplot(df, aes(x=hours, y=score)) +

geom_point() +

stat_smooth(method='lm', formula =

y ~ poly(x,2), size = 1) +

xlab('Hours Studied') +

ylab('Score')

下

滑

查

看

更

多

参考内容

Bobbitt, Z. (2020, November 18). An Introduction to Polynomial Regression. Statology. https://www.statology.org/polynomial-regression/

PSYCH统计实验室

通知公告

网络分析课程目前开放视频课啦

单次课200元/讲（学生），250元/讲（非学生）

共有四讲内容：

①横断面网络分析简介与基础

②网络分析与因子分析

③交叉滞后网络分析

④时间序列网络分析

购买后开放视频权限14天，可多次申请。

并赠送所有课程相关资料（无PPT）

如果想申请购买，请联系M18812507626

更多资讯

关注我们

文稿：Ns

排版：Little Star

责编：Wink
审核：摘星

本文由“Psych统计自习室”课题组原创，欢迎转发至朋友圈。如需转载请联系后台，征得作者同意后方可转载。

Psych统计自习室

大家好，我们是由来自北京师范大学，西南大学，天津医科大学等高校在读硕士、博士研究生组成的一个科研团队——Psych统计自习室。Psych统计自习室旨在关注心理学、精神病学领域的最前沿的系列研究，并做前沿统计知识的分享。

最新文章

如何在r中进行并行运算（一）

龙年的最后一天｜我们一起辞旧迎新

有调节网络中的AND和OR规则

数据可视化指南：如何⽤ R 绘制误差条图？

多水平数据中的验证性因素分析和潜在类分析——多水平因子混合模型

【重磅来袭！】Psych统计自习室寒假培训班第二轮火热报名中！

随机截距交叉滞后模型时间不变控制变量

如何用R语言进行量表的测量不变性检验

轻松掌握三种语言实现随机抽样的代码秘籍

跟着顶刊学配色

招新公告：Psych统计自习室招募新成员啦

（因果）贝叶斯网络与有向无环图（DAG）在因果推断中的应用

jamovi应用系列——潜剖面分析

有调节网络的应用实例

如何将 DICOM 格式的图像转换为 NIfTI/BIDS 格式（二）

贝叶斯网络在精神病理学研究中的应用

社交媒体成瘾纵向追踪实验主试招募令

【重磅来袭！】Psych统计自习室寒假培训班火热报名中！

密集追踪数据处理之贝叶斯多水平中介分析(1-1-1模型)

学习向量量化（Learning Vector Quantization ，LVQ)）及其扩展方法

如何将 DICOM 格式的图像转换为 NIfTI/BIDS 格式（一）

喜报| 粉丝破万，万幸有你！

申请国自然博士生项目经验

心理障碍的网络理论系列（一） ——为什么将心理障碍建模为网络

结构化残差-潜增长曲线模型（LCM-SR）

一文带你走进智能引擎的后台——知识图谱（Knowledge Graph）

如何使用JASP进行网络分析（简单易上手的教程）

有调节的网络中如何检验特定调节作用是否存在

初识Stan：一个简单的多层回归建模指南

reslice详解｜fmri数据处理细节

全教程：横断面网络分析中的网络比较

科普｜QSIprep：简化你的扩散MRI数据预处理之旅

回复贴：GBTM与LCGM

多模态脑影像数据处理方案

潜变量随机截距交叉滞后模型

Rstan和cmdstanr的安装及比较

网络“温度(temperatur)”——评估心理症状网络稳定性的新指标

社区检测中的Overlapping symptoms——基于Clique Percolation算法

如何使用R语言绘制双因子模型

平行潜类别增长模型

置换检验(Permutation tests)的原理和R语言实现

基于Plsgui处理sMRI操作流程|结构共变网络

开放科学下的纵向网络分析——纵向网络分析的预注册指南

Bootstrap抽样技术的简单介绍

利用 GAMLSS 对心理测验进行基于回归的常模分析

随机截距交叉滞后模型多组比较

多项式回归的原理与操作

双因子模型(bi-factor model)的简介及文章介绍

生存分析2 生存分析的操作过程与R实践

生存分析在SPSS上的实践

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉