审稿人：你以为100%准确率是好事吗？恰恰相反，都overfitting了！

文摘 2025-01-02 09:11 荷兰

过拟合是数据分析和模型学习中的一种常见现象，指模型在训练数据上表现出色，但在新数据（如验证集或测试集）上表现较差。过拟合的模型往往错误地解释了训练数据中的噪声和随机波动，但这些特性并不具有普遍性。尽管导致过拟合的原因很多，但是最直观的原因其实数数据集太少，但很多时候也很难重新返回做实验，学生还要面临试验进度的压力，那么这个时候有哪些方法可以挽救那些过拟合的模型呢？

今天的更新我们将最精准的介绍使用R语言如何检测和挽救过拟合的模型。

如何在 R 语言中检测过拟合？

检测过拟合的关键是比较模型在训练数据和验证/测试数据上的表现。以下是具体步骤：

1. 分离训练集和测试集

# 分割数据集
set.seed(123)
data <- mtcars
index <- sample(1:nrow(data), 0.8 * nrow(data))
train_data <- data[index, ]
test_data <- data[-index, ]

2. 训练回归模型

# 构建回归模型
model <- lm(mpg ~ ., data = train_data)
summary(model)

## ## Call: ## lm(formula = mpg ~ ., data = train_data) ## ## Residuals: ## Min 1Q Median 3Q Max ## -3.8774 -1.3957 -0.0511 0.8254 4.5637 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 21.48672 21.70872 0.990 0.3391 ## cyl -1.02280 1.35957 -0.752 0.4643 ## disp 0.02220 0.02531 0.877 0.3952 ## hp -0.01921 0.02852 -0.674 0.5114 ## drat 0.22504 1.89085 0.119 0.9070 ## wt -4.60044 2.37145 -1.940 0.0728 . ## qsec 0.83809 0.80049 1.047 0.3129 ## vs 0.76966 2.46407 0.312 0.7594 ## am 2.38345 2.51892 0.946 0.3601 ## gear -0.14113 1.77632 -0.079 0.9378 ## carb 0.29213 1.01352 0.288 0.7774 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 2.85 on 14 degrees of freedom ## Multiple R-squared: 0.8854, Adjusted R-squared: 0.8035 ## F-statistic: 10.82 on 10 and 14 DF, p-value: 5.62e-05

3. 计算训练和测试误差

# 训练集上的预测误差
train_predictions <- predict(model, newdata = train_data)
train_error <- mean((train_predictions - train_data$mpg)^2)

# 测试集上的预测误差
test_predictions <- predict(model, newdata = test_data)
test_error <- mean((test_predictions - test_data$mpg)^2)

# 比较误差
cat("训练误差:", train_error, "\n")

## 训练误差: 4.547055

cat("测试误差:", test_error, "\n")

## 测试误差: 6.70686

4. 可视化残差图

通过残差图直观了解模型的拟合情况：

# 残差图
plot(train_predictions, train_data$mpg - train_predictions, 
     main = "残差图", xlab = "预测值", ylab = "残差")
abline(h = 0, col = "red")

2. 如何挽救过拟合？

以下是三种常用方法来解决回归模型的过拟合问题：

2.1：简化模型

通过移除无关或贡献较小的变量，减少模型的复杂度：

# 使用逐步回归简化模型
library(MASS)
simplified_model <- stepAIC(model, direction = "both")

summary(simplified_model)

## ## Call: ## lm(formula = mpg ~ cyl + wt + qsec, data = train_data) ## ## Residuals: ## Min 1Q Median 3Q Max ## -3.7011 -0.9383 -0.4928 0.4565 5.2032 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 29.0418 8.7748 3.310 0.003334 ** ## cyl -1.1363 0.6673 -1.703 0.103340 ## wt -3.8857 1.0166 -3.822 0.000993 *** ## qsec 0.5921 0.4151 1.426 0.168428 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 2.492 on 21 degrees of freedom ## Multiple R-squared: 0.8686, Adjusted R-squared: 0.8498 ## F-statistic: 46.26 on 3 and 21 DF, p-value: 1.979e-09

2.2：正则化

使用正则化技术（例如岭回归或套索回归）来约束模型的复杂度：

# 岭回归示例
library(glmnet)

x <- model.matrix(mpg ~ ., train_data)[, -1]
y <- train_data$mpg
ridge_model <- cv.glmnet(x, y, alpha = 0) # alpha = 0 表示岭回归

plot(ridge_model)

best_lambda <- ridge_model$lambda.min
cat("最佳 lambda 值:", best_lambda, "\n")

## 最佳 lambda 值: 3.902739

# 在测试集上的预测
x_test <- model.matrix(mpg ~ ., test_data)[, -1]
ridge_predictions <- predict(ridge_model, s = best_lambda, newx = x_test)
ridge_error <- mean((ridge_predictions - test_data$mpg)^2)
cat("岭回归测试误差:", ridge_error, "\n")

## 岭回归测试误差: 4.657362

2.3：交叉验证

通过交叉验证选择最佳模型和超参数：

library(caret)

train_control <- trainControl(method = "cv", number = 5)
cv_model <- train(mpg ~ ., data = train_data, method = "lm", trControl = train_control)
print(cv_model)

## Linear Regression ## ## 25 samples ## 10 predictors ## ## No pre-processing ## Resampling: Cross-Validated (5 fold) ## Summary of sample sizes: 20, 20, 18, 21, 21 ## Resampling results: ## ## RMSE Rsquared MAE ## 3.489824 0.7471681 2.830507 ## ## Tuning parameter 'intercept' was held constant at a value of TRUE

小结

过拟合是模型过于复杂，导致训练数据表现优异但测试数据表现不佳。首推使用正则化技术（如岭回归或套索回归）而不是简单的线性模型。或者采用交叉验证确保模型泛化能力。相信通过这些方法，你的数据集还可以抢救。

感谢关注，你的支持是我不懈的动力！

科研代码

专注R和Python的数据分析。

最新文章

审稿人：为什么行业大牛的论文总喜欢用这个图？3个R包就能做！

印度青椒：我的爸爸不是校长，我还有希望吗？

审稿人：你以为100%准确率是好事吗？恰恰相反，都overfitting了！

海归博导：中国学生要自信！1个中国的好硕士顶国外的3个博士，组学数据分析已经超越国外同龄人！

审稿人：要警惕打着机器学习的名义“造”论文，特别是判别分析（LDA）

导师：人家隔壁组5行代码就做出了RCS图，你们行不行！

医学科研绘图：年底了，我还在做火山图返修论文，圣诞老人当场对我敬礼！

审稿人：一个Cox比例风险模型，拯救多少医学人的数据分析！

学R语言，看这两本教程就够了

裁员了，很严重，大家做好准备吧！

医学科研绘图：我用R画出这三个图，印度审稿人当场向我敬礼！

“颜值就是影响因子”：R可视化美学提升之条形图代码

资深博导：我从不反对用ChatGPT搞科研，但你得学会用啊！报个班吧，组里给你花钱！

审稿人：看在你弦图好看的份上，勉强大修！R画的吧？

tiff还是png？原来R做PCA绘图可以随意设置分辨率。300dpi，提交！

资深博导：你得学会用R导出图表啊！你是想给我代码让我自己run吗？

为什么说在中国做科研最忌讳踏实？

审稿人：你都用ggplot2画图了，就不能提高下审美吗？

视频教程：主成分分析，视频号，已出道！

打破记录！“真心建议” 大家读一下这篇《Nature》重磅文章

审稿人：PCA的误区就是"分类"，但Python可以画得很漂亮！

审稿人：神经网络就比线性模型高级吗？R代码一模一样！

今年顶会这情况。。。大家提前做准备吧！

资深博导：你用上中下三种方法重新画一个聚类分析图，准备发NC!

堪比诺奖级别！曾被审稿人拒稿多次，R和python惊现神级操作，还得是寒门学子！

审稿人：贝叶斯分类模型不是“画圈圈”，跟判别模型其实不一样！

审稿人：我看的是你的三种回归建模吗？，我要的你的诚意！同意接收！

4万粉丝福利送书：说说做微信公众号的心得体会

杂志编辑：随机森林别做太复杂，审稿人哪里懂什么超参数

杂志编辑：别argue了，交叉验证不做？审稿人拒稿你，也正常啊。

来了！GPT4o接入个人微信！！

审稿人：一篇论文，三种热图的计算方法都用上，年轻人！不讲武德啊。

导师说：这就是你的线性模型？不如直接用非线性回归。

学R语言，看这两本教程就够了

研究生期间靠自己买车买房的都是些什么人？

R的ggplot2碾压Python的Seaborn + Matplotlib？我不知道，不过都比盗版的origin强

导师问：你R代码没写对啊，第一句就报错“no package called ‘ggplot2’”？如何高情商回答！

答辩专家：这就是能发Nature的随机森林R语言代码吗？

ChatGPT: 三句话，我让审稿人爱上你的配色！

印度导师：我喜欢中国学生，自学能力强，能够自己找标准数据集学习数据分析。

唐长老怒斥：白骨精会用三种语言写代码，你把她打死干什么？你以为你是chatGPT啊

审稿人：就是你们实验室一直用线性回归发表论文吗？

杀疯了，天才博士少年连发Nature：科研工作者使用GPT迎来突破性进展

导师：你去画一些好看的热图(Heatmap)来！用R！

导师30岁：“伸手党”才是好学生，很多学生遇到R包报错就不学了！

文末赠书| 科技论文写作：如何应对奇葩审稿人？

海归博导：还是中国学生靠谱，像R数据导入这种基本操作，在国外得手把手教！

生命科学数据分析技能普及（第一批）

中英文致谢教程：怎样把5个前女友都放到致谢里？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉