资深博导：学生问为什么训练集要三七分？我懵了！

文摘 2024-08-06 09:01 爱尔兰

数据科学中，数据集的拆分是建模的重要一部分。一个常见的问题是：该怎样决定数据拆分的比例？很多学生只会从网上照抄代码，网上的代码有时候三七分，有时候二八分，当然会让初学者好奇这是为什么？今天我们将详细解答这个问题，并以支持向量机（SVM）算法为例，展示数据集拆分、建模、评价和可视化的完整过程。

数据集拆分的重要性

在机器学习中，我们通常将数据集拆分为训练集和测试集。训练集用于训练模型，而测试集用于评估模型的性能。常见的拆分比例有70:30、80:20等。选择合适的比例非常重要，因为它会影响模型的训练效果和泛化能力。

为什么选择70:30？

训练效果：大多数情况下，70%的数据用于训练模型足以捕捉数据的模式。
评估效果：30%的数据用于测试模型，可以有效评估模型的泛化能力。
数据量：如果数据量较大，70:30的比例可以确保训练和测试集都有足够的数据。

支持向量机（SVM）分类模型示例

接下来，我们以R语言的“iris”数据集为例，使用SVM算法进行分类，并展示模型的评价和结果可视化。

步骤一：加载必要的包和数据

# 加载必要的包
library(caret)
library(e1071)
library(ggplot2)

# 设置随机种子以确保可重复性
set.seed(123)

# 加载数据集
data(iris)
X <- iris[, 1:4]
Y <- iris[, 5]

步骤二：数据集拆分为训练集和测试集

# 数据集拆分为训练集和测试集（70:30）
trainIndex <- createDataPartition(Y, p = 0.7, list = FALSE)
trainData <- X[trainIndex, ]
testData <- X[-trainIndex, ]
trainLabel <- Y[trainIndex]
testLabel <- Y[-trainIndex]

步骤三：构建支持向量机模型

# 构建支持向量机模型
svm_model <- svm(trainData, as.factor(trainLabel), kernel = "linear")

步骤四：预测测试集并评价模型

# 预测测试集
test_predictions <- predict(svm_model, newdata = testData)

# 模型评价
confusion_matrix <- table(Predicted = test_predictions, Actual = testLabel)
accuracy <- sum(diag(confusion_matrix)) / sum(confusion_matrix)

cat("Confusion Matrix:\n")

## Confusion Matrix:

print(confusion_matrix)

##             Actual
## Predicted    setosa versicolor virginica
##   setosa         15          0         0
##   versicolor      0         15         1
##   virginica       0          0        14

cat("\nAccuracy:", accuracy, "\n")

## 
## Accuracy: 0.9777778

步骤五：可视化预测结果

# 绘制预测结果的散点图
testData_with_labels <- data.frame(testData, Predicted = test_predictions, Actual = testLabel)

ggplot(testData_with_labels, aes(x = Petal.Length, y = Petal.Width, color = Actual, shape = Predicted)) +
  geom_point(size = 3) +
  theme_minimal() +
  ggtitle("SVM Classification: Test Set Predictions vs Actual Labels") +
  theme(
    plot.title = element_text(hjust = 0.5, size = 16, face = "bold"),
    axis.title = element_text(size = 14, face = "bold"),
    legend.title = element_text(size = 12, face = "bold"),
    legend.position = "right"
  ) +
  labs(
    x = "Petal Length",
    y = "Petal Width",
    color = "Actual Species",
    shape = "Predicted Species"
  )

总结

在本文中，我们介绍了数据集拆分的重要性，并详细说明了为什么常用70:30的比例。通过支持向量机（SVM）分类模型的实例，我们展示了如何进行数据集拆分、模型构建、模型评价和结果可视化。希望大家对数据集拆分有更深入的理解。

感谢关注！

http://mp.weixin.qq.com/s?__biz=MzI2MTkxOTgzMQ==&mid=2247486862&idx=1&sn=50a15fe2ac3d23cf5f2d651554b2a981

科研代码

专注R和Python的数据分析。

最新文章

文氏图还是韦恩图？糟糕的翻译，但R和Python代码可以！

医学生：我就爱用R怎么了？

审稿人：我只用星星标注显著性差异！

宣布了！博士、教授们！

审稿人：你的PCA没分开啊，分辨率也太低了！

审稿人：学会线性回归，学会用AI发论文。

条形图代码：你用了，论文就接收了！

永久激活GPT4.0！有效期至2296年，我上车了！！

恰恰相反，R和Python都比SPSS好用！

学会了，R配色！

羽哥，我总是免费给女神做显著性分析，这样做对吗？

小羽的书屋：我学数据分析用过的那些书

审稿人: 相关性那么高，是因为你的异常值吧。

用个人网站代替简历，你不知道的找工作捷径（R+github+hugo）

36岁程序员：老板最喜欢用聚类分析啊，你得学会啊！

为什么总感觉用R的人比用Python的多？

资深审稿人向我道歉，请求不要再用PCA分析数据了

审稿人：你看看机器学习和深度学习相结合都应用在哪里？

从Rstudio转向Pycharm，真香！

审稿人：你为什么不用PyTorch包做机器学习?

科研代码：我喜欢Rstudio，我怕它凉了！

审稿人：贝叶斯统计建模, 正在大量发表！

三行代码调用你想要的数据集，请直接拿去！

学R代码，看这两本教程就够了

数据新生：随便搞搞分析，有必要知道Pipeline吗？

成立了！博士们！

审稿人：我沉迷PLSDA分类，再也不用线性分析

资深HR: 我们其实很少招聘只会R语言的毕业生

审稿人：最好用的模型评价不就是准确率嘛?

恭喜各位天命人！资助45681项！24年国自然结果公布！专业评审直播解读，连麦答疑！

审稿人：我看够套路写的文章了，尤其是PCA搭配分类模型

黑神话悟空：如来如果会写代码？判别分析就很简单

太香了，用GPT-4o做科研，免费帐号GPT4.0，我上车了！！

最快完成数据分析发论文，还是得用SPSS

审稿人：最适合新手发论文的判别模型，不用修改稿！

藏不住了！大牛帮选刊投稿后，被拒的5篇SCI全中了！

科研代码：国内对开放获取的偏见该放下了！

我说Scikit-learn是最简单的机器学习库，谁赞成？谁反对？

永久激活GPT4.0！有效期至2296年，我上车了！！

PCA降维：维度其实是一个很难理解的概念

审稿人竟然说SVM只能用来二元分类？绷不住了

学R不好找工作？我们公众号也有自己的知识星球了

审稿人：别让本科生写论文了，他们甚至没做数据预处理！

文末赠书|AI for Science：AI+生命科学的落地应用

学R代码，看这两本教程就够了

新扎师妹：最烦用API调用数据了，一堆乱码！

经验之谈：做科学公众号，一年三万粉丝，收获是学会挨骂

宣布了！博士们！

资深博导：学生问为什么训练集要三七分？我懵了！

轰动科研代码界 | 创世界首列，运用此技术连发多篇顶刊， GPT-4o科研论文与算法，太强了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉