详解机器学习中的7种交叉验证方法！

科技 2024-11-22 09:03 中国香港

点击上方“小白学视觉”，选择加"星标"或“置顶”
重磅干货，第一时间送达
来源：机器学习社区、数据派THU

在任何有监督机器学习项目的模型构建阶段，我们训练模型的目的是从标记的示例中学习所有权重和偏差的最佳值。

如果我们使用相同的标记示例来测试我们的模型，那么这将是一个方法论错误，因为一个只会重复刚刚看到的样本标签的模型将获得完美的分数，但无法预测任何有用的东西 - 未来的数据，这种情况称为过拟合。

为了克服过度拟合的问题，我们使用交叉验证。所以你必须知道什么是交叉验证？以及如何解决过拟合的问题？

什么是交叉验证？

交叉验证是一种用于估计机器学习模型性能的统计方法，它是一种评估统计分析结果如何推广到独立数据集的方法。

它是如何解决过拟合问题的？

在交叉验证中，我们将训练数据生成多个小的训练测试分割，使用这些拆分来调整您的模型。例如，在标准的 k 折交叉验证中，我们将数据划分为 k 个子集。然后，我们在 k-1 个子集上迭代训练算法，同时使用剩余的子集作为测试集。通过这种方式，我们可以在未参与训练的数据上测试我们的模型。

在本文中，我将分享 7 种最常用的交叉验证技术及其优缺点，我还提供了每种技术的代码片段，欢迎收藏学习，喜欢点赞支持。

下面列出了这些技术方法：

HoldOut 交叉验证
K-Fold 交叉验证
分层 K-Fold交叉验证
Leave P Out 交叉验证
留一交叉验证
蒙特卡洛 (Shuffle-Split)
时间序列（滚动交叉验证）

1、HoldOut 交叉验证

在这种交叉验证技术中，整个数据集被随机划分为训练集和验证集。根据经验，整个数据集的近 70% 用作训练集，其余 30% 用作验证集。

优点：

1.快速执行：因为我们必须将数据集拆分为训练集和验证集一次，并且模型将在训练集上仅构建一次，因此可以快速执行。

缺点：

1. 不适合不平衡数据集：假设我们有一个不平衡数据集，它具有“0”类和“1”类。假设 80% 的数据属于“0”类，其余 20% 的数据属于“1”类。在训练集大小为 80%，测试数据大小为数据集的 20% 的情况下进行训练-测试分割。可能会发生“0”类的所有 80% 数据都在训练集中，而“1”类的所有数据都在测试集中。所以我们的模型不能很好地概括我们的测试数据，因为它之前没有看到过“1”类的数据；

2. 大量数据无法训练模型。

在小数据集的情况下，将保留一部分用于测试模型，其中可能具有我们的模型可能会错过的重要特征，因为它没有对该数据进行训练。

代码片段：

from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import accuracy_scoreiris=load_iris()X=iris.dataY=iris.targetprint("Size of Dataset {}".format(len(X)))logreg=LogisticRegression()x_train,x_test,y_train,y_test=train_test_split(X,Y,test_size=0.3,random_state=42)logreg.fit(x_train,y_train)predict=logreg.predict(x_test)print("Accuracy score on training set is {}".format(accuracy_score(logreg.predict(x_train),y_train)))print("Accuracy score on test set is {}".format(accuracy_score(predict,y_test)))

2、K 折交叉验证

在这种 K 折交叉验证技术中，整个数据集被划分为 K 个相等大小的部分。每个分区称为一个“折叠”。因此，因为我们有 K 个部分，所以我们称之为 K 折叠。一折用作验证集，其余 K-1 折用作训练集。

该技术重复 K 次，直到每个折叠用作验证集，其余折叠用作训练集。

模型的最终精度是通过取 k-models 验证数据的平均精度来计算的。

优点：

1. 整个数据集既用作训练集又用作验证集。

缺点：

1. 不用于不平衡的数据集：正如在 HoldOut 交叉验证的情况下所讨论的，在 K-Fold 验证的情况下也可能发生训练集的所有样本都没有样本形式类“1”，并且只有类“0”。验证集将有一个类“1”的样本；

2. 不适合时间序列数据：对于时间序列数据，样本的顺序很重要。但是在 K 折交叉验证中，样本是按随机顺序选择的。

代码片段：


from sklearn.datasets import load_irisfrom sklearn.model_selection import cross_val_score,KFoldfrom sklearn.linear_model import LogisticRegressioniris=load_iris()X=iris.dataY=iris.targetlogreg=LogisticRegression()kf=KFold(n_splits=5)score=cross_val_score(logreg,X,Y,cv=kf)print("Cross Validation Scores are {}".format(score))print("Average Cross Validation score :{}".format(score.mean()))

3、分层 K 折交叉验证

分层 K-Fold 是 K-Fold 交叉验证的增强版本，主要用于不平衡的数据集。就像 K-fold 一样，整个数据集被分成大小相等的 K-fold。

但是在这种技术中，每个折叠将具有与整个数据集中相同的目标变量实例比率。

优点：

1. 对于不平衡数据非常有效：分层交叉验证中的每个折叠都会以与整个数据集中相同的比率表示所有类别的数据。

缺点：

1. 不适合时间序列数据：对于时间序列数据，样本的顺序很重要。但在分层交叉验证中，样本是按随机顺序选择的。

代码片段：

from sklearn.datasets import load_irisfrom sklearn.model_selection import cross_val_score,StratifiedKFoldfrom sklearn.linear_model import LogisticRegressioniris=load_iris()X=iris.dataY=iris.targetlogreg=LogisticRegression()stratifiedkf=StratifiedKFold(n_splits=5)score=cross_val_score(logreg,X,Y,cv=stratifiedkf)print("Cross Validation Scores are {}".format(score))print("Average Cross Validation score :{}".format(score.mean()))

4、Leave P Out 交叉验证

Leave P Out 交叉验证是一种详尽的交叉验证技术，其中 p 样本用作验证集，剩余的 n-p 样本用作训练集。

假设我们在数据集中有 100 个样本。如果我们使用 p=10，那么在每次迭代中，10 个值将用作验证集，其余 90 个样本将用作训练集。

重复这个过程，直到整个数据集在 p 样本和 n-p 训练样本的验证集上被划分。

优点：

1. 所有数据样本都用作训练和验证样本。

缺点：

1. 计算时间长：由于上述技术会不断重复，直到所有样本都用作验证集，因此计算时间会更长；

2. 不适合不平衡数据集：与 K 折交叉验证相同，如果在训练集中我们只有 1 个类的样本，那么我们的模型将无法推广到验证集。

代码片段:

from sklearn.model_selection import LeavePOut,cross_val_scorefrom sklearn.datasets import load_irisfrom sklearn.ensemble import RandomForestClassifieriris=load_iris()X=iris.dataY=iris.targetlpo=LeavePOut(p=2)lpo.get_n_splits(X)tree=RandomForestClassifier(n_estimators=10,max_depth=5,n_jobs=-1)score=cross_val_score(tree,X,Y,cv=lpo)print("Cross Validation Scores are {}".format(score))print("Average Cross Validation score :{}".format(score.mean()))

5、留一交叉验证

留一交叉验证是一种详尽的交叉验证技术，其中 1 个样本点用作验证集，其余 n-1 个样本用作训练集。

假设我们在数据集中有 100 个样本。然后在每次迭代中，1 个值将用作验证集，其余 99 个样本作为训练集。因此，重复该过程，直到数据集的每个样本都用作验证点。

它与使用 p=1 的 LeavePOut 交叉验证相同。

代码片段：


from sklearn.datasets import load_irisfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import LeaveOneOut,cross_val_scoreiris=load_iris()X=iris.dataY=iris.targetloo=LeaveOneOut()tree=RandomForestClassifier(n_estimators=10,max_depth=5,n_jobs=-1)score=cross_val_score(tree,X,Y,cv=loo)print("Cross Validation Scores are {}".format(score))print("Average Cross Validation score :{}".format(score.mean()))

6、蒙特卡罗交叉验证（Shuffle Split）

蒙特卡罗交叉验证，也称为Shuffle Split交叉验证，是一种非常灵活的交叉验证策略。在这种技术中，数据集被随机划分为训练集和验证集。

我们已经决定了要用作训练集的数据集的百分比和用作验证集的百分比。如果训练集和验证集大小的增加百分比总和不是 100，则剩余的数据集不会用于训练集或验证集。

假设我们有 100 个样本，其中 60% 的样本用作训练集，20% 的样本用作验证集，那么剩下的 20%( 100-(60+20)) 将不被使用。

这种拆分将重复我们必须指定的“n”次。

优点：

1.我们可以自由使用训练和验证集的大小；

2.我们可以选择重复的次数，而不依赖于重复的折叠次数。

缺点：

1. 可能不会为训练集或验证集选择很少的样本；

2. 不适合不平衡的数据集：在我们定义了训练集和验证集的大小后，所有的样本都是随机选择的，所以训练集可能没有测试中的数据类别设置，并且该模型将无法概括为看不见的数据。

代码片段：

from sklearn.model_selection import ShuffleSplit,cross_val_scorefrom sklearn.datasets import load_irisfrom sklearn.linear_model import LogisticRegressionlogreg=LogisticRegression()shuffle_split=ShuffleSplit(test_size=0.3,train_size=0.5,n_splits=10)scores=cross_val_score(logreg,iris.data,iris.target,cv=shuffle_split)print("cross Validation scores:n {}".format(scores))print("Average Cross Validation score :{}".format(scores.mean()))

7、时间序列交叉验证

什么是时间序列数据？

时间序列数据是在不同时间点收集的数据。由于数据点是在相邻时间段收集的，因此观测值之间可能存在相关性。这是区分时间序列数据与横截面数据的特征之一。

在时间序列数据的情况下如何进行交叉验证？

在时间序列数据的情况下，我们不能选择随机样本并将它们分配给训练集或验证集，因为使用未来数据中的值来预测过去数据的值是没有意义的。

由于数据的顺序对于时间序列相关问题非常重要，所以我们根据时间将数据拆分为训练集和验证集，也称为“前向链”方法或滚动交叉验证。

我们从一小部分数据作为训练集开始。基于该集合，我们预测稍后的数据点，然后检查准确性。

然后将预测样本作为下一个训练数据集的一部分包括在内，并对后续样本进行预测。

优点：

1. 最好的技术之一。

缺点：

1. 不适用于其他数据类型的验证：与其他技术一样，我们选择随机样本作为训练或验证集，但在该技术中数据的顺序非常重要。

代码片段：


import numpy as npfrom sklearn.model_selection import TimeSeriesSplitX = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [1, 2], [3, 4]])y = np.array([1, 2, 3, 4, 5, 6])time_series = TimeSeriesSplit()print(time_series)for train_index, test_index in time_series.split(X):    print("TRAIN:", train_index, "TEST:", test_index)    X_train, X_test = X[train_index], X[test_index]    y_train, y_test = y[train_index], y[test_index]

结论

在本文中，我试图概述各种交叉验证技术的工作原理以及我们在实施这些技术时应牢记的事项，我真诚地希望在这个数据科学之旅中对你有所帮助。

下载1：OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247626752&idx=3&sn=d8326903a6e2109ee7faedc22868741d

小白学视觉

哈工大在读博士的公众号，《OpenCV 4快速入门》的作者，面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术，深度学习等内容。

最新文章

博士招生 | 约翰霍普金斯大学PENSA实验室Sijia Geng 博士招生

【魔改Mamba系列】UU-Mamba：用于图像分割的不确定性感知U-Mamba

利用 YOLO11做停车管理

BT-Unet:医学图像分割的自监督学习框架

【魔改Mamba系列】HC-Mamba：用于医学图像分割的混合卷积技术视觉Mamba

详解机器学习中的7种交叉验证方法！

一文搞懂梯度下降

快速学会登上nature的热门算法，LSTM！

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

手把手教你用YOLOv8训练自己的数据集以及YOLOv8的多任务使用

手撕自动驾驶算法—无迹卡尔曼滤波

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改UNet系列】IAUNet：实例感知的U-Net

收藏 | 10种顶级聚类算法实现

详解基于深度学习的伪装目标检测

年薪80w，我入局了

【Mamba应用前沿】CAMS: 基于Mamba的无卷积和无注意力的图像分割

数字图像基本处理算法小结

收藏 | 卷积神经网络压缩方法总结

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

十个python图像处理工具

实践教程｜扩散模型代码复现

使用PyTorch进行知识蒸馏的代码示例

中文版的TPAMI，你听说过么！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

如何消除摄影中的运动模糊?

漂亮，LSTM模型结构的可视化

目标检测和感受野的总结和想法

目标检测中的框位置优化总结

如何看待神经网络的黑箱？

如何使用深度学习进行缺陷检测

深度学习的图原理

饶毅：中国存在大量粗制滥造研究生的问题，很多博士不合格

路面语义分割

招生信息 | Emory大学计算机科学系Dr. Guo Zhichun实验室博士生招生

深度学习中的Normalization你懂了多少？

神经网络与傅立叶变换到底有没有关系？

从零开始构建DINO模型与PyTorch：自监督视觉transformer

涨点神器！100个即插即用缝合模块【合集下载】

深度学习最常用的10个激活函数！（数学原理+优缺点）

招生信息 | 香港城市大学计算机科学系Dr. Luo Yuhan诚邀加入BiWell实验室

实操教程｜PyTorch实现断点继续训练

又一本开源免费的大模型书来了，449页pdf！

有哪些东西是你读博士以后才懂的？

图像处理常用算法(基础)

少样本学习综述：技术、算法和模型

学术 | 热议：寒门硕士要不要继续读博士？

怎么才能优雅地向博士导师表达「这周科研没什么进展」？

医学影像相关开源数据集资源汇总

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉