CICC科普栏目｜详解机器学习中的7种交叉验证方法！

科技 2024-11-23 13:57 北京

来源：机器学习社区、数据派THU

在任何有监督机器学习项目的模型构建阶段，我们训练模型的目的是从标记的示例中学习所有权重和偏差的最佳值。

如果我们使用相同的标记示例来测试我们的模型，那么这将是一个方法论错误，因为一个只会重复刚刚看到的样本标签的模型将获得完美的分数，但无法预测任何有用的东西 - 未来的数据，这种情况称为过拟合。

为了克服过度拟合的问题，我们使用交叉验证。所以你必须知道什么是交叉验证？以及如何解决过拟合的问题？

什么是交叉验证？

交叉验证是一种用于估计机器学习模型性能的统计方法，它是一种评估统计分析结果如何推广到独立数据集的方法。

它是如何解决过拟合问题的？

在交叉验证中，我们将训练数据生成多个小的训练测试分割，使用这些拆分来调整您的模型。例如，在标准的 k 折交叉验证中，我们将数据划分为 k 个子集。然后，我们在 k-1 个子集上迭代训练算法，同时使用剩余的子集作为测试集。通过这种方式，我们可以在未参与训练的数据上测试我们的模型。

在本文中，我将分享 7 种最常用的交叉验证技术及其优缺点，我还提供了每种技术的代码片段，欢迎收藏学习，喜欢点赞支持。

下面列出了这些技术方法：

HoldOut 交叉验证
K-Fold 交叉验证
分层 K-Fold交叉验证
Leave P Out 交叉验证
留一交叉验证
蒙特卡洛 (Shuffle-Split)
时间序列（滚动交叉验证）

1、HoldOut 交叉验证

在这种交叉验证技术中，整个数据集被随机划分为训练集和验证集。根据经验，整个数据集的近 70% 用作训练集，其余 30% 用作验证集。

优点：

1.快速执行：因为我们必须将数据集拆分为训练集和验证集一次，并且模型将在训练集上仅构建一次，因此可以快速执行。

缺点：

1. 不适合不平衡数据集：假设我们有一个不平衡数据集，它具有“0”类和“1”类。假设 80% 的数据属于“0”类，其余 20% 的数据属于“1”类。在训练集大小为 80%，测试数据大小为数据集的 20% 的情况下进行训练-测试分割。可能会发生“0”类的所有 80% 数据都在训练集中，而“1”类的所有数据都在测试集中。所以我们的模型不能很好地概括我们的测试数据，因为它之前没有看到过“1”类的数据；

2. 大量数据无法训练模型。

在小数据集的情况下，将保留一部分用于测试模型，其中可能具有我们的模型可能会错过的重要特征，因为它没有对该数据进行训练。

代码片段：

from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import accuracy_scoreiris=load_iris()X=iris.dataY=iris.targetprint("Size of Dataset {}".format(len(X)))logreg=LogisticRegression()x_train,x_test,y_train,y_test=train_test_split(X,Y,test_size=0.3,random_state=42)logreg.fit(x_train,y_train)predict=logreg.predict(x_test)print("Accuracy score on training set is {}".format(accuracy_score(logreg.predict(x_train),y_train)))print("Accuracy score on test set is {}".format(accuracy_score(predict,y_test)))

2、K 折交叉验证

在这种 K 折交叉验证技术中，整个数据集被划分为 K 个相等大小的部分。每个分区称为一个“折叠”。因此，因为我们有 K 个部分，所以我们称之为 K 折叠。一折用作验证集，其余 K-1 折用作训练集。

该技术重复 K 次，直到每个折叠用作验证集，其余折叠用作训练集。

模型的最终精度是通过取 k-models 验证数据的平均精度来计算的。

优点：

1. 整个数据集既用作训练集又用作验证集。

缺点：

1. 不用于不平衡的数据集：正如在 HoldOut 交叉验证的情况下所讨论的，在 K-Fold 验证的情况下也可能发生训练集的所有样本都没有样本形式类“1”，并且只有类“0”。验证集将有一个类“1”的样本；

2. 不适合时间序列数据：对于时间序列数据，样本的顺序很重要。但是在 K 折交叉验证中，样本是按随机顺序选择的。

代码片段：


from sklearn.datasets import load_irisfrom sklearn.model_selection import cross_val_score,KFoldfrom sklearn.linear_model import LogisticRegressioniris=load_iris()X=iris.dataY=iris.targetlogreg=LogisticRegression()kf=KFold(n_splits=5)score=cross_val_score(logreg,X,Y,cv=kf)print("Cross Validation Scores are {}".format(score))print("Average Cross Validation score :{}".format(score.mean()))

3、分层 K 折交叉验证

分层 K-Fold 是 K-Fold 交叉验证的增强版本，主要用于不平衡的数据集。就像 K-fold 一样，整个数据集被分成大小相等的 K-fold。

但是在这种技术中，每个折叠将具有与整个数据集中相同的目标变量实例比率。

优点：

1. 对于不平衡数据非常有效：分层交叉验证中的每个折叠都会以与整个数据集中相同的比率表示所有类别的数据。

缺点：

1. 不适合时间序列数据：对于时间序列数据，样本的顺序很重要。但在分层交叉验证中，样本是按随机顺序选择的。

代码片段：

from sklearn.datasets import load_irisfrom sklearn.model_selection import cross_val_score,StratifiedKFoldfrom sklearn.linear_model import LogisticRegressioniris=load_iris()X=iris.dataY=iris.targetlogreg=LogisticRegression()stratifiedkf=StratifiedKFold(n_splits=5)score=cross_val_score(logreg,X,Y,cv=stratifiedkf)print("Cross Validation Scores are {}".format(score))print("Average Cross Validation score :{}".format(score.mean()))

4、Leave P Out 交叉验证

Leave P Out 交叉验证是一种详尽的交叉验证技术，其中 p 样本用作验证集，剩余的 n-p 样本用作训练集。

假设我们在数据集中有 100 个样本。如果我们使用 p=10，那么在每次迭代中，10 个值将用作验证集，其余 90 个样本将用作训练集。

重复这个过程，直到整个数据集在 p 样本和 n-p 训练样本的验证集上被划分。

优点：

1. 所有数据样本都用作训练和验证样本。

缺点：

1. 计算时间长：由于上述技术会不断重复，直到所有样本都用作验证集，因此计算时间会更长；

2. 不适合不平衡数据集：与 K 折交叉验证相同，如果在训练集中我们只有 1 个类的样本，那么我们的模型将无法推广到验证集。

代码片段:

from sklearn.model_selection import LeavePOut,cross_val_scorefrom sklearn.datasets import load_irisfrom sklearn.ensemble import RandomForestClassifieriris=load_iris()X=iris.dataY=iris.targetlpo=LeavePOut(p=2)lpo.get_n_splits(X)tree=RandomForestClassifier(n_estimators=10,max_depth=5,n_jobs=-1)score=cross_val_score(tree,X,Y,cv=lpo)print("Cross Validation Scores are {}".format(score))print("Average Cross Validation score :{}".format(score.mean()))

5、留一交叉验证

留一交叉验证是一种详尽的交叉验证技术，其中 1 个样本点用作验证集，其余 n-1 个样本用作训练集。

假设我们在数据集中有 100 个样本。然后在每次迭代中，1 个值将用作验证集，其余 99 个样本作为训练集。因此，重复该过程，直到数据集的每个样本都用作验证点。

它与使用 p=1 的 LeavePOut 交叉验证相同。

代码片段：


from sklearn.datasets import load_irisfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import LeaveOneOut,cross_val_scoreiris=load_iris()X=iris.dataY=iris.targetloo=LeaveOneOut()tree=RandomForestClassifier(n_estimators=10,max_depth=5,n_jobs=-1)score=cross_val_score(tree,X,Y,cv=loo)print("Cross Validation Scores are {}".format(score))print("Average Cross Validation score :{}".format(score.mean()))

6、蒙特卡罗交叉验证（Shuffle Split）

蒙特卡罗交叉验证，也称为Shuffle Split交叉验证，是一种非常灵活的交叉验证策略。在这种技术中，数据集被随机划分为训练集和验证集。

我们已经决定了要用作训练集的数据集的百分比和用作验证集的百分比。如果训练集和验证集大小的增加百分比总和不是 100，则剩余的数据集不会用于训练集或验证集。

假设我们有 100 个样本，其中 60% 的样本用作训练集，20% 的样本用作验证集，那么剩下的 20%( 100-(60+20)) 将不被使用。

这种拆分将重复我们必须指定的“n”次。

优点：

1.我们可以自由使用训练和验证集的大小；

2.我们可以选择重复的次数，而不依赖于重复的折叠次数。

缺点：

1. 可能不会为训练集或验证集选择很少的样本；

2. 不适合不平衡的数据集：在我们定义了训练集和验证集的大小后，所有的样本都是随机选择的，所以训练集可能没有测试中的数据类别设置，并且该模型将无法概括为看不见的数据。

代码片段：

from sklearn.model_selection import ShuffleSplit,cross_val_scorefrom sklearn.datasets import load_irisfrom sklearn.linear_model import LogisticRegressionlogreg=LogisticRegression()shuffle_split=ShuffleSplit(test_size=0.3,train_size=0.5,n_splits=10)scores=cross_val_score(logreg,iris.data,iris.target,cv=shuffle_split)print("cross Validation scores:n {}".format(scores))print("Average Cross Validation score :{}".format(scores.mean()))

7、时间序列交叉验证

什么是时间序列数据？

时间序列数据是在不同时间点收集的数据。由于数据点是在相邻时间段收集的，因此观测值之间可能存在相关性。这是区分时间序列数据与横截面数据的特征之一。

在时间序列数据的情况下如何进行交叉验证？

在时间序列数据的情况下，我们不能选择随机样本并将它们分配给训练集或验证集，因为使用未来数据中的值来预测过去数据的值是没有意义的。

由于数据的顺序对于时间序列相关问题非常重要，所以我们根据时间将数据拆分为训练集和验证集，也称为“前向链”方法或滚动交叉验证。

我们从一小部分数据作为训练集开始。基于该集合，我们预测稍后的数据点，然后检查准确性。

然后将预测样本作为下一个训练数据集的一部分包括在内，并对后续样本进行预测。

优点：

1. 最好的技术之一。

缺点：

1. 不适用于其他数据类型的验证：与其他技术一样，我们选择随机样本作为训练或验证集，但在该技术中数据的顺序非常重要。

代码片段：


import numpy as npfrom sklearn.model_selection import TimeSeriesSplitX = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [1, 2], [3, 4]])y = np.array([1, 2, 3, 4, 5, 6])time_series = TimeSeriesSplit()print(time_series)for train_index, test_index in time_series.split(X):    print("TRAIN:", train_index, "TEST:", test_index)    X_train, X_test = X[train_index], X[test_index]    y_train, y_test = y[train_index], y[test_index]

结论

在本文中，我试图概述各种交叉验证技术的工作原理以及我们在实施这些技术时应牢记的事项，我真诚地希望在这个数据科学之旅中对你有所帮助。

参考链接点击文末左下角阅读原文。仅用于学术分享，如有侵权，立即删除。

编辑 /Garvey

审核 / 范瑞强

复核 / 范瑞强

转自：数学中国

关注公众号了解更多

会员申请请在公众号内回复“个人会员”或“单位会员

欢迎关注中国指挥与控制学会媒体矩阵

CICC官方抖音

CICC头条号

CICC微博号

CICC官方网站

CICC官方微信公众号

《指挥与控制学报》官网

国际无人系统大会官网

中国指挥控制大会官网

全国兵棋推演大赛

全国空中智能博弈大赛

搜狐号

一点号

http://mp.weixin.qq.com/s?__biz=MzA4ODcwOTExMQ==&mid=2655794033&idx=6&sn=4a78e9b67743236d80cb6c3d957bc532

中国指挥与控制学会

中国指挥与控制学会是中国科协、国家民政部批准成立的国家一级学会，是由我国从事指挥与控制科学技术领域的单位和科技工作者自愿结成的学术性、全国性社团组织。学会办事机构挂靠中国兵器工业集团公司。

最新文章

试论国防动员新域新质力量的意义、特点和构成

CICC党建栏目｜中国共产党创办最早的党校

李德毅院士：认知机器的结构和激活

兵棋推演：军事规划的实验室

联合侦察监视体系数字孪生需求与构建

CICC党建栏目｜违规选任干部行为负面清单

CICC科普栏目｜一文让你通俗理解奇异值分解

2025第十三届中国指挥控制大会征文系统开放

智能战车：精准传感器网络关系战场生存能力

《近距离战斗》——计算机战术兵棋时代的潮流引领者

欧美陆基高超音速武器计划和发展

CICC党建栏目｜80个字的力量有多大？

CICC党科普栏目｜几何密铺能解开生命手性之谜吗？

2024第八届全国集群智能与协同控制大会隆重召开

关于申报中国高校产学研创新基金申报项目延期的通知

时空散布下无人机集群空中加油集结路径规划

小型无人机给美国陆军带来巨大的技术和政策挑战

CICC党建栏目｜确定为入党积极分子应该具备哪些条件？

不只双螺旋，DNA结构的多样性和演化

【CICC原创】一种基于时空知识图谱的意图识别置信度评估方法

美国陆军现代化原则

即插即用:美陆军准备推出人工智能开源架构

CICC党建栏目｜对党员的纪律处分有哪些种类？影响期各多久？

CICC科普栏目｜不太大也不太小，人类的体型为何“刚刚好”

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

联合兵种作战中的无人机系统研究

海战场环境与军事活动影响

强化制胜“支点”：俄军拟装备“增强感知系统”提升战场态势共享

CICC党建栏目｜从“三大纪律、六项注意”到“三大纪律、八项注意”的演变

CICC科普栏目｜5大概率分布，你了解多少？

浅析现代战争中的军事地理信息系统及作战运用

美国战斧导弹

驾驭人机协同作战团队

“榛树”出鞘：解析俄罗斯新型高超声速导弹

CICC党建栏目｜五封战地家书

CICC科普栏目｜详解机器学习中的7种交叉验证方法！

谋取第七维战略空间优势可以这样做

协同作战无人机关键能力特征与技术分析

蜂群风暴：人工智能赋能无人机部署

数据：联合作战的新弹药

CICC科普栏目｜评审专家眼中课题申请书撰写的七个误区

关于征集“前沿科技进军营—走进许昌”成果展项目的通知

中国指挥与控制学会国防教育专业委员会换届公告

直播预告：定量遥感云端赋能 | 2024遥感卫星应用国家工程研究中心年会暨创新成果发布会即将举办

关于邀请参加《多余度同步交换网络规范》等三项团体标准编制的通知

CICC党建栏目｜流动党员党组织建设的3个要求

CICC科普栏目｜不太大也不太小，人类的体型为何“刚刚好”

喜报|中国指挥与控制学会9名委员入选第十八届中国青年科技奖

把准智能化战争的特点规律

航空器类装备命名规则探析

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉