临床预测模型，数据集按7:1:2拆分为训练集，验证集和测试集，这是为什么？

健康 2024-12-30 07:52 浙江

【欢迎阅读浙中大郑老师撰写的统计科普文】

在机器学习中，为了确保所构建的预测模型既有效又稳定，研究者不会将所有的数据一股脑儿地用于训练模型，这是因为，仅凭训练集上的表现无法全面评估模型的性能。

于是，研究者将数据集划分为训练集和验证集，以进行内部验证。

内部验证是基于模型开发队列数据进行的验证，通常内部验证也是作为模型开发的一部分，其目的是检验模型开发过程的可重复性，并且防止模型过度拟合以致高估模型的性能。

在预测模型中，最常见的训练集和验证集的拆分比例有7:3和8:2，但在近期看到的一篇机器学习构建预测模型的文章中，却是按照7:1:2的比例将数据拆分为训练集、验证集和测试集，让我们一起看看为什么这样拆分！

原文阅读

发表在期刊《European Heart Journal》（医学一区top，IF=37.6）的研究论文中，研究团队纳入了符合条件的心电图数据，使用深度学习模型构建心房颤动（AF）风险的预测模型。

如果你需要全文，请公众号后台回复关键词“pdf”。如果你对预测模型感兴趣，来看看我们的临床预测模型服务吧，一对一指导！详情可咨询助教，微信号：aq566665

与先前我们看到的机器学习构建预测模型的文章不同，在该项研究中，研究团队将符合条件的心电图数据按照7：1：2的比例拆分成训练集、验证集和测试集。

同样，在一篇发表在期刊《Journal of Medical Internet Research》（医学二区top，IF=5.8）的研究论文中，研究团队划分了训练集（70%）、验证集（10%）和测试集（20%），基于CLHLS数据库，使用四种机器学习法构建中国社区老年人认知功能障碍预测模型。

原文中对于三个数据集的定义是：

训练集用于模型开发；
训练完成后，利用验证集对模型参数进行调整，探索最优截止点；
测试集用于最终评估模型的性能。

由此我们可以得出，在划分三个数据集的时候，验证集起到优化模型参数和选择最佳的超参数的作用。

什么时候不需要验证集？

上述三个数据集的划分在机器学习构建预测模型领域不是个例，除了7:1:2的划分比例外，还有研究团队按照8:1:1或6:2:2划分，通常情况下，训练集的数据要大于其余两个数据集。

虽然验证集的存在可以帮助我们调整模型参数，避免过拟合，但在某些特定情况下，我们可以省略验证集。

例如，在数据量比较小的情况下，拆分数据集可能会导致训练集、验证集或测试集中的样本数量不足，从而影响模型的训练和验证效果。

此时，我们可以考虑使用交叉验证等方法来充分利用有限的数据。

另外，如果数据集本身质量很高，即数据噪声低且训练样本能够充分代表整体数据的分布特征，那么模型在训练集上学习到的规律在测试集上往往也能得到较好的体现。

在这种情况下，模型在测试集上的性能评估可以较为接近其在理想验证集上的预期表现，因此，在数据质量足够好的前提下，有时可以考虑不单独设立验证集来简化流程。

综上所述，数据集拆分在预测模型开发和验证中扮演着至关重要的角色。通过合理的拆分比例和科学的验证方法，我们可以构建出更加稳定、准确的预测模型。

简而言之，如果你数据量大，拆分为训练集，验证集和测试集能获得更好的模型性能和可靠的评估结果，是不错的思路；如果数据量不大，也不必强求！

想要了解一个概念，还得先从文章看起。老郑也建议大家获取原文阅读一下文章的研究流程，与之前看到的机器学习构建预测模型的文章进行比对，说不定有新的思路和体会。

【感谢阅读浙中大郑老师团队撰写的统计文章】

关于郑老师团队及公众号

大型医学统计服务公众号平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理

我们开展对临床预测模型、机器学习、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法、MIMIC一对一R语言指导开展统计分析（一年内不限时间，周末、晚上均统计师一对一指导）。

①指导学习R语言基本技巧

②全程指导课程学习

③课程R语言代码运行bug修复

④支持学员一篇SCI论文的数据分析

1对1R语言指导详情介绍

联系助教小董咨询（微信号aq566665）

医学论文与统计分析

本号为高校统计学老师所设，介绍医学论文进展与统计学方法，SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后，发送关键词“33”到公众号就可以获取常见的统计软件比如Spss，sas，PASS（绝对无毒）等

最新文章

最新！复旦学者发文BMJ（IF=93.6）

终于有人公开骂了，这篇Lancet中医药论文不对！但马上被撤稿了

不同凡响，2025年JAMA、BMJ顶刊发表的4篇中国学者论文都是阴性结果，他们怎么做到的？

NHANES数据可以不加权吗？LASSO回归筛选变量构建预测模型

导师：做预测模型快来看看这12条建议，你的论文不会差！

2025年我们提供统计服务！医院临床/护理数据分析，可预开发票

中山大学阴性结果发文BMJ (IF=93.6)，但交互作用分析可能是个亮点

阈值效应分析工具来了 !

就在本周六！网状Meta分析直播课，零基础易上手，欢迎参加

60万人构建的预测模型会是怎么样的？中国学者发文Lancet子刊，方法值得借鉴

可预开发票，郑老师团队25年统计新课预告

中国蝉联第一！GBD数据库2024年大盘点，发文量稳步上升中

一周发文108篇，63篇二区以上！| NHANES数据库周报（12.28~1.3）

厉害！中国学者21例患者小样本研究发文Lancet子刊，研究设计也比较新颖

郑老师寒假班SPSS公开课今天开始了！“30天学会SPSS与R语言”，欢迎报名

郑老师统计课程学习指南：看课方式、课程材料、怎么答疑、发票。。。

牛！陆军医大同日发表2篇JAMA论文，还全是阴性结果，杨清武、资文杰团队！

中国学者机器学习预测模型发文Lancet子刊，第一次看到10倍EPV计算样本量用公式展示

可预开发票，郑老师团队25年统计新课预告

四川大学稳居全球NO.1！Meta分析2024年论文大盘点，发文量近3.7万

就在本周六！2025年网状Meta课程直播，欢迎参加

浙一学者用超13万人的体检数据发表Lancet子刊，研究COVID-19感染前后健康状况的改变

一区Top！护理顶刊发表中国学者网状Meta论文

Lancet子刊：探讨影响因素，加入SHAP法解析关键影响因子。这个思路不错

NHANES Online平台加权/非加权中介分析结果解读，一文搞定！

Nature、BMJ等五大顶刊同时提醒，警惕“写”即出版的掠夺性期刊【附名单】

Meta分析必须得学会网状Meta！欢迎参加2025年网状Meta课程直播

中国学者占多数！NHANES免费医学数据库2024年度发文大盘点，增长88%

机器学习方法：15分钟带你吃透决策树模型

昔日顶流重出江湖，网状Meta爆红！多篇BMJ、JAMA、lancet顶刊文章发表

【志愿者招募】浙江中医药大学公共卫生学院招募脂肪肝康复志愿者