临床预测模型,数据集按7:1:2拆分为训练集,验证集和测试集,这是为什么?

健康   2024-12-30 07:52   浙江  


【欢迎阅读浙中大郑老师撰写的统计科普文】

在机器学习中,为了确保所构建的预测模型既有效又稳定,研究者不会将所有的数据一股脑儿地用于训练模型,这是因为,仅凭训练集上的表现无法全面评估模型的性能。
于是,研究者将数据集划分为训练集和验证集,以进行内部验证。
内部验证是基于模型开发队列数据进行的验证,通常内部验证也是作为模型开发的一部分,其目的是检验模型开发过程的可重复性,并且防止模型过度拟合以致高估模型的性能。
在预测模型中,最常见的训练集和验证集的拆分比例有7:3和8:2,但在近期看到的一篇机器学习构建预测模型的文章中,却是按照7:1:2的比例将数据拆分为训练集、验证集和测试集,让我们一起看看为什么这样拆分!

原文阅读

发表在期刊European Heart Journal(医学一区top,IF=37.6)的研究论文中,研究团队纳入了符合条件的心电图数据,使用深度学习模型构建心房颤动(AF)风险的预测模型。

如果你需要全文,请公众号后台回复关键词“pdf”。如果你对预测模型感兴趣,来看看我们的临床预测模型服务吧,一对一指导!详情可咨询助教,微信号:aq566665

与先前我们看到的机器学习构建预测模型的文章不同,在该项研究中,研究团队将符合条件的心电图数据按照7:1:2的比例拆分成训练集、验证集和测试集。
同样,在一篇发表在期刊Journal of Medical Internet Research(医学二区top,IF=5.8)的研究论文中,研究团队划分了训练集(70%)、验证集(10%)和测试集(20%),基于CLHLS数据库,使用四种机器学习法构建中国社区老年人认知功能障碍预测模型。

原文中对于三个数据集的定义是:

  • 训练集用于模型开发;

  • 训练完成后,利用验证集对模型参数进行调整,探索最优截止点;

  • 测试集用于最终评估模型的性能。
由此我们可以得出,在划分三个数据集的时候,验证集起到优化模型参数和选择最佳的超参数的作用。

什么时候不需要验证集?


上述三个数据集的划分在机器学习构建预测模型领域不是个例,除了7:1:2的划分比例外,还有研究团队按照8:1:1或6:2:2划分,通常情况下,训练集的数据要大于其余两个数据集。

虽然验证集的存在可以帮助我们调整模型参数,避免过拟合,但在某些特定情况下,我们可以省略验证集。

例如,在数据量比较小的情况下,拆分数据集可能会导致训练集、验证集或测试集中的样本数量不足,从而影响模型的训练和验证效果。

  • 此时,我们可以考虑使用交叉验证等方法来充分利用有限的数据。

另外,如果数据集本身质量很高,即数据噪声低且训练样本能够充分代表整体数据的分布特征,那么模型在训练集上学习到的规律在测试集上往往也能得到较好的体现。

  • 在这种情况下,模型在测试集上的性能评估可以较为接近其在理想验证集上的预期表现,因此,在数据质量足够好的前提下,有时可以考虑不单独设立验证集来简化流程。

综上所述,数据集拆分在预测模型开发和验证中扮演着至关重要的角色。通过合理的拆分比例和科学的验证方法,我们可以构建出更加稳定、准确的预测模型。

简而言之,如果你数据量大,拆分为训练集,验证集和测试集能获得更好的模型性能和可靠的评估结果,是不错的思路;如果数据量不大,也不必强求!

想要了解一个概念,还得先从文章看起。老郑也建议大家获取原文阅读一下文章的研究流程,与之前看到的机器学习构建预测模型的文章进行比对,说不定有新的思路和体会。

【感谢阅读浙中大郑老师团队撰写的统计文章】

关于郑老师团队及公众号 


大型医学统计服务公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理

我们开展对临床预测模型、机器学习、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法、MIMIC对一R语言指导开展统计分析(一年内不限时间,周末、晚上均统计师一对一指导)。

①指导学习R语言基本技巧

②全程指导课程学习

③课程R语言代码运行bug修复

④支持学员一篇SCI论文的数据分析

1对1R语言指导详情介绍
联系助教小董咨询(微信号aq566665





医学论文与统计分析
本号为高校统计学老师所设,介绍医学论文进展与统计学方法,SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后,发送关键词“33”到公众号就可以获取常见的统计软件比如Spss,sas,PASS(绝对无毒)等
 最新文章