【欢迎阅读浙中大郑老师撰写的统计科普文】
原文阅读
发表在期刊《European Heart Journal》(医学一区top,IF=37.6)的研究论文中,研究团队纳入了符合条件的心电图数据,使用深度学习模型构建心房颤动(AF)风险的预测模型。
如果你需要全文,请公众号后台回复关键词“pdf”。如果你对预测模型感兴趣,来看看我们的临床预测模型服务吧,一对一指导!详情可咨询助教,微信号:aq566665
原文中对于三个数据集的定义是:
训练集用于模型开发;
训练完成后,利用验证集对模型参数进行调整,探索最优截止点;
测试集用于最终评估模型的性能。
什么时候不需要验证集?
上述三个数据集的划分在机器学习构建预测模型领域不是个例,除了7:1:2的划分比例外,还有研究团队按照8:1:1或6:2:2划分,通常情况下,训练集的数据要大于其余两个数据集。
例如,在数据量比较小的情况下,拆分数据集可能会导致训练集、验证集或测试集中的样本数量不足,从而影响模型的训练和验证效果。
此时,我们可以考虑使用交叉验证等方法来充分利用有限的数据。
另外,如果数据集本身质量很高,即数据噪声低且训练样本能够充分代表整体数据的分布特征,那么模型在训练集上学习到的规律在测试集上往往也能得到较好的体现。
在这种情况下,模型在测试集上的性能评估可以较为接近其在理想验证集上的预期表现,因此,在数据质量足够好的前提下,有时可以考虑不单独设立验证集来简化流程。
简而言之,如果你数据量大,拆分为训练集,验证集和测试集能获得更好的模型性能和可靠的评估结果,是不错的思路;如果数据量不大,也不必强求!
想要了解一个概念,还得先从文章看起。老郑也建议大家获取原文阅读一下文章的研究流程,与之前看到的机器学习构建预测模型的文章进行比对,说不定有新的思路和体会。
关于郑老师团队及公众号
大型医学统计服务公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理
我们开展对临床预测模型、机器学习、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法、MIMIC一对一R语言指导开展统计分析(一年内不限时间,周末、晚上均统计师一对一指导)。
①指导学习R语言基本技巧
②全程指导课程学习
③课程R语言代码运行bug修复
④支持学员一篇SCI论文的数据分析