机器学习方法的佼佼者--超级学习者!来看医学一区top(IF=12.9)的文章

健康   2024-12-05 07:49   浙江  

引言

机器学习构建预测模型的文章我们也看了不少了,今天我们分享一篇用集成机器学习法--Supper Learner,结合多个免费公共数据库构建机器学习疾病预测模型。
先来看看本文的研究设计吧:
1.数据收集与处理:23个缺失相关协变量数据的参与者被排除。
2.特征选择:使用了23个人口统计学和临床变量作为预测因子。
3.模型的构建与评估
  • NASH-CRN(非酒精性脂肪性肝炎临床研究网络)观察性研究的数据(n=648)作为训练集;

  • FLINT试验(n=270)和NHANES数据库中患有NAFLD(非酒精性脂肪性肝病)的参与者数据(n=1244)为验证集;

  • 使用Supper Learner法结合多个基础模型构建预测模型;

  • 通过ROC曲线、AUC评估指标比较Supper Learner模型与其他现有的无创纤维化评分系统(如APRI、BARD、FIB-4等)在独立验证数据集上的性能。

4.敏感性分析

众所周知,回归模型是构建临床预测模型的主力。事实上,过去十年里开发的用于预测肝纤维化的非侵入性的工具,大多都依赖于逻辑回归模型。

尽管机器学习方法功能强大,但研究者们无法准确把握哪种机器学习法性能最佳。这时,Super Learner便成为了一个有效的解决方案,它能够通过将多个模型合并为一个综合模型,从而提升预测的准确性。
2024年11月,期刊Hepatology(医学一区top,IF=12.9)发表了一篇题为:Benchmarking clinical risk prediction algorithms with ensemble machine learning for the noninvasive diagnosis of liver fibrosis in NAFLD的研究论文,旨在探讨Supper Learner在识别非酒精性脂肪肝病(NAFLD)患者中的显著肝纤维化(达2期及以上肝纤维化)的预测性能。
研究结果显示,Super learner作为“最佳机器学习预测器”,在检测纤维化的非酒精性脂肪肝病(NASH)方面表现优异。

如果你需要全文,请公众号后台回复关键词“pdf”。如果你对机器学习感兴趣,千万不要错过本周六的基于R语言的机器学习构建临床预测模型课程!详情可咨询助教,微信号:aq566665

数据收集与处理

该项研究中,为了构建和验证superlearner模型,研究团队采用了来自不同队列的有NAFLD患者数据的数据集。

  • NASH-CRN(非酒精性脂肪性肝炎临床研究网络)观察性研究队列(n=648)为训练superlearner模型

  • FLINT试验(n=270)和NHANES数据库(n=1244)来验证superlearner模型
此外,排除了23个缺失相关协变量数据的参与者

图1 训练集和研究者的样本量筛选

特征筛选

选取三个数据集共有的23个人口统计学和临床变量训练superlearner,提高模型的预测能力。

表1 各数据集的特征

模型的构建与评估

√确定基础模型

首先使用训练集数据训练12个基础模型,每个模型都会尝试从数据中学习特征与目标变量的关系。

基础模型包括:贝叶斯广义线性模型(bayesglm)、多元自适应样条回归模型(earth)、广义加性模型(gam)、广义提升模型(gbm)、广义线性模型(glm)、正则化广义线性模型(glmnet)、套袋树(ipredbagg)、神经网络(nnet)、多元自适应多元样条回归(polymars )、随机森林(randomForest)、递归分割树(rpart)、支持向量机(svm)。

所有12个基本模型都使用默认调优参数。

使用交叉验证(CV)技术拟合含所有可用的预测变量和上述的12个基础模型,生成Super Learner模型,用于后续验证集中模型性能的评估。

√ 模型评估

使用ROC曲线和AUC值在验证集中评估Super Learner的性能,并将Super Learner模型的性能与现有评分系统(Fibrosis-4 [FIB-4]、NAFLD纤维化评分、Forns评分、AST与血小板比率指数[APRI]、BARD评分和脂肪变性相关纤维化估计器[SAFE])进行比较。

  • 使用bootstrap法进行1000次重复抽样,计算AUC的95%Cls;

  • 对于NHANES-NAFLD数据集,使用采样权重进行加权分析,以获得更准确的AUC和ROC曲线。

研究结果表明,在FLINT和NHANES验证集上,Super Learner预测性能较强,能够准确区分具有显著纤维化的患者和没有纤维化的患者。

  • FLINT验证集的AUC为0.79(95% CI:0.73-0.84),NHANES验证集的AUC为0.74(95% CI:0.68-0.79)
  • 同时,SAFE评分与Super Learner的性能相似,两者均优于FIB-4、APRI、Forns和BARD评分。

图2 验证集中,Super Learner(基于12个基本模型)、APRI、BARD、FIB-4、Forns、NFS和SAFE的ROC曲线

图3 验证集中,Super Learner(基于12个基本模型)、APRI、BARD、FIB-4、Forns、NFS和SAFE的AUC

敏感性分析

在敏感性分析中,研究团队比较了拟合的6个Super Learner的性能。



使用交叉验证(CV)技术拟合Super Learner模型,本研究共构建了六个Super Learner 它们的构建过程略有不同,但总体上都遵循以下步骤:

  • Super Learner 1使用所有可用的预测变量和上述的12个基础模型进行拟合;

  • Super Learner 2:在Super Learner 1的基础上重新拟合到所有连续预测器都经过对数变换的训练数据中;

  • Super Learner 3:在Super Learner 2的基础上再次拟合到未变换和对数变换的数据中。

  • Super Learner 4~6:这三个Super Learner是基于90个基础模型构建的。它们分别拟合于未转换的、对数转换的、以及未转换+对数转换组合的数据上。

在拟合过程中,通过交叉验证来确定每个基础模型的预测性能,并根据这些性能为它们分配权重。

这些权重将用于组合基础模型的预测结果,以形成超级学习器的最终预测。

结果显示,所有模型的预测性能相似,这意味着Super Learner从12个基础模型中得出的结果与从90个基础模型中得出的结果一致。

上所述,在检测纤维化的非酒精性脂肪肝病(NASH)方面,经过训练的Super Learner模型的预测性能显著优于现有模型。

研究团队认为,Super Learner模型可以在给定训练数据集的基础上得到“最佳预测”,即使在它没有优于现有简单模型的情况下,也可以将其用作评估现有临床风险预测模型性能的基准。

公众号后台回复关键词“pdf”,即可获取原文!更多关于临床预测模型与机器学习统计服务,请联系郑老师团队,助教微信:sas555777

郑老师统计团队及公众号

全国较大的线上医学统计服务平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!


我们提供以医学数据数据挖掘统计服务
①NAHANES:一二区论文占半数
②MIMIC:急诊数据分析与机器学习建模
GBD:全球、中国各种疾病患病、死亡研究
孟德尔随机化:疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导

GBD、NHANES医学数据库挖掘1对1R语言指导

联系助教陈老师咨询(微信号sas555777





医学论文与统计分析
本号为高校统计学老师所设,介绍医学论文进展与统计学方法,SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后,发送关键词“33”到公众号就可以获取常见的统计软件比如Spss,sas,PASS(绝对无毒)等
 最新文章