中国学者用15年数据构建临床预测模型发文Lancet子刊,机器学习方法就这么干

健康   2024-12-06 07:49   浙江  

引言

虽说机器学习的文章我们已经看过不少了,但今天这篇文章还是让老郑眼前一亮。研究团队用随机森林(RF)、Lasso、Boruta和极端梯度提升(XGBoost)识别预测因素,并用8种机器学习法构建预测模型。

先来看看本文的研究设计吧:
1.数据收集与处理
  • 使用mice和Vim软件包处理缺失数据;
  • RF算法的辅助下,对原始缺失数据进行了5次插补,50次迭代。
2.预测因子的筛选
  • 首先,根据系统评价、Meta分析和专家临床意见,确定了20个影响剖宫产瘢痕异位妊娠(CSEP)术中大出血的因素;
  • 接着,用RF、Lasso、Boruta和XGBoost确定了9个最佳预测变量。
3.模型的构建与评估
  • 数据集被分为70%训练集和30%验证集;

  • 使用8种机器学习法预测CSEP期间的大出血,包括:朴素贝叶斯(Bayes)、多层感知(MLP)、决策树(DT)、K-最近邻算法(KNN)、逻辑回归(LR)、RF、支持向量机(SVM)和XGBoost;

  • 使用准确性、AUC和决策曲线(DCA)评估和比较基于机器学习法构建的八个模型;

  • 使用灵敏度、特异性、马修斯相关系数和F1评分对最佳模型进行内部和外部验证。

4.模型解释与网络应用
  • 使用"iBreakDown"包解释预测模型,并生成部分依赖图(PDP)可视化变量的重要性;
  • 用Shiny软件包将9个选定的预测变量和最佳建模集成到交互式Web应用程序中。

剖宫产子宫瘢痕异位妊娠(CSEP)是剖宫产术后妊娠的一种潜在致命的并发症,可能导致孕妇大出血或死亡。手术中的出血量直接影响手术的成功率。

近年来,基于电子病历(EMR)数据构建的机器学习(ML)预测模型研究日益增多。本研究团队开发的最佳预测模型已被集成到一个网络应用程序中,使临床医生无需掌握R语言或编程技能即可预测CSEP患者的术中风险。

2024年12月,中国学者在医学顶级期刊Lancet子刊《eClinicalMedicine(医学一区top,IF=9.6)发表了一篇题为:Risk of intraoperative hemorrhage during cesarean scar ectopic pregnancy surgery: development and validation of an interpretable machine learning prediction model的研究论文。

在该项研究中,研究团队使用四种方法确定模型的预测因子,并使用八种机器学习法构建预测模型。不同于我们之前介绍的SHAP法,本研究使用"iBreakDown"包对模型进行可视化。

如果你需要全文,请公众号后台回复关键词“pdf”。如果你对机器学习感兴趣,千万不要错过我们的基于R语言的机器学习构建临床预测模型课程!详情可咨询助教,微信号:aq566665

数据收集与处理

该研究是一项多中心回顾性研究,纳入了四家三级医疗机构的EMR数据,分别用于构建预测模型、内部验证和外部验证。

√数据收集

在模型构建阶段,研究团队纳入了2008年1月1日至2023年12月31日期间,在全国三家三级医疗机构就诊1680名、25~40岁的CSEP患者的EMR数据,包括:

  • 在山东大学齐鲁医院治疗的1118例CSEP患者;
  • 在重庆市妇幼保健院治疗的189例CSEP患者;
  • 在德州市妇幼保健院治疗的373例CSEP患者。

外部验证集则来自聊城市东昌府区妇幼保健院的295名CSEP患者,时间跨度为2021年1月1日至2023年12月31日。

√数据处理

研究团队首先需要对数据进行处理,将类别变量视为虚拟变量,消除接近零方差的变量,并对数值变量进行标准化以减轻过拟合。



在纳入的1680例患者中,19例出现部分变量数据缺失,总缺失率达1.13%。

因此,研究团队使用mice和Vim软件包处理缺失数据。由于丢失的数据完全是随机的,研究团队进一步使用RF算法,对原始缺失数据进行了5次插补,50次迭代,并完成了敏感性分析。

图1 研究流程

筛选变量

最初,研究团队通过系统综述、Meta分析和专家临床意见确定了20个造成CSEP患者术中大出血的因素。

  • 包括人口统计学特征、生育史、医学背景、临床症状和超声检查特征。

接着,根据变量减少原则,采用RF,Lasso,Boruta和XGBoost四种方法对20个候选变量进行额外筛选,最终确定了9个最佳的预测变量。

  • 包括:孕龄、术前阴道出血持续时间、孕囊或妊娠包块的平均直径、子宫前肌层厚度、血清HGB水平、血清β-hCG水平、子宫动静脉瘘、早孕胎盘植入频谱疾病和超声成像血流分级。

图2 基于四种方法筛选出的9种共同预测变量

模型的构建与评估

在填补完缺失数据后,数据被随机分为训练集(70%)和验证集(30%)。

√模型构建
使用8种机器学习法构建CSEP患者术中大出血的预测模型,包括朴素贝叶斯(Bayes)、多层感知(MLP)、决策树(DT)、K-最近邻算法(KNN)、逻辑回归(LR)、RF、支持向量机(SVM)和XGBoost。
模型评估
使用准确性、AUC和决策曲线(DCA) 评估模型性能。
对于最佳预测模型,使灵敏度、特异性、马修斯相关系数和F1评分进行内部和外部验证。
研究结果表明,在训练集中,朴素贝叶斯(Bayes)的预测性能最佳,AUC为0.882。

图3 验证集中,8种机器学习预测模型的ROC曲线
在内部验证集中,朴素贝叶斯(Bayes)的AUC为0.822(95% CI:0.801-0.843);部验证集中,朴素贝叶斯(Bayes)的AUC为0.853(95% CI:0.832-0.874)。

图4 内外部验证集中,朴素贝叶斯(Bayes)模型的ROC曲线

模型解释与网络应用

模型解释
使用iBreakDown包,生成部分依赖图(PDP),阐明了单个预测变量对主要结果指标的影响。
√网络风险预测程序
将最佳预测模型通过Shiny部署在互联网上,从而无需使用R代码软件就能实现应用程序的共享。
在输入模型所需的9个预测变量的实际值后,应用程序将自动计算CSEP患者术中出血的概率。
  • 研究团队将该程序向所有用户开放(https://cnsdql.shinyapps.io/csep-prediction-model/,测试账户:SuperManagerr,密码:QiLuhospitalall);
  • 新用户也可以使用个人电子邮件免费注册。

综上所述,研究团队基于多个中心医院的EMR数据开发了一个ML模型,在预测CSEP患者术中出血风险方面表现出较强的区分能力和临床实用性。

基于研究结果,研究者认为要想减少术中并发症,提高手术成功率,可以事先进行针对性的术前准备,例如确保足够的输血单位供应或选择有经验的手术团队

老郑小评

老郑去试了一下他们提供的应用程序,运行速度很快,只要填上信息,几秒就能给出预测结果。
对于文章的统计学方法来说,还是比较符合构建机器学习预测模型的常见套路的。但它写得更全,从缺失数据、到特征选择到建模、甚至写到了模型发布,模型验证具有内部验证与外部验证。
尤其是,特征选择,用到了的四种方法,可能是因为CSEP相关变量间存在复杂的交互作用,研究团队要用多种方法验证才能确定哪些是真正重要的预测因子,而不是偶然出现在某一种方法中的“噪音”变量。
另外,最后结果呈现也非常不错一般机器学习不可绘制像列线图这种可视化图形,但是可以采用网页版直接进行线上预测。他们也实现了!!!

公众号后台回复关键词“pdf”,即可获取原文!更多关于临床预测模型与机器学习统计服务,请联系郑老师团队,助教微信:sas555777

郑老师统计团队及公众号

全国较大的线上医学统计服务平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!


我们提供以医学数据数据挖掘统计服务
①NAHANES:一二区论文占半数
②MIMIC:急诊数据分析与机器学习建模
GBD:全球、中国各种疾病患病、死亡研究
孟德尔随机化:疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导

GBD、NHANES医学数据库挖掘1对1R语言指导

联系助教陈老师咨询(微信号sas555777



医学论文与统计分析
本号为高校统计学老师所设,介绍医学论文进展与统计学方法,SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后,发送关键词“33”到公众号就可以获取常见的统计软件比如Spss,sas,PASS(绝对无毒)等
 最新文章