60万人构建的预测模型会是怎么样的?中国学者发文Lancet子刊,方法值得借鉴

健康   2025-01-16 11:51   中国台湾  

引言

60万人构建的机器学习预测模型你见过吗?

老郑也是第一次看到。武汉大学研究团队使用超40万名患者数据对模型进行训练、内部验证和测试,另外使用MIMIC数据库20万人数据进行外部验证,使用三种机器学习算法开发最佳快速脓毒症筛查工具(qSepsis)。

下面让我们一起来看一下这篇文章!

2025年1月,武汉大学的学者在医学顶级期刊Lancet子刊《eClinicalMedicine(医学一区top,IF=9.6)发表了一篇题为:Development and validation of a screening tool for sepsis without laboratory results in the emergency department: a machine learning study的研究论文。
在该项研究中,研究团队旨在基于三种机器学习算法,开发一种快速脓毒症筛查工具(qSepsis),无需等待实验室结果,实现快速分诊。并将其性能与已建立的临床评分:全身炎症反应综合征(SIRS)、脓毒症相关的快速序贯器官衰竭评分(qSOFA)和改良早期预警评分(MEWS)进行比较。

如果你需要全文,请公众号后台回复关键词“pdf”。如果你对机器学习感兴趣,千万不要错过我们的基于R语言的机器学习构建临床预测模型课程!详情可咨询助教,微信号:aq566665

每年因脓毒症死亡的人数约占全球死亡人数的19.7%,而早期识别和及时干预可以改善患者的预后并大大降低死亡率。

数据收集与处理

该研究是一项回顾性研究,研究团队使用电子健康记录(EHR)系统获取患者病史和临床数据,仅分析每位患者首次入院的数据。
√数据收集
  • 纳入2015年1月1日至2022年5月31日期间,武汉大学中南医院急诊科收治的414,864例年龄≥18岁符合条件的患者。
  • 部验证队列使用MIMIC-IV-ED version 2.2数据库,使用同样的纳排标准纳入200,089名患者。
研究团队使用所提取的数据计算了SIRSqSOFAMEWS评分,数据处理程序与主要数据集的处理一致,均使用多种方法对缺失数据进行填补。
图1 研究流程
√数据处理
使用合理性过滤器处理数值变量,确保数据的生理学有效性,异常值由空值代替。
√临床变量的选择
  • 首先,进行初步筛选

    根据感染病的特征,总结了可能相关的49种症状和体征,并由数据人员对涉及上述症状体征的病例数据进行标记,计算这些指标在数据中的比例。

  • 其次,邀请专家评估

    邀请5位临床经验丰富的专家评估被标记的49种症状和特征变量,移除了阳性率低于2%的9个指标,同时加入年龄、生命体征及格拉斯哥昏迷评分(GCS)等11个数值变量,最终得到51个候选变量。

  • 接着,排除部分变量

    排除了缺失值比例大于30%以及高度关联(>80%)的变量,剩下40个候选变量。

  • 最后,进行递归特征消除

    通过将特征重要性排序,每次迭代中去除最不重要的特征并重新拟合模型,最终选择了具有最佳AUROC的12个特征子集。

    确定了特征子集后,临床专家再次审查这12个特征,确保没有排除具有重大临床意义的特征。



√缺失值处理

在临床变量选择时,排除了缺失值比例大于30%以及相关性高于80%的变量;

采用了多种非随机缺失策略来处理缺失值:

  • 对于格拉斯哥昏迷评分(GCS),由于临床专家认为无意识改变的患者很容易被遗漏,所以用0来填充缺失值;
  • 对于其他数值变量的缺失值,考虑到这些变量的非随机分布特性,用队列的中位数来填充。使用了多重插值密度图来展示每个数值变量在插值前后的数据情况。

分类变量缺失值的处理:
  • 因为阴性症状在记录中被高度遗漏将二分类的症状和体征变量编码为1(表示阳性症状或体征)和0表示其他,包括缺失值)。
  • “到院方式”变量中,“救护车”标记为1,其余情况标记为0。

在分割数据后,独立地对训练集和测试集进行了插补处理。

数据归一化
分别对训练集和测试集中的所有变量使用MinMax标量进行归一化处理。

开发并验证预测模型

√模型的选择
将40个特征纳入三个机器学习算法:包括逻辑回归[LR]、随机森林[RF]和极端梯度提升[XGB],构建qSepsis模型。

在选定的训练数据集中进行了5折交叉验证,以避免过拟合。

  • 数据集中的20%被用作测试集,不参与模型训练,其余80%被合并形成每一折的训练集和验证集,以进行进一步的微调。

由于脓毒症患者与非脓毒症患者数量之间存在极端的不平衡,我们采用了分层下采样方法,确保类别分布均匀。

使用AUROC对每个折叠的模型性能进行评估,并用最大的Youden's J指数来确定模型的最佳阈值。

通过评估AUROC等多种指标,选定表现最佳的机器学习算法,即LR。

√预测因子的筛选
特征的重要性通过模型的权重或增益(即决策树中将给定特征作为分支点所带来的准确率的提升)得出。
使用递归特征消除法,通过对特征重要性排序、丢弃最不重要的特征并重新拟合模型,将特征从40个减少到20个,然后再减少到12个。通过这种方法,我们能够以较少的指标构建qSepsis模型。
图3 qSepsis模型中12个特征的权重
√模型的构建和评估
最终,根据模型性能最佳的结果及急诊和重症医学专家的建议,将12个特征纳入LR模型,构建qSepsis模型。

研究结果显示,相较于RF和XGB,LR模型的性能最佳(AUROC为0.862)。

图2 逻辑回归、随机森林和极端梯度提升的模型性能
使用多个指标评估模型的预测能力,除了AUROC外,LR在灵敏度(0.763)和阴性预测值(NPV, 0.994)方面的表现也优于其他两个机器学习模型。
此外,研究结果显示,基于三种机器学习的模型在性能上优于现有的临床脓毒症筛查评分,包括qSOFA、SIRS和MEWS(AUC=0.862,AUPRC=0.213)。
图4 与已建立的临床评分相比,LR在qSepsis模型中的ROC曲线
图5 qSepsis模型和其他临床评分的PRC曲线
外部验证队列中,与其他模型相比,LR模型始终保持最佳性能,AUROC较高,为0.766 (95% CI 0.758-0.774)。
综上所述,与现有脓毒症临床评分相比,qSepsis的预测性能最佳,在实猃室检测手段有限的院前急救环境中以及急诊科,它可用于快速筛选脓毒症患者。
【感谢阅读浙中大郑老师团队撰写的统计文章】

关于郑老师团队及公众号 

大型医学统计服务公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理

我们开展对临床预测模型、机器学习、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法、MIMIC对一R语言指导开展统计分析(一年内不限时间,周末、晚上均统计师一对一指导)。

①指导学习R语言基本技巧

②全程指导课程学习

③课程R语言代码运行bug修复

④支持学员一篇SCI论文的数据分析

1对1R语言指导详情介绍
联系助教小董咨询(微信号aq566665



医学论文与统计分析
本号为高校统计学老师所设,介绍医学论文进展与统计学方法,SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后,发送关键词“33”到公众号就可以获取常见的统计软件比如Spss,sas,PASS(绝对无毒)等
 最新文章