引言
60万人构建的机器学习预测模型你见过吗?
老郑也是第一次看到。武汉大学研究团队使用超40万名患者数据对模型进行训练、内部验证和测试,另外使用MIMIC数据库20万人数据进行外部验证,使用三种机器学习算法开发最佳快速脓毒症筛查工具(qSepsis)。
下面让我们一起来看一下这篇文章!
如果你需要全文,请公众号后台回复关键词“pdf”。如果你对机器学习感兴趣,千万不要错过我们的基于R语言的机器学习构建临床预测模型课程!详情可咨询助教,微信号:aq566665
数据收集与处理
纳入2015年1月1日至2022年5月31日期间,武汉大学中南医院急诊科收治的414,864例年龄≥18岁符合条件的患者。 外部验证队列使用MIMIC-IV-ED version 2.2数据库,使用同样的纳排标准纳入200,089名患者。
首先,进行初步筛选
根据感染病的特征,总结了可能相关的49种症状和体征,并由数据人员对涉及上述症状体征的病例数据进行标记,计算这些指标在数据中的比例。
其次,邀请专家评估
邀请5位临床经验丰富的专家评估被标记的49种症状和特征变量,移除了阳性率低于2%的9个指标,同时加入年龄、生命体征及格拉斯哥昏迷评分(GCS)等11个数值变量,最终得到51个候选变量。
接着,排除部分变量
排除了缺失值比例大于30%以及高度关联(>80%)的变量,剩下40个候选变量。
最后,进行递归特征消除
通过将特征重要性排序,每次迭代中去除最不重要的特征并重新拟合模型,最终选择了具有最佳AUROC的12个特征子集。
确定了特征子集后,临床专家再次审查这12个特征,确保没有排除具有重大临床意义的特征。
在临床变量选择时,排除了缺失值比例大于30%以及相关性高于80%的变量;
采用了多种非随机缺失策略来处理缺失值:
对于格拉斯哥昏迷评分(GCS),由于临床专家认为无意识改变的患者很容易被遗漏,所以用0来填充缺失值; 对于其他数值变量的缺失值,考虑到这些变量的非随机分布特性,用队列的中位数来填充。使用了多重插值密度图来展示每个数值变量在插值前后的数据情况。
因为阴性症状在记录中被高度遗漏,将二分类的症状和体征变量编码为1(表示阳性症状或体征)和0(表示其他,包括缺失值)。 “到院方式”变量中,“救护车”标记为1,其余情况标记为0。
在分割数据后,独立地对训练集和测试集进行了插补处理。
开发并验证预测模型
在选定的训练数据集中进行了5折交叉验证,以避免过拟合。
数据集中的20%被用作测试集,不参与模型训练,其余80%被合并形成每一折的训练集和验证集,以进行进一步的微调。
由于脓毒症患者与非脓毒症患者数量之间存在极端的不平衡,我们采用了分层下采样方法,确保类别分布均匀。
使用AUROC对每个折叠的模型性能进行评估,并用最大的Youden's J指数来确定模型的最佳阈值。
通过评估AUROC等多种指标,选定表现最佳的机器学习算法,即LR。
研究结果显示,相较于RF和XGB,LR模型的性能最佳(AUROC为0.862)。
关于郑老师团队及公众号
大型医学统计服务公众号平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理
我们开展对临床预测模型、机器学习、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法、MIMIC一对一R语言指导开展统计分析(一年内不限时间,周末、晚上均统计师一对一指导)。
①指导学习R语言基本技巧
②全程指导课程学习
③课程R语言代码运行bug修复
④支持学员一篇SCI论文的数据分析