Med-MIMIC,持续分享MIMIC临床生信文献与思路解读,捕捉当下热点思路,感兴趣的老师可以点点关注~需要定制化分析的老师欢迎扫码联系~
文章标题:Early Prediction of Cardiac Arrest in the Intensive Care Unit Using Explainable Machine Learning: Retrospective Study
中文标题:使用可解释的机器学习对重症监护病房心脏骤停的早期预测:回顾性研究
发表期刊:J Med Internet Res .
发表时间:2024年9月
影响因子:5.8/Q2
心脏骤停 (CA) 是重症监护病房 (ICU) 患者死亡的主要原因之一。不同 ICU 亚型患者之间的异质性尚未得到充分解决。本研究旨在提出一种临床可解释的集成方法,用于在 24 小时内及时准确地预测 CA,无论患者异质性如何,包括不同人群和 ICU 亚型之间的差异。此外,我们进行了独立于患者的评估,以强调模型的泛化性能,并分析了临床医生可以轻松实时采用的可解释结果。
思路
使用来自重症监护医学信息市场 (MIMIC-IV) 和 eICU 合作研究数据库 (eICU-CRD) 的数据对患者进行回顾性分析。我们从每个数据库中提取了 3 种类型的特征,以比较 MIMIC-IV 的高危患者组和 eICU-CRD 中无 CA 患者的 CA 预测性能。特征提取后,我们开发了一个表格网络 (TabNet) 模型,使用特征筛选和成本敏感学习。为了评估实时 CA 预测性能,我们使用了 10 倍留一患者出交叉验证和交叉数据集方法。我们评估了每个数据库中不同队列人群和 ICU 亚型的 MIMIC-IV 和 eICU-CRD。最后,使用 eICU-CRD 和 MIMIC-IV 数据库进行外部验证,以评估模型的泛化能力。所提出的方法的决策掩码用于捕获模型的可解释性。
预测模型框架
我们提出了一个提前 24 小时内预测 CA 事件的框架。该框架由 6 个部分组成:数据准备、数据预处理和提取、特征生成、特征聚合和 CA 事件标记、模型开发和评估。
结果分析
1. 基线特征
在 MIMIC-IV 的 12 小时时间窗内,CA 组和非 CA 组之间的年龄没有显着差异。然而,两组之间的 ICU 住院时间存在统计学差异 (P=.02)。HR (P<.001) 、 RR (P<.001) 、 SBP (P<.001) 、DBP (P=.01) 、SpO2 (P<.001) 和温度 (P<.001) 差异显著。在 eICU-CRD 数据集中,年龄 (P=.11) 和 ICU 住院时间 (P=.21) 被认为不显著,因为它们的 P 值大于 .05。接下来,我们提供了每种 ICU 亚型的患者特征,特别是普通 ICU 和心脏 ICU。
2. 特征筛选策略
无论是在其原始形式还是与集成特征筛选过程相结合时。最初,使用用于 CA 预测的所有特征对所提出的框架进行训练和验证,并通过 10 倍 LOPO 交叉验证方法进行验证。
3. 预测性能
在 MIMIC-IV 数据库的 12 小时时间窗口内,我们将拟议框架的 AUROC 与基线方法的 AUROC 进行了比较,以研究 CA 预测性能。与基线方法相比,所提出的方法实现了更高的总体 AUROC 值,如图 3 所示。
此外,我们比较了其他性能指标,包括事件回忆、误报率和敏感性,以评估在临床相关背景下的有效性。该评估的重点是在 24 小时内检测 CA 事件并最大限度地降低误报率,如 表 3 所示。
还评估了其他性能指标,包括事件召回率、误报率和灵敏度,如表 4 所示。与其他方法相比,所提出的方法在事件召回和敏感性方面取得了更高的统计值。
4. 亚组分析
我们评估了比较模型和拟议框架在不同 ICU 类型(包括普通 ICU 和心脏 ICU)中的性能。大多数 ICU 类型表现出相似的性能,除了 eICU-CRD 数据集中心脏 ICU 中的患者。如图 4 所示,与 MIMIC-IV 和 eICU-CRD 数据集中所有 ICU 类型的比较模型相比,所提出的方法在统计学上表现出更高的性能。按 ICU 类型划分的比较如下:MIMIC-IV 中的普通 ICU (χ28=29.67)、MIMIC-IV 中的心脏 ICU (χ28=44.22) 和 eICU-CRD 中的心脏 ICU (χ28=45.07)。
5. 外部验证
我们进行了跨数据集外部验证,以评估所提出的方法和比较模型的泛化能力。在 MIMIC-IV 数据集上训练后,我们使用 eICU-CRD 数据集作为测试集评估了在 24 小时内预测 CA 的临床效度。图 5 和表 5 显示了传统系统(包括 NEWS、SOFA 和 SAPS-II)、基于机器学习的比较方法和基于深度学习的评分系统的外部验证结果。与对比方法相比,所提出的方法实现了更高的 AUROC 、事件召回率和更低的误报率。
我们通过评估来自综合医院环境 (eICU-CRD) 的队列和心脏病队列 (MIMIC-IV) 来测试所提出的框架。结果表明,所提出的框架在 AUROC 、误报率和灵敏度方面取得了优异的性能,如表 6 所示。
6. 临床可解释性
我们利用来自 TabNet 的本地和全局可解释性信息来评估每个特征对拟议模型输出的影响。正重要性值表示提高预测分数的特征,而负值表示降低预测分数的特征。图 6 显示了所建议模型的前 25 个特征。
文章小结
所提出的方法在 MIMIC-IV 和 eICU-CRD 的不同队列人群中均优于传统方法。此外,对于两个数据库中的各种 ICU 亚型,它的准确性高于基线模型。可解释的预测结果可以作为非 CA 组和 CA 组之间的统计比较,从而增强临床医生对 CA 预测的理解。接下来,我们分别使用在 MIMIC-IV 和 eICU-CRD 上训练的模型测试了 eICU-CRD 和 MIMIC-IV 数据集,以评估泛化能力。结果表明,与基线模型相比,性能更胜一筹。今天为大家分享的文章纯公共数据挖掘+统计分析,就发到了一区!如果你也想在临床方向发高分文章,不妨试试这个省钱省事又省力的思路吧!