IF-5.8 | 基于MIMIC数据库的TabNet机器学习模型预测ICU心脏骤停

文摘   2024-09-26 19:18   美国  

医学科研新动向

Early Prediction of Cardiac Arrest in the Intensive Care Unit Using Explainable Machine Learning: Retrospective Study

J. Med. Internet Res.

< 2024年09月17日>

研究背景

心脏骤停(CA)是重症监护病房中导致患者死亡的主要原因之一。尽管已有许多基于机器学习的预测模型能够较为准确地预测CA,但由于缺乏对不同ICU亚群患者的异质性研究,这些模型在实际临床中的应用仍然存在困难。传统的评分系统如SAPS-II、SOFA等虽然被广泛用于预测心脏骤停,但其敏感性较低,误报率较高。本文旨在提出一种具有临床解释性的集成学习模型,能够在不同ICU环境下提前24小时预测CA事件,并提供可解释的预测结果。

研究设计

1. 数据来源
  • 使用了MIMIC-IV和eICU-CRD两个数据库。MIMIC-IV包括46,520名ICU患者的数据(2008-2019年),eICU-CRD包含超过200,000次ICU住院记录(2014-2015年)。
  • 两个数据库中的数据涵盖了生命体征、实验室检查、临床事件、药物使用和生存统计等信息。

2. 数据预处理

  • 对生命体征(如心率、血压、呼吸率、血氧饱和度等)进行采样,将12小时的时间窗口分为12个1小时的区间,每个区间取平均值。

  • 使用LOCF(最后观察值向前填充)和LOCB(最后观察值向后填充)方法对缺失值进行插补。

  • 计算EWS(早期预警评分),每小时更新一次生命体征的评分,并根据医学专家确定的正常范围去除异常值。

3. 特征提取

  • 生命体征特征:提取12小时窗口内的标准化生命体征数据。

  • 多分辨率统计特征:使用4小时、6小时和12小时滑动窗口生成统计特征,包括均值、最小值、最大值和标准差,捕捉不同时间段内的模式变化。

  • 基尼指数特征:计算每个生命体征的基尼指数,衡量其在输入时间窗口内的变化不平衡度。

4. 模型开发

  • TabNet分类器:该模型适用于处理表格数据,利用深度学习捕捉数据间的复杂关系。

  • 成本敏感学习:为应对类别不平衡问题,使用成本敏感学习方法,给予心脏骤停类别更高的惩罚权重(100:1)。

  • 特征筛选:采用递归特征消除(RFE)和Boruta方法选择最相关的特征,并结合多数投票机制筛选出86个(MIMIC-IV)和94个(eICU-CRD)特征。

4. 模型评价指标

使用10倍交叉验证和跨数据集验证评估模型性能,主要指标包括:

  • AUROC(受试者工作特征曲线下面积):衡量模型整体分类能力。
  • 事件召回率(Event Recall, ER):预测出的真实事件占总事件的比例。
  • 误报率(False Alarm Rate, FAR):无事件情况下的报警率。
  • 敏感性(Sensitivity):模型检测出心脏骤停的能力。

6. 模型解释性

  • TabNet决策掩码:分析每个特征对模型预测的贡献,生成局部和全局特征重要性信息。

核心结果

1. 基线特征:

心脏骤停组在多个生命体征上与非心脏骤停组存在显著差异(Table 1)。

  • 心率:心脏骤停组的平均心率显著高于非心脏骤停组(p<0.001)。在MIMIC-IV数据集中,心脏骤停组的平均心率为88.79次/分钟,非心脏骤停组为87.10次/分钟。

  • 血氧饱和度(SpO2):心脏骤停组的血氧饱和度略高于非心脏骤停组,差异具有统计学意义(p<0.001)。

  • 呼吸率:两组的呼吸率差异显著(p<0.001),心脏骤停组为21.26次/分钟,非心脏骤停组为20.99次/分钟。

2. TabNet模型与基线模型的性能对比

在MIMIC-IV数据集中,TabNet模型的AUROC和敏感性显著高于传统方法:

  • AUROC:TabNet模型的AUROC为0.80,而NEWS(National Early Warning Score)模型为0.39,SOFA(Sequential Organ Failure Assessment)为0.59。

  • 敏感性:TabNet模型的敏感性为0.80,NEWS为0.39,SOFA为0.59。

  • 误报率:TabNet模型的误报率为0.77,SOFA为0.90。

在eICU-CRD数据集中,TabNet的表现同样优于传统模型:

  • AUROC:TabNet模型达到0.99,敏感性为0.99,误报率为0.36,远高于基线模型。

3. 跨数据集验证结果

跨数据集验证显示了TabNet模型在不同环境下的强大泛化能力:

  • 在MIMIC-IV训练、eICU-CRD测试的情况下,TabNet模型的AUROC为0.99,敏感性为0.99,事件召回率为0.99,误报率为0.45。

  • 反之,eICU-CRD训练、MIMIC-IV测试时,AUROC依然保持在0.99,敏感性为0.99,事件召回率为0.99,误报率为0.50。

4. 特征重要性分析

模型的特征重要性分析揭示了影响心脏骤停预测的关键特征:

  • 生命体征:心率、血氧饱和度和体温是模型中最重要的特征。心率波动越大,基尼指数越高,说明心脏骤停前患者生命体征不稳定。

  • 统计学结果:独立t检验和FDR校正结果显示,心率、SpO2、体温等20个特征在心脏骤停组与非心脏骤停组之间存在显著差异(p<0.001)。

5. 不同ICU类型中的模型性能

在不同ICU类型(普通ICU和心脏ICU)中,TabNet模型表现出较高的一致性:
  • 普通ICU:AUROC为0.80,敏感性为0.80,误报率为0.77。
  • 心脏ICU:AUROC提升至0.89,敏感性为0.89,误报率降低至0.77。
这一结果表明,TabNet模型在不同ICU环境下的预测性能稳定,尤其在心脏ICU中表现尤为出色,模型能够识别出更多的心脏骤停事件并有效减少误报。


这篇文章提出了一种基于解释性机器学习的模型TabNet,用于预测重症监护病房(ICU)中心脏骤停(CA)的发生。通过对MIMIC-IV和eICU-CRD数据库的患者数据进行分析,本文展示了该模型在不同ICU亚群中的稳定性和泛化能力。以下为该研究的主要发现和结论:

  1. 多分辨率特征与基尼指数的创新应用

    提取生命体征的多分辨率统计特征和基尼指数,捕捉心脏骤停前的关键变化,显著提升了模型的预测能力。

  2. TabNet模型性能优越
    TabNet模型在MIMIC-IV和eICU-CRD数据集中均表现出色,在AUROC、敏感性和误报率等关键指标上显著优于传统模型,如NEWS、SOFA等。

  3. 跨数据集验证
    TabNet模型在跨数据集验证中表现出极强的泛化能力,无论是在MIMIC-IV训练、eICU-CRD测试,还是相反的情况下,均保持高AUROC和敏感性。

  4. 模型解释性增强临床应用价值
    通过TabNet的解释性分析,可以清晰了解每个特征对心脏骤停预测的贡献,特别是心率、SpO2和体温等生命体征的变化,对于临床决策具有重要意义。

  5. 不同ICU亚群中的表现一致性
    模型在普通ICU和心脏ICU中的表现均衡,尤其在心脏ICU中的表现尤为突出,表明该模型适用于多种ICU环境。

  6. 临床应用前景
    本研究展示了TabNet模型在临床早期预警系统中的应用潜力,能够提供提前24小时的心脏骤停预警,帮助在关键时刻进行及时干预,降低患者死亡率。

-END-

文字丨本人编写,如有补充,请随时告诉我
点击左下角“阅读原文”即可获取全文

医学科研新动向
每日分享-相关领域包括:MIMIC、NHANES、SEER、GEO、TCGA、CHARLS等公共数据库最新研究成果解读。深入剖析机器学习、生信分析与临床流行病学研究方法。
 最新文章