3.2/Q2,北京协和医学院MIMIC+eICU+机器学习建立用于预测ICU心衰死亡率的在线计算器与列线图

文摘   2024-11-28 20:50   海南  

Med-MIMIC,持续分享MIMIC临床生信文献与思路解读,捕捉当下热点思路,感兴趣的老师可以点点关注~需要定制化分析的老师欢迎扫码联系~

文章标题:Explainable machine learning and online calculators to predict heart failure mortality in intensive care units

中文标题:可解释的机器学习和在线计算器,用于预测重症监护病房的心力衰竭死亡率

发表期刊ESC Heart Fail .

发表时间2024年9月

影响因子3.2/Q2

目标

心力衰竭 (HF) 是心脏病患者毁灭性的终末期疾病,自 1997 年以来一直被认为是一种日益严重的流行病.本研究旨在开发可解释的机器学习模型和临床工具,用于预测重症监护病房 (ICU) 心力衰竭 (HF) 患者的死亡率。

思路

从重症监护 IV 医学信息市场 (MIMIC-IV) 数据库中选择首次经历 ICU 住院时间在 24 h 至 28 天之间的 HF 患者。主要结局是 28 天内的全因死亡率。使用 Python 和 R 进行数据分析,通过最小绝对收缩和选择运算符 (LASSO) 回归进行特征选择。评估了 15 个模型,最有效的模型通过 Shapley 加法解释 (SHAP) 方法进行了解释。基于 logistic 回归开发了一个列线图,以方便解释。对于外部验证,使用了 eICU 数据库。

研究人群

纳入标准:纳入标准是被诊断患有 HF 并首次入住 ICU 的患者。

排除标准:在 ICU 停留 <24 小时或超过 28 天的患者被排除在研究之外。特征缺失超过 30% 的患者(特征提取后)也被排除在研究之外。

外部验证

在 ICU 中停留 24 h 至 28 d 的 HF 患者是从 eICU 数据库中选择的,无论他们的入院时间如何。根据所选机器学习模型的特征提取实验室和体格检查结果。去除特征缺失超过 30% 的患者。在所选模型中但不在验证队列中的特征将 (1) 替换为相关特征的值,或 (2) 用 MIMIC-IV 数据库中的中值填充。

结果分析

1. 基线特征

该研究包括 2343 例 ICU 中 HF 患者的首次入院记录,其中 1808 名幸存患者和 535 名已故患者。表 1 介绍了 HF ICU 患者的特征以及生存组和非生存组之间的差异。

2. 功能选择

我们应用 LASSO 回归并确定收缩参数 α 为 0.020(图 2A、B)。

随后,我们使用训练队列选择了 44 个特征来进一步构建机器学习模型(图 3)。

3. 机器学习模型构建

我们在训练集中使用 10 倍交叉验证,根据 44 个选定的特征构建了总共 15 个模型,并在测试队列中通过各种指标评估它们,例如准确性、AUC、召回率、精度、F1 分数、Cohen 的 kappa 分数和 MCC(表 2)。

与其他模型相比,LDA 模型表现出最高的准确性、Cohen 的 kappa 评分和 MCC。在综合考虑所有评价参数后,选择 LDA 模型作为最佳模型。图 4 显示了所选 LDA 模型的 ROC 曲线、精度-召回率曲线和测试队列的性能。一致性指数 (c-index) 是用于评估预测模型性能的指标,尤其是在生存分析和二元分类问题的背景下。对于 LDA 模型,训练队列的 c 指数达到 0.7972,测试队列的 c 指数达到 0.8125,表明区分力很强。

4. 特征说明

我们首先检查了 LDA 模型的特征重要性,结果显示乳酸、碳酸氢根离子 (HCO3 -)(血清)和二氧化碳分压 (PCO)2) (动脉) 是前 3 个最重要的特征。此外,白细胞 (WBC)、住院时间、总胆红素、无创血压平均值 (NBPm)、中性粒细胞(绝对)、动脉血氧饱和度 (SaO2) 和淋巴细胞 (差异) 也是前 10 个特征之一 (图 5A)。使用雷达图,我们显示了具有不同相对重要性的前五个预测因子(图 5B)。

5. SHAP 

我们使用了 SHAP 方法使模型更易于解释。图 6 列出了前 20 个特征,该图显示老年患者、ICU 住院时间较长的患者以及 PCO 水平较高的患者2(动脉和静脉)、乳酸、部分凝血活酶时间 (PTT)、血尿素氮 (BUN)、白细胞、心率 (HR)、葡萄糖(血清)和纤维蛋白原存活的可能性较小。相反,较低的 HCO 水平3 -、 NBPm、动脉收缩压 (ABPs)、无创收缩压 (NBPs)、氧分压 (PO2)(动脉)、淋巴细胞(分类)、中性粒细胞(绝对)、血小板计数和丙氨酸转氨酶 (ALT) 表明死亡的可能性更高。

6. 基于 Web 的计算器

使用 LDA 模型开发了一个基于 Web 的计算器。该计算器可通过 https://tal-cat-28-day-all-cause-mortality-prediction-hf-predict-7rbxqk.streamlit.app/ 访问(图 7)。它利用 44 个特征来预测患者的生存状态。可以通过键入值或单击 +/- 符号来编辑列。单击底部的提交按钮后,将生成预测。

7. 外部验证

使用 KNN 算法替换缺失的数据。经过评估,LDA 模型的准确性达到 0.9064,精度为 0.8947,召回率为 0.9064,F1 得分为 0.8997。AUC (0.79) 表明已建立的 LDA 模型在外部队列中可接受的预测能力(图 8)。

8. 使用 LR 的列线图

使用 LR 构建了列线图,LR 是一种可视化工具。为了确定导致 ICU 中 HF 患者 28 天院内全因死亡率的特征,在训练队列中的生存组和非生存组之间进行了单变量分析(表3)。然后将组间差异显著的特征 (P 值 < 0.05) 进行多次 LR,结果以比值比和 95% 置信区间 (CIs) 报告。表 4 显示年龄、住院时间、HR、ABP、WBC、淋巴细胞(分类)、阴离子间隙、乳酸、BUN、PTT、肺动脉 (PA) 线 cm 标记和 PO2(动脉)是与 HF 危重患者 28 天院内死亡率相关的独立危险因素。

最后,使用多变量 LR 模型中的特征建立了一个列线图(图 9)。

还建立了预测 ICU 中 HF 患者 28 天全因死亡率的动态列线图。它是一个可公开访问的基于 Web 的计算器,可以在 https://at-c.shinyapps.io/DynNomapp/ 中找到(图 11)。

文章小结

该研究开发了一个 LDA 和一个列线图模型,用于预测 ICU 中 HF 患者的死亡率。采用 SHAP 方法阐明 LDA 模型,增强其对临床医生的实用性。这些模型可以在线访问以供临床应用。今天为大家分享的文章纯公共数据挖掘+统计分析,就发到了一区!如果你也想在临床方向发高分文章,不妨试试这个省钱省事又省力的思路吧!

Med-MIMIC
Med-MIMIC,主要更新临床医学MIMIC数据库最新生信文献和思路,提供专业的生信分析服务:思路设计,生信分析,文献复现,科室科研培训,数据库搭建,全力助力您的科研之路!!!
 最新文章