本次解读的是发表在Critical Care(IF=8.8)上的一篇文章《Interpretable machine learning model for new-onset atrial fibrillation prediction in critically ill patients: a multi-center study》本研究旨在使用机器学习 (ML) 为危重患者创建和验证新发心房颤动(NOAF)预测模型。
01背景介绍
新发心房颤动(NOAF)定义为既往无心房颤动(AF)病史的患者发生心房颤动(AF)。在AF期间,心房功能丧失和心室率增加可导致心输出量减少和血流动力学紊乱。NOAF是重症监护病房(ICU)收治的危重患者中最常见的心律失常。据报道,该人群中NOAF的发病率差异很大,从1.7% 到43.9%不等,研究之间存在显著异质性。研究表明,在脓毒性休克患者中,NOAF的存在是疾病严重程度的标志物,代表额外的器官衰竭。此外,多项研究表明,危重症期间的NOAF与中风、心力衰竭(HF)以及短期和长期死亡率风险增加之间存在很强的相关性。虽然许多研究调查了心脏手术后的NOAF,但对未接受心脏手术的危重患者的研究仍然相对较少。识别和管理此类患者以及相应的干预措施仍然具有挑战性。
机器学习(ML)在医学领域越来越受到重视,在预测癌症患者的生存和预后方面取得了令人印象深刻的结果。近年来,已经开发了几种ML模型来识别有AF风险的个体。然而,这些模型主要限于普通人群或接受心脏手术的患者 ,很少有模型设计用于重症监护病房(ICU)环境中常规识别AF风险。此外,大多数研究依赖于床旁心电图(ECG)进行 AF 检测,尽管其准确性很高,但由于其短期性,可能无法为临床医生提供足够的信息来预防AF的发作。
尽管ML模型实现了很高的准确性,但单个变量对这些模型的影响通常仍然未知。这种缺乏透明度限制了ML在临床实践中的应用。SHapley加法解释(SHAP)将最优信用分配与局部解释相结合,以直观地表示模型中每个变量的重要性,从而提供更易解释的输出。
因此,本文旨在构建一个模型,使用ML方法识别危重患者的NOAF风险人群,并使用SHAP方法直观地解释模型,以协助临床医生对高危人群进行临床识别和干预。
02材料和方法
01数据源
用于构建该模型的数据来自重症监护医学信息市场IV(MIMIC-IV,版本:v2.2),其中包含2008年至2020年贝斯以色列女执事医疗中心收治的299,712 名患者的431,231例住院临床信息。这里还使用MIMIC-III数据库的一个子集 进行了外部验证,其中包括2001年至2008年间23,692名患者的26,836例入院,与MIMIC-IV患者没有重叠。通讯作者(Bing Xiao)通过了协作机构培训计划(CITI)计划考试并获得证书(记录 ID:57,440,109)。由于MIMIC数据库是去标识化的,这里不需要获得患者的知情同意。这屋里向医院的伦理委员会进行了口头报告,不需要经过正常的审批程序。
02参与者
符合以下标准的患者被纳入研究:(1)患者年龄在18岁以上;(2)患者入住ICU超过2天;(3)第一天内没有心房颤动事件;(4)患者未接受过心脏手术,包括瓣膜手术和冠状动脉旁路移植术;(5)患者无AF病史;(6)对于多次入住ICU的患者,仅包括患者首次入院的ICU入院记录。图 1说明了患者筛查过程。
03材料提取和结果
使用PostgreSQL中的结构化查询语言(SQL)从两个数据库中提取ICU入院患者前24小时的数据。本研究提取的变量为:(1)人口统计信息:年龄、性别、种族、体重;(2)合并症:心肌梗死(MI)、心力衰竭伴射血分数降低(HFrEF)、心力衰竭伴射血分数保留(HFpEF)、外周动脉疾病、脑血管疾病、慢性肺病、慢性肾病、慢性肝病、高血压、糖尿病、败血症;(3)实验室指标:血红蛋白、白细胞(WBC)、血小板、血尿素氮(BUN)、肌酐、葡萄糖、阴离子间隙、钾、钠、钙、肌酸磷酸激酶(CK_CPK)、肌酸激酶同功酶(CK_MB)、n端前脑利钠肽(NT-proBNP)、尿量;(4)生命体征:心率(HR)、呼吸频率(RR)、收缩压(SBP)、舒张压(DBP)、体温、经皮动脉血氧饱和度(SpO2);(5)干预措施:机械通气、持续肾替代治疗(CRRT)、血管加压药、抗生素。除SpO2外,第一天的最大值和最小值均为多次测量值。为了减少缺失数据对模型构建的影响,采用KNNImputer (KNN)方法,对缺失率小于20%的数据进行估算,对缺失率大于20%的数据进行丢弃。
04统计分析和模型开发
Kolmogorov-Smirnov检验用于连续变量。由于连续变量都是非正态的,因此使用中位数(四分位距)进行描述,并使用Mann-Whitney U检验比较组间差异。分类变量表示为百分比(%),并使用Pearson卡方检验比较组间差异。
由于因变量中的类不平衡,使用欠采样对数据进行重采样以平衡数据。通过五重交叉验证抽样,将样本数据分为训练集和内部验证集。在特征较多的情况下,使用套索来选择特征,这是一种引入L1正则化的方法,通过压缩系数来选择特征并缩小维度,筛选贡献较大的特征并消除冗余特征。
本研究采用极端梯度提升(XGBoost)、支持向量机(SVM)、自适应提升(Adaboost)、多层感知器(MLP)、神经网络(NN)、朴素贝叶斯(NB)、逻辑回归(LR)和梯度提升机(GBM)八种ML算法构建预测模型。套索选择的变量包含在模型中。采用10倍交叉验证来确保模型的稳定性。网格优化参数用于为每个算法选择最佳优化参数。在参数调整过程中,选择受试者工作特征(ROC)的曲线下最大面积(AUC)作为最优模型。模型建立在训练集上,内部验证集和外部验证集在最佳模型上验证。通过ROC曲线的AUC 、敏感性、特异性、召回率、F1评分、准确性和召回率评估预测模型的性能。此外,绘制决策曲线分析(DCA)和校准曲线以证明真正的临床效用。为了确定这里模型的最佳阈值概率,这里生成了临床影响曲线(CIC)。这种复杂的可视化工具使这里能够严格评估和确定临床应用最有效的决策阈值
使用SHAP方法,绘制了一个swarm图来显示每个特征对预测结果的贡献。对选定案例的SHAP评估显示了特征对特定样本的影响程度,并帮助研究了解模型的决策过程。最后,研究使用特征递归消除来进一步过滤变量,以布置模型的简化版本。
03结果
01基线特征
经过筛选,共有16,528例MIMIC-IV患者被纳入研究,其中1520例 (9.2%) 在入住ICU后发生AF。共有6037例患者来自具有相同纳入标准的 MIMIC-III 亚组,其中677例(11.2%)发生AF。
表 1显示了 MIMIC-IV 数据库中所有患者的基线信息。值得注意的是,老年和白人患者在住院期间更容易患上NOAF。这些患者的住院时间和 ICU 住院时间延长,院内死亡率显着更高(28.42% vs. 非 NOAF 患者的 11.63%)。NOAF患者MI 、HFrEF 、HFpEF 、外周动脉疾病 、慢性肺病、慢性肾病 、 糖尿病 、高血压 、败血症的发生率也较高。在入住ICU的第一天,NOAF患者更频繁地需要干预,例如血管加压药、抗生素、机械通气和CRRT。实验室和生命体征评估显示,NOAF患者的血红蛋白、血小板、SBP、DBP、MBP、体温、SpO水平较低2和尿量。相反,与没有NOAF的患者相比,他们表现出 WBC、BUN 、肌酐、葡萄糖、阴离子间隙、钾、RR升高。
02功能选择
采用Lasso回归筛选训练集的相关特征,变量系数的特征如图1所示。2个A.使用10倍交叉验证方法进行迭代分析。与NOAF密切相关的23个变量是 admission_age、种族、体重、尿量、WBC_max、BUN_min、potassium_min、HR_min、HR_max、SBP_min、DBP_max、MBP_min、RR_min、temperature_min、temperature_max、SpO2_min、chronic_liver_disease、HFrEF、HFpEF、败血症、mechanical_ventilation、CRRT、血管加压药。
03模型性能比较
这里构建了8个ML模型来识别ICU危重患者发生NOAF的风险。图 3 显示了8个模型在ROC曲线方面的判别性能。所有8个模型都显示出对新发AF的相当大的预测性能,其中XGBoost模型表现出最佳性能。XGBoost模型的 AUC为0.891 [95% 置信区间(CI):0.878–0.903],为NOAF预测设定了基准。紧随其后,GBM模型显示出相当的疗效,AUC为0.877(95% CI:0.864–0.891),优于其余算法。其余模型虽然仍然表现出良好的预测能力,但按性能降序排列如下:Adaboost(AUC = 0.859,95% CI:0.845–0.873)、NN(AUC = 0.825,95% CI:0.809–0.841)、MLP(AUC = 0.807,95% CI:0.789–0.824)、NB(AUC = 0.792,95% CI:0.775–0.810)、SVM(AUC = 0.788,95% CI:0.770–0.806)和 LR(AUC = 0.786, 95% CI:0.769–0.804)。
表2显示了这8个模型的详细性能指标。XGBoost模型表现出较好的综合性能(敏感性:0.826,特异性:0.775)。值得注意的是,XGBoost的F1得分最高(0.805),准确率最高(0.801),召回率最高(0.826)。所有8个模型的校准曲线如图4A所示,为其预测可靠性提供了重要的见解。除NB和Adaboost模型外,8个模型中的6个在预测概率和观测结果之间表现出良好的一致性。
在临床适用性方面,除Adaboost外,每个模型在广泛的阈值概率范围内都显示出稳健的净效益,其中XGBoost模型表现出最高的净效益,因此被选为预测NOAF的最佳模型(图4C)。为了进一步阐明模型的性能,研究绘制了XGBoost模型的CIC(图4B), x轴表示不同的风险阈值及其相应的成本效益比,而y轴表示模型识别的阳性患者数量与1000个人样本中的实际真阳性患者数量。该可视化显示,随着阈值的增加,模型识别的阳性患者数量向实际真阳性数量收敛。然而,这种趋同伴随着与误报相关的成本效益比的上升。在仔细考虑了这些权衡之后,这里确定0.6作为定义高风险NOAF的最佳阈值。这种明智的选择在两个关键因素之间取得了平衡:它降低了因阈值过低而导致的过度假阳性鉴定的风险,同时避免了因阈值过高而可能发生的假阳性患者带来的重大损失。
04外部验证
尽管两个数据集之间的基线特征存在固有差异,但这里的模型显示出强大的通用性。外部验证的ROC曲线的AUC为0.769 (95% CI: 0.755-0.782)。
05可解释分析
图5A给出了XGBoost模型中变量的综合群图。横轴表示SHAP值,纵轴显示按其累积SHAP值影响排序的特征。每个数据点对应于一个特定的实例,其沿x轴的位置表示该特定实例和特征的SHAP值。年龄、机械通气、尿量、败血症、BUN、SpO2、CRRT和体重是预测NOAF的8个最重要因素。图5B提供了一个详细的案例研究,展示了该模型对特定患者的预测过程。在这个可视化中,黄色指标表示对预测的积极贡献,而紫色表示负面影响。f(x)值表示每个因素的实际SHAP值。值得注意的是,对于这个特殊的患者,研究的XGBoost模型预测了与基线相比更高的NOAF风险。根据他们的SHAP值,推动这一预测的关键因素是HFrEF、败血症、体重和年龄。
04结论
这里进行了一项研究,以预测危重患者新发房颤的风险。通过筛选ICU入院前24 h内的23个临床变量,采用8种ML算法构建预测模型。结果表明,XGBoost算法表现出较强的性能,具有识别和校准能力,并在临床实践中显示出可观的净效益。外部验证队列的结果进一步证实了模型的稳定性和准确性。为了更深入地了解模型,研究使用了SHAP方法进行可视化。集落图分析显示,年龄、机械通气、尿量、脓毒症、BUN、SpO2、CRRT、体重等8个特征对XGBoost模型的预测影响最为显著。SHAP提高了模型的可解释性,使临床医生能够更好地了解NOAF的原因,帮助临床医生提前预防并改善患者预后。
结语
临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。
打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!
往期精彩回顾
【1】LANCET(IF=90+):机器学习+SHAP+风险分层=非ST段抬高急性冠状动脉综合征患者GRACE评分的性别特异性评估
【2】《Molecular Therapy-Nucleic Acids》(IF=8.8): 组学分析+机器学习 =子宫内膜癌分型系统
扫二维码
关注我们
公众号|极智分析
知乎|极致分析
B站|极智分析