模型可解释性经典案例:一篇关于肠道出血的一区文章带你详细解读(IF=8)

文摘   科技   2024-10-23 20:00   江西  

点击蓝字 关注我们

小编今天解读的是The American Journal of GASTROENTEROLOGY(IF=8)上发表的一篇文章《Explainable Machine Learning Model for Predicting GI Bleed Mortality in the Intensive Care Unit》,本研究旨在开发一个机器学习 (ML) 模型来计算因胃肠道出血而入院的重症监护病房患者的死亡风险,并使用可解释的ML方法来深入了解模型的预测和结果。下面就来看看作者的分析思路。



01背景介绍

急性上下消化道出血是住院的常见原因。每年100,000例住院患者中,下消化道出血占20-87例,死亡风险为2%-10%。另一方面,上消化道出血比下消化道出血更常见(每年100,000例住院患者中有40-172例),并且死亡风险更高。此外,5%–10%的上消化道出血患者可出现便血。

机器学习 (ML) 是利用计算算法从数据中学习识别底层模式和类。它是一种使用以前或现有数据来训练计算机模型的替代方法,以便对结果进行预测。数据分为两部分——训练集和测试集。在训练模式期间,ML模型使用训练集并学习识别模式并与后来用于预测的结果建立关联。然后使用测试集来测试模型并通过最小化错误来提高其准确性。医学领域在各个领域迅速利用ML的力量,包括但不限于眼科、皮肤科和病理学。

在这项研究中,我们使用 ML算法来预测因胃肠道出血而入住 ICU 的患者的死亡率。此外,我们将我们的模型与广泛使用的急性生理学和慢性健康评估 (APACHE IVa) 评分进行了比较,以预测危重患者的风险严重程度和死亡率。由于在实际环境中使用ML模型的限制之一是医生对该模型缺乏信任,因此我们使用可解释的ML方法来深入了解模型的预测或结果



02方法

1. 数据来源和结果

队列数据摘自eICU协作研究数据库(eICU-CRD),其中包含2014年至2015年收集的139367名患者和200859名美国ICU总入院人数的记录。本研究的选定结果是ICU病房患者的死亡率。


2. 队列特征提取

eICU-CRD数据库由139,367名独特的患者组成,其中5,691名符合该研究的纳入标准。该研究的纳入标准是入住ICU并诊断为GI出血(上、下或未知GI出血)的成年患者。此外,患者需要获得 APACHE IVa评分>0和至少一个以下数据点:自动生命体征记录、实验室数据和药物治疗。ICU住院时间少于4小时的患者被排除在外。由于 eICU-CRD 数据是自动获取的,我们还将所有体重在50-300磅范围之外且身高在50-250英寸范围之外的患者作为异常值剔除。该队列的平均年龄为67.4岁,其中61%为男性。该队列包括43%因上消化道出血入院的患者,32%因下消化道出血入院,其余被归类为不明消化道出血。人口统计学变量和临床特征总结在Table1 中。

对于本研究,我们从电子健康记录中收集信息,包括生命体征、实验室检查结果、药物和选定的 APACHE IVa成分(包括格拉斯哥昏迷量表的所有成分,患者是否在过去6个月,以及通气和插管状态)。然后测试这些特征与死亡率的统计显著性,并选择一个子集作为ML模型的特征(Table 2)。

3. 统计分析

采用双尾t检验和X2检验检验所收集变量与患者死亡率的统计显著性。进行了多元反向逻辑回归;然而,这并不是本研究的重点。ML模型中包括了分析中P值为<0.05的因素,但某些变量有显著的缺失数据和较低的受试者人数(N<25)除外(Figure 1)。

对于ML模型,我们的主要指标是ML模型的受试者操作特征曲线下面积(AUCs)与APACHE IVa风险评分的比较。Wilcoxon符号秩检验用于AUC的配对比较,McNemar配对检验用于比较特异性。置信区间(CI)是使用2000个自举样本估计度量的。


4. 研究设计

由5691名患者组成的队列被随机分为两组训练组(80%)和验证组(20%)。所有ML模型评估指标都报告在验证集上,验证组数据不参与模型训练

训练集用于训练梯度增强模型(XGBoost),超参数使用网格搜索策略进行调整,并进行5倍交叉验证。这意味着训练集数据分为5折,其中一折用于验证,其余4折用于训练。使用在所有交叉验证集中平均性能最好的模型。交叉验证策略减少了模型的过拟合,提高了鲁棒性。

因为我们的目标之一是识别极低风险患者,所以我们调整了临床风险评分(APACHE IVa)和ML模型分类阈值,以达到与Shung等人的研究类似的极高灵敏度。这确保了我们的假阴性率极低,也就是说,被归类为低风险的患者不会死亡。然后,我们比较了两种方法之间的特异性,以了解哪种方法识别出了更大比例的低风险胃肠道出血患者。

我们还拟合了其他几种ML方法,包括带正则化的逻辑回归、支持向量机和随机森林。这些模型的AUC、敏感性和特异性与XGBoost模型相当。XGBoost模型比其他模型更受欢迎,因为它在验证集上具有更高的性能,并且算法能够处理缺失数据,而对于其他算法,我们必须进行适当的数据插补。


5. 临床风险评分

对APACHE IVa评分用于比较ML模型。该核心已被证实可用于ICU患者的死亡率预测。因为我们的队列包括上消化道和下消化道出血患者,所以没有使用常见的内镜前临床风险评分,如GBS和AIMS65,因为这些评分主要用于上消化道出血病人的分类。



03结果

测试连续变量(Table 3)和分类变量(Table 4)与死亡率的关系。对于连续变量,测试两个结果组中变量的平均值,而对于分类变量,测试每个类别中死亡的患者百分比。在这项研究的5691名患者中(平均年龄67.4岁;60.5%男性),42.5%的患者在ICU入院时被诊断为上消化道出血,31.7%的患者因下消化道出血入院,25.8%的患者来源不明。大多数患者(68.3%)是从急诊科进入ICU的,而14.4%是从楼层转移过来的。直接入院占7.2%,其余入院来自下院、手术室或转院。

我们总结了以下发现:

1. 人口统计学

死亡患者的平均年龄为69.4岁,而存活患者的平均年纪为67.3岁(P值=0.02)。平均体重、身高和性别没有发现显著差异。种族是一个统计显著因素,仅对风险较低的非裔美国人(优势比[OR]= 0.6;P值= 0.03)


2. 死亡率和风险评分

死亡率定义为从入住ICU到出院的死亡。队列中的总死亡率为5.8%,上消化道出血和下消化道出血的死亡率分别为6.1%和4.5%,这与文献报道一致。上消化道出血的几率大于下消化道出血,且具有统计学意义(OR =1.38;P值=0.02)。发现APACHE IVa临床风险评分具有统计学意义,死亡患者的平均得分为83.9,存活患者的平均分数为55.3(OR =1.05;P值<0.001)。患者再入院(OR=2.6;P值<0.001)和插管(OR =6.6;P值<0.001)显著增加了死亡率风险。


3. 实验室试验

共发现17个实验室变量具有统计显著性,并用于ML模型(Table 2)。该队列的平均血红蛋白水平为7.6g/dL,平均INR为1.9。尽管糖尿病患者的发病率很高,但平均血糖水平为160 mg/dL。以下血液检测对结果具有统计学意义:血清肌酐、BUN、胆红素、乳酸、PT、PTT、INR、AST、ALT、血清碳酸氢盐、钾、白蛋白、血小板、血红蛋白和红细胞压积、白细胞和中性粒细胞。除血红蛋白(P值=0.007)、红细胞压积(P值=0.007)和中性粒细胞(P值=0.05)外,所有测试的P值均<0.001。两种结果的血清钠平均值无统计学差异(P值=0.82)。


4. 机器学习模型的性能

ML模型在由1145名患者(占队列数据的20%)组成的单独验证集上进行了测试。对于死亡率的预测,ML模型的表现优于APACHE IVa临床风险评分。ML模型的AUC为0.85(95%CI:0.80–0.90),而APACHE IVa的AUC是 0.80(95%CI:0.73–0.86),P值<0.001。Figure 2显示了这些模型的保留验证集中的接收器工作特性曲线。

 5. 识别低风险患者

为了识别低风险病人,我们调整了ML模型和APACHE IVa临床风险评分的敏感性,以达到100%的敏感性。然后在保留的验证集上对模型进行评估。ML模型在正确分类低风险患者方面表现优于APACHE IVa风险评分。与APACHE IVa评分相比,ML模型在灵敏度为100%时的特异性为27%(95%CI:25–36),在灵敏度为100%时,其特异性为4%(95%CI:3–31)。



04可解释性

在电子医疗系统时代,ML已成为一种很有前途的工具,可用于识别医生可能遗漏的危及生命的疾病。但是,确定医生是否会使用ML模型预测进行临床决策的关键因素之一是他们是否能够理解ML模型是如何得出给定结论的。可解释性或可解释能力可以定义为人类理解ML模型预测原因的程度。模型的可解释性越高,医生就越容易理解为什么做出某个预测,从而做出符合患者最大利益的适当临床决策。在高度可解释或可解释的模型中,例如稀疏线性模型,与每个特征相关的系数告诉我们为该特征的存在或不存在分配了多少权重(当所有其他输入特征处于相同值时),而在黑盒模型,例如梯度提升模型 (XGBoost),目前尚不清楚哪些特征有助于针对特定患者病例的决策。

SHAP(SHapley Additive explanations)方法基于联盟博弈理论概念,数据的个体特征值充当联盟博弈(预测任务)的参与者,SHapley值告诉我们如何在特征之间公平分配增益(预测性能)。

我们不仅可以使用SHAP方法来获得个体患者的解释,还可以对我们坚持的队列进行全局解释。SHAP全局解释基于计算所有个体患者的SHAP解释,然后对每个特征进行平均,以获得队列视图。特征的平均绝对Shapley值越大,临床特征对模型预测的重要性越大。Figure 3给出了前25个临床特征的SHAP汇总图,这些临床特征有助于我们的ML模型预测重症胃肠道出血患者的死亡率。

SHAP力图可用于将每个特征的Shapley值可视化为一个力,该力会增加(正值)或减少(负值)其基线预测值。Shapley值的基线是所有预测的平均值,在我们的案例中,这将是5.0%的验证数据集中的平均预测死亡率。图4给出了6名患者的SHAP解释力图,这些患者来自ML模型经95%灵敏度调整后的保留验证集。

第2个患者的ML解释结果。这是一名83岁男性,有心房纤颤和慢性肾脏疾病病史,因低胃肠道出血而被ICU收治。这位患者入院前出现全血细胞减少症,其原因尚不清楚。他入院时的平均血红蛋白为6.4 g/dL,住院期间需要输血。他在入院期间没有插管,也没有感染。在ICU住院期间,发现他的肝功能恶化,并出现凝血病,PT/INR水平升高。死亡率预测模型无法获得这些信息或趋势。

模型预测的死亡率为7%,而基线为5%。患者的平均RR为每分钟27.6次呼吸,最大血清肌酐为2.2 mg/dL,平均HR为109.2次心跳/分钟,白蛋白为2.1 g/dL,这些都有助于增加患者的呼吸频率和8 3年的体重(平均67.4岁)。该模型预测MAP的正常值(75.8毫米汞柱)、白细胞计数正常以及GCS评分高达15分,有助于显著抵消风险。基于上述其他因素,ML模型预测的结果是患者死亡率,实际结果也是医院死亡率(真阳性)

从内科医师的角度来看,呼吸急促、心动过速和高龄患者入院时的低血红蛋白6.4 g/dL将引发ICU入院和观察的考虑。然而,该模型降低了患者最低血红蛋白值6.4 g/dL的风险,这是意料之外的,表明了该模型的缺陷。尽管有这种假设,我们的模型还是基于其他因素做出了正确的预测。随着我们进一步讨论可解释性,在ML模型中使用它的重要性将变得更加明确。



05局限性

1.该研究缺乏外部验证集。需要对重症监护病房患者使用ML进行前瞻性研究,以验证此类模型的使用。


2. eICU CRD数据库由从美国208家医院的电子健康记录中收集的数据组成,每家医院在不同程度上填充数据;这导致提取的一些临床特征数据严重缺失。采集的ICU数据也会自动处理,可能会有错误。


3. eICU-CRD数据库还缺少有关胃肠道出血的相关数据,如黑斑、便血和结肠镜检查或内镜检查结果,这些数据可用于计算内镜前胃肠道出血风险评分,以与模型进行比较。这些信息还可以为模型可解释性中选择的患者提供更多关于胃肠道出血原因的信息


4. 关于手术时机(结肠镜检查和内窥镜检查)、再出血和胃肠道出血手术干预的数据也无法用于分析。分析危重患者胃肠道出血的前瞻性研究可能有助于解决这一差距

机器学习已被证明优于胃肠道出血已有的多重风险分层和死亡率预测分数。大多数这些模型的使用在临床实践中受到限制,缺乏可解释性是临床应用ML的一个关键障碍。我们的研究在危重患者队列中使用ML模型来预测死亡率,并确定有助于模型做出某种预测的因素,从而使其更加可靠和透明。


小编说明:

平台根据此文献,已优化了可解释性力图片信息,欢迎大家去体验。

结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!


往期精彩回顾

【1】《JAMA Netw Open》IF=10.5,腰间盘突出术后的残疾和疼痛竟可以预测?机器学习模型给出答案。

【2】Molecular Cancer (IF=27.7):深入探讨细胞分裂素蛋白调节因子 在癌症中的作用

【3】《CARDIOVASC DIABETOL》(IF=8.5)基于血常规和生化检测数据的心血管泛病机器学习诊断模型构建

【4】如何将GBD与空气污染疾病负担相结合?高分文章告诉你(IF=24.1)

【5】区域性疾病负担与变化因素探究如何下手?GBD助你一臂之力(IF=19.9)

扫二维码

关注我们

公众号|极智分析

知乎|极致分析

B站|极智分析



极智分析
为临床、科研人员提供一站式临床研究在线分析建模平台;提供医学统计咨询服务;提供临床数据分析服务;提供医疗大数据建模服务;分享研究进展、临床研究设计方案、询证医学案例。
 最新文章