机器学习用于脓毒症患者急性肾损伤的预测

文摘   健康   2024-07-21 00:00   江苏  

深度学习辣汤小组文献阅读学习之一百六十篇

 2024/2/22 

DeepLearning 深度学习辣汤小组

Abstract

2022年广东医科大学附属医院临床研究中心的Suru Yue等人建立和验证基于机器学习算法的脓毒症相关的急性肾损伤(Acute Kidney Injury, AKI)预测模型,并在期刊J Transl Med(IF=7.4,1区)上发表题为“Machine learning for the prediction of acute kidney injury in patients with sepsis”的文章。

DOI

https://doi.org/10.1186/s12967-022-03364-0


左右滑动查看文章



一、研究背景



AKI是重症监护室(ICU)常见且复杂的临床并发症。在ICU中,约53%的AKI由脓毒症引起,导致患者住院时间更长、死亡率更高和经济负担更重。因此,早期识别AKI高风险患者对于ICU中脓毒症患者的管理至关重要。脓毒症患者AKI的预测一直是重症医学领域的研究热点。据报道,一些生物标志物,如microRNA-22-3p、降钙素原和可溶性血栓调节蛋白与脓毒症中的AKI相关。然而,由于成本高和测试技术要求高,难以在临床推广。一些评分系统,包括简化急性生理学评分(SAPS)II和序贯器官衰竭评估(SOFA)等,也被用于AKI预测,因特异性和敏感性较差,其性能也并不令人满意。此外,还有基于传统统计方法的多变量预测AKI的模型,因易受到变量之间多重共线性的影响,导致模型的预测性能不佳。

近来,随着机器学习法(machine learning, ML)在临床应用的日益广泛,也有很多ML算法用于识别脓毒症相关AKI高危患者、预测这部分人群的死亡率,包括我们之前预测AKI的亚型的辣汤。但是,仍然缺乏证据表明ML算法在预测脓毒症患者AKI方面的优势。因此,本研究中的目的是开发和验证多个ML模型来预测脓毒症相关AKI,并找到具有最佳预测性能的模型。



二、数据集



本研究脓毒症患者的数据从重症监护医学信息市场III(MIMIC- III)数据库中提取,该数据库包括2001年6月1日至2012年10月31日期间在马萨诸塞州波士顿Beth Israel Deaconess医疗中心ICU住院的所有患者。共纳入3176例脓毒症危重症患者进行分析,其中2397例(75.5%)在住院期间发生AKI。从MIMIC-III数据库中检索入院后最初24小时内的患者数据。本研究使用了以下信息:(1)人口统计学特征,包括性别、年龄和种族;(2)合并症,包括充血性心力衰竭、高血压、慢性肺病、糖尿病和肝病;(3)生命体征,包括心率、体温、血氧饱和度;(4)实验室指标,包括总胆红素、阴离子间隙、白蛋白、氯、钾、钠、乳酸、部分凝血活酶时间(PTT)、凝血酶原时间(PT)、国际标准化比值(INR)、肌酐、血尿素氮(BUN)和葡萄糖;(5)治疗和临床管理,包括机械通气和血管加压药的使用。对于一些具有多个测量值的变量,我们包括最大值和最小值进行分析。对于SOFA和SAPS-II评分,我们仅纳入初始测试值进行分析。为了最大限度地减少缺失数据导致的偏倚,在最终队列中排除缺失值超过20%的变量,并使用多重插补(MI)方法重复其他变量,最终选取36个变量进行模型构建(图1)。



三、研究方法



首先,筛选最重要的特征:使用Boruta算法将每个特征的Z值与“阴影特征”的Z值进行比较。通过复制所有的真实的特征并按照顺序将它们混洗,在每次迭代中从随机森林模型获得每个属性的Z值,并且通过随机混洗真实的特征来创建阴影的Z值。如果一个真实的特征的Z值大于多个独立试验中阴影特征的最大Z值,则该特征被视为“重要”。

第二步,模型的构建:在特征选择之后,采用LR、k-最近邻(KNN)、SVM、决策树、随机森林、极端梯度增强(XGBoost)和ANN等7种ML算法进行模型构建。对训练集和验证集应用10倍交叉验证以防止过度拟合,并且还用于制定预测模型。因此,将整个数据集随机分为10份。其中9个被用作模型开发的训练集,剩下的一个被用作模型验证的验证集。由于10次折叠中的每一份均被用作验证集,因此需重复上述过程10次。最后,在验证集中对每个模型的性能进行验证和比较。本研究选择具有最高受试者工作特征(ROC)曲线下面积(AUC)的模型作为每种算法的最佳模型。由于SOFA和SAPS II评分是用于预测危重患者疾病严重程度和预后的常用工具,因此,本研究还比较了基于ML的预测模型与传统评分系统的预测能力。

第三步,模型的评价:本研究分别从区分、校准和临床实用性3方面对预测模型的性能进行评价。通过ROC曲线的AUC、敏感性、特异性、召回率、准确性和F1评分(名解1)定量评价区分度。通过预测概率的一致性的图形和基于1000个自举重新采样的观察结果来进行是视觉评估校准。采用决策曲线分析法(decision curve analysis, DCA)评价其临床应用价值。



四、结果与结论



基于Boruta算法的特征筛选结果如图1所示。按照Z值的顺序,与AKI最相关的35个变量分别为年龄、BMI、心律失常、肝病、尿量、eGFR、机械通气、血管加压药、阴离子间隙、胆红素、肌酐、氯化物、乳酸盐、血小板计数、血钾、PTT、INR、PT、血钠、BUN、体温的最大值和阴离子间隙、胆红素、肌酐、氯离子、乳酸盐、血小板计数、PTT、INR、PT、钠、BUN、体温、SysBP和DiasBP的最小值。

模型性能比较:本研究生成了七个ML模型和两个评分系统来预测ICU脓毒症患者AKI的发生。图2显示了9个模型在ROC曲线方面的区分性能。在这9个模型中,XGBoost模型(AUC = 0.817)对脓毒症患者AKI的预测效果最好,其次是随机森林(AUC = 0.779),人工神经网络(AUC = 0.755)、决策树(AUC = 0.749)、LR(AUC = 0.737)、SVM(AUC = 0.735)、SAPS II(AUC = 0.702)、KNN(AUC = 0.664)和SOFA(AUC = 0.646)模型。以LR模型作为参考,XGBoost模型、随机森林模型、ANN和决策树在脓毒症患者AKI的预测能力方面均优于LR模型。然而,SVM模型(AUC = 0.735)、KNN模型(AUC = 0.664)、SOFA模型(AUC = 0.646)和SAPS II模型(AUC = 0.702)的区分度低于LR模型。

表1列出了9种模型的详细性能指标。XGBoost模型具有最高的灵敏度(0.945),准确度(0.832),召回率(0.852),F1评分(0.895)和第三高的特异性(0.913)。根据DCA曲线(图3),与其他模型相比,XGBoost模型表现出更大的净收益和阈值概率,说明XGBoost模型是具有良好临床效用的最优模型。XGBoost模型中的特征重要性等级如图4所示,其中尿量、机械通气、BMI、eGFR、最小肌酐、最大PPT和最小BUN是导致重症脓毒症患者AKI的最重要特征。

因此,本研究在所有模型中,XGBoost模型在区分、校准和临床应用方面具有最佳的预测性能。本研究构建的模型将有助于临床医生及时识别ICU脓毒症AKI的高风险患者并实施早期干预以降低死亡率。

思考

XGBoost模型能够高效灵活地处理缺失数据,并将弱的预测模型进行联合收割机组合,建立准确的预测模型。由于其出色的精度和性能,XGBoost算法越来越被强调为预测临床不良结局的LR分析的竞争性替代方案。

本研究的新颖之处

与之前使用MIMIC- III数据集预测重症患者AKI的研究相比,本研究有几个新的贡献:第一次包括了七种常用的ML算法进行综合分析,并将它们的预测性能与传统评分系统(包括SOFA和SAPS II评分系统)进行了比较。ML模型在区分和校准方面显示出良好的预测准确性,但它并不等同于在临床实践中的有用性。当净效益的阈值概率不切实际时,具有良好性能的模型也可能具有有限的适用性。因此,本研究应用DCA曲线来验证ML模型的临床适用性;另外,Boruta算法可以充分理解自变量的重要性,从而更有效地进行特征选择。


名词解释

1. F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0。






图1:基于Boruta算法的特征选择

水平轴是每个变量的名称,垂直轴是每个变量的Z值。箱形图显示模型计算期间每个变量的Z值


图2:七种模型的ROC曲线


表1:各模型的性能指标


图3:对7个模型的决策曲线分析

水平线表示无患者发生AKI,灰色斜线表示患者发生AKI



图4:XGBoost模型特征的重要性图




Pepper soup transformed by: Zhang Bo



  //  

深度学习辣汤AI小组由徐州医科大学以及徐州医科大学附属医院一群热爱人工智能的小伙伴们组成,欢迎大家跟我们交流学习!

扫码关注我们

欢迎加入我们!

成员微信号:cy2011mcu

添加好友时请备注:

您的 单位-科室-姓名-研究方向



深度学习辣汤小组
AI学习日志,阅读相关文献,分享学习感悟,交流学习技巧,记录自我成长!
 最新文章