IF8.5一区解读:机器学习+老年心力衰竭合并高血压+院内死亡+多中心

文摘   2024-12-19 12:00   北京  

摘要

背景

心力衰竭合并高血压是导致65岁及以上老年患者住院死亡的主要原因。然而,目前很少有模型能够预测这类老年患者的住院死亡率。我们的目标是开发并测试一个个性化的机器学习模型,以评估风险因素并预测这些患者的住院死亡率。

方法

从2012年1月到2021年12月,本研究从重庆医科大学医学数据平台收集了心力衰竭和高血压老年患者的数据。使用最小绝对收缩和选择算子来识别关键的临床变量。在曲线下面积的基础上,从八种机器学习算法中选择了最优的预测模型。采用SHapley Additive exPlanations和局部可解释模型无关解释(LIME)来解释预测模型的结果。

结果

本研究最终包括了4647名患有高血压和心力衰竭的老年个体。随机森林模型被选为曲线下面积最高(0.850,95% CI 0.789-0.897),准确度为0.738,召回率为0.837,特异性为0.734,Brier得分为0.178。根据SHapley Additive exPlanations的结果,与老年心力衰竭和高血压患者住院死亡最相关的因素是尿素、住院时长、中性粒细胞、白蛋白和高密度脂蛋白胆固醇。

结论

本研究开发了八种机器学习模型来预测高血压和心力衰竭老年患者的住院死亡率。与其他算法相比,随机森林模型的表现显著更好。我们的研究成功预测了住院死亡率,并识别了与住院死亡最相关的因素。



01

方法
01

研究人群和数据来源

      本项回顾性研究系统地收集了重庆医科大学医学研究工作站大数据平台的去标识化电子健康记录(EHR)数据。本研究的数据集来源于重庆的六大医疗中心,包括重庆医科大学附属第二医院和第三医院(CQMU)、永川医院、大学城医院、铜梁区人民医院和重庆东南医院。研究队列包括2012年1月1日至2021年12月31日间,主要诊断为心力衰竭的65岁及以上老年患者。诊断验证涉及对国际疾病分类第九版(ICD-9)和第十版(ICD-10)编码系统的细致手动审查。排除标准严格定义,包括:[1]没有高血压的患者[2]患有严重肝病的患者[3]患有癌症的患者。我们排除了缺失值超过30%的变量。分析从初次住院开始,到数据库中最后记录的状态结束,重点关注生存或死亡。住院死亡率在出院时作为主要结果进行评估。数据应用托管在以下URL:https://demo.yiducloud.com.cn/pub/#/register。本研究经重庆医科大学伦理委员会审查并批准,批准编号:2,024,033(日期2024年4月24日),尽管由于其回顾性观察性质而免除了知情同意,但仍遵循伦理标准。在方法上,研究符合多变量预测模型个体预后或诊断的透明报告(TRIPOD)声明的指导方针。研究员杨张获得了使用账户zy2021110902访问数据平台信息的批准。

02

数据预处理和特征选择

      在选择特征的过程中,我们基于心力衰竭和高血压的病因、病理和治疗方面的临床经验和相关前沿文献。然后,结合纳入和排除标准,最终确定了44个变量纳入我们的研究。这些变量在建立模型和促进特征筛选过程中至关重要。这些变量的数据采集系统地从电子健康记录(EHR)中进行。我们的分析主要关注患者的结果,将它们分类为生存或死亡。此外,我们还检查了性别、年龄、住院时长(LOS)和糖尿病、高脂血症、脑梗死等共病情况等人口统计特征。一些实验室指标也被考虑在内,包括N末端B型利钠肽原(NT-proBNP)、中性粒细胞(Neu)、低密度脂蛋白胆固醇(LDL胆固醇)、淋巴细胞(LYM)、尿素、CI、尿酸、白细胞(LEU)、纤维蛋白原、肌酐、白蛋白、钙、钠、钾、高密度脂蛋白胆固醇(HDL胆固醇)、血红蛋白、甘油三酯葡萄糖(TyG)等变量。在这些变量中,TyG指数作为一种新的生物标志物,显示出对糖尿病和不良心脏事件的预测能力。该指数是通过以下公式计算的:Ln [空腹甘油三酯(mg/dL)×空腹血糖(mg/dL)/2] 。以前的研究表明,TyG指数与心力衰竭住院患者的全因死亡率相关。当TyG指数增加时,全因死亡率也随之增加。此外,亚组分析显示,TyG指数与65岁及以上老年患者的死亡率强烈相关。一项涉及3026名患者的研究表明,当TyG指数增加一个单位时,住院死亡风险增加了1.19倍。此外,TyG指数不仅与心力衰竭的发病率呈正相关,而且与高血压的发病率增加也呈正相关[37]。此外,将TyG指数纳入基线风险模型大大增强了死亡率预测的准确性。因此,将TyG指数纳入我们的分析被认为是这项研究必不可少的。

      

     在这项研究中,所有变量的缺失数据比例被控制在30%以下。为了减轻这些数据缺口对分类过程的影响,采用了一种精细化的方法,利用K最近邻(KNN)分类算法。KNN通过从数据集中找到距离缺失值的欧几里得距离近的K个样本,然后使用加权平均值来估计缺失值。因此,这种方法在处理大量缺失值的数据集时效果很好。此外,研究还采用了最小绝对收缩和选择算子(LASSO)技术来挑选关键的临床因素,同时丢弃无关数据。这种方法提高了机器学习(ML)模型的预测精度,并防止了过拟合。研究的主要结果是住院死亡率,即患者出院时的状态,是活着还是死亡。因此,缺乏出院记录的患者被排除在最终分析队列之外。然后,这些特征被合并成一个数据集,用于后续分析。

03

模型开发,评估和解释


      在这项研究中,我们使用随机分层抽样的方法将数据集仔细划分为两组:训练集占数据的70%,测试集占剩余的30%。训练集的主要目的是构建机器学习(ML)模型,而测试集则专门用于评估模型的预测能力。本研究重点应用了八种流行的ML算法——随机森林(RF)、极端梯度提升(XGBoost)、分类提升(CatBoost)、轻量梯度提升机(LightGBM)、支持向量机(SVM)、决策树、梯度提升分类器和人工神经网络(ANN)——来预测心力衰竭合并高血压患者的住院死亡率。进行了五次交叉验证,以确定八种ML模型的最佳超参数。在模型调整阶段不使用测试集。它仅在模型选择和训练过程完成后用于模型评估。训练集通过随机欠采样和合成少数过采样技术(SMOTE)过采样的混合方法进行预处理,以解决正负样本不平衡的问题。

      在评估模型性能时,我们采用了混淆矩阵指标,包括准确度、接收者操作特征(ROC)曲线下的面积(AUC)、召回率、特异性和Brier得分。Brier得分是预测结果与实际结果偏差程度的度量。较低的Brier得分表示预测模型的性能更好。通过构建ROC曲线和比较AUC值,我们识别出预测性能最高的模型。此外,特征排名评估作为一种方法,用于量化数据集中各个特征的重要性,衡量它们对最终结果的影响。使用来自合作博弈理论的Shapley值来确定每个输入变量对模型输出的贡献。为了处理ML算法的不透明性并促进临床解释,我们应用了SHAP和局部可解释模型无关解释(LIME)来阐明最有效的模型所做的预测。全局SHAP值以条形图的形式绘制,显示每个特征的平均重要性。LIME用于局部分析最有效的模型。

04

统计分析


      患有心力衰竭和高血压的患者根据结果被分为两组:生存或死亡。符合正态分布的连续数据以均值±标准差表示,而非正态分布的数据则使用中位数和四分位数范围来表示。在统计分析中,对于符合正态分布的连续变量采用学生t检验,对于偏态分布的变量则采用曼-惠特尼U检验。分类变量以百分比或频率表示,组间比较采用卡方检验进行。双尾p值小于0.05被认为是统计学上显著的。预测模型是通过实施八种机器学习(ML)算法构建的。所有分析和计算都是使用R V4.1.2和Python V3.7.0进行的。


02

结果
01
研究人群的基线特征

      如图1的流程图所示,我们从重庆医科大学医学研究工作站大数据平台下载了关于8945名患者的数据。根据纳入和排除标准,共有4647名合并高血压的心力衰竭老年患者进入我们的研究。在纳入的心力衰竭和高血压患者中,有3252名患者进入训练集,1395名患者进入测试集。表1显示了65岁及以上被诊断为心力衰竭合并高血压患者的基线特征。具体来说,它包括人口统计细节、实验室指标、共病情况、治疗药物和统计数据。训练集和测试集中的基线特征大多平衡且可比。在这项研究中,生存者总数为4495人,死亡人数为152人。训练集中生存和死亡的人数分别为3143人和109人。两个数据集的中位年龄分别为80岁和79岁,中位住院时长(LOS)均为10天。终点事件率分别为3.082%和3.352%。


02
模型中选择的特征

      在训练集中使用了LASSO回归来自动识别特征(图2)。LASSO回归通过调整正则化系数lambda(λ),有效地减少了损失函数(二项偏差),最终使得某些变量的系数变为零。


03
预测模型的开发和比较

      我们开发了八种流行的机器学习(ML)模型——随机森林(RF)、CatBoost、XGBoost、LightGBM、支持向量机(SVM)、决策树、梯度提升分类器和人工神经网络(ANN)——旨在预测高血压心力衰竭患者的住院死亡率。在调整超参数后,这些ML模型使用整个训练数据集进行训练。随后,使用测试集评估它们的性能。为了预测住院死亡率,从这八种ML模型生成了ROC曲线。如图3所示,RF模型的AUC最高,为0.850(95% CI:0.789-0.897)。XGBoost、CatBoost、LightGBM、SVM、决策树、梯度提升分类器和ANN模型的AUC分别为0.845(95% CI:0.787-0.894)、0.849(95% CI:0.793-0.898)、0.840(95% CI:0.788-0.889)、0.845(95% CI:0.783-0.894)、0.718(95% CI:0.648-0.781)、0.841(95% CI:0.789-0.889)和0.807(95% CI:0.731-0.871),如图3所示。为了全面评估模型的性能,计算了准确度、召回率、特异性和Brier得分,如表2所示。表3显示了八种ML模型预测住院死亡率的最优参数。由于AUC值最高,最终选择了RF模型来预测高血压和心力衰竭患者的住院死亡率。其准确度、特异性、召回率和Brier得分分别为0.738、0.734、0.837和0.178。

04
模型解释

      我们采用了SHAP方法来确定每个预测特征的重要性。重要性图以降序方式呈现了特征(图4)。SHAP值表明了每个特征对最终预测结果的影响,并有助于澄清特定患者的结果。在这8个模型中,与住院死亡率最相关的因素是尿素、住院时长(LOS)、中性粒细胞(Neu)、白蛋白、高密度脂蛋白胆固醇(HDL胆固醇),它们在重要性排名上有轻微差异。图4展示了影响我们研究的前9个临床变量的SHAP汇总图。独立测试集的结果(图5A)与图4A显示的结果一致。同时,图5展示了来自随机森林模型测试集的SHAP解释力图。红色条表示列出的特征增加了我们研究人群中的住院死亡率,而蓝色条表示列出的特征降低了住院死亡率。以下变量在我们的研究中增加了死亡风险:尿素、Neu、LOS、APTT、年龄和LEU(图5B)。相反,当白蛋白、HDL胆固醇和Cl上升时,死亡风险降低。图5C显示了一位住院时长为16天的患者,其尿素、白蛋白、Neu和HDL胆固醇的浓度分别为7.7 mmol/L、36.8 mmol/L、81.91 mmol/L和0.82 mmol/L。对于这位患者,住院死亡的估计可能性为65.92%,SHAP值为0.66。此外,还使用LIME对随机森林模型进行了局部可解释性分析。

END


扫码关注

公众号:小猪的科研生活



排版:王倩倩

文字:王倩倩


小猪的科研生活
分享日常科研生活和统计以及机器学习知识
 最新文章