本次给大家带来的解读是发表在《Cardiovascular Diabetology》IF=8.5上的一篇文章《Machine learning for predicting in-hospital mortality in elderly patients with heart failure combined with hypertension: a multicenter retrospective study》本研究旨在开发和测试一种个性化的机器学习模型,以评估心力衰竭合并高血压的老年患者的风险因素并预测住院死亡率。
01背景介绍
心力衰竭(HF)以心室充盈或射血功能受损为特征,是心血管疾病发病率和死亡率的主要原因。它对公共卫生和财政造成了沉重负担,人均年费用约为4406.8美元。全球疾病负担研究报告称,全球约有5600万人患有心力衰竭,其中50.3%为女性,69.2%居住在中低收入国家。流行病学数据显示,心力衰竭的发病率与年龄相关,65至79岁人群的患病率为3.86%,80岁及以上人群的患病率为7.55%。研究表明,心力衰竭是65岁及以上患者住院的主要原因,21%的患者在出院后一个月内再次入院。这可能与老龄化和生活方式的变化有关。此外,心力衰竭患者在性别上也存在差异。高血压和缺血性心脏病分别是女性和男性的主要病因。
随着中国人口老龄化,肥胖、糖尿病和冠心病患者数量增加,高血压合并心力衰竭的老年患者危险因素和住院死亡率也呈上升趋势。因此,识别影响住院死亡率的因素并采取个体化治疗方案至关重要。机器学习(ML)算法已逐渐应用于心血管疾病的预测。已构建了多种机器学习预测模型,用于评估心力衰竭患者的死亡率。然而,基于真实世界数据对老年中国高血压合并心力衰竭患者的危险因素和住院死亡率进行预测的研究较少。在本研究中,研究旨在根据中国数据开发一个机器学习模型,以评估危险因素并预测老年高血压合并心力衰竭患者的住院死亡率。此外,为了应对机器学习算法的不透明性,这里应用SHAP和LIME来揭示最有效模型的预测结果。
02方法
01研究人群和数据来源
对于这项回顾性研究,从重庆医科大学医学研究工作站大数据平台系统地收集了去标识化的电子健康记录(EHR)数据。本研究的数据集来自重庆市六大医疗中心,包括重庆医科大学附属第二和第三医院(CQMU)、永川医院、大学城医院、铜梁区人民医院和重庆东南医院。该研究的队列包括 65 岁及以上的老年患者,他们在2012年1月1日至2021年12月31日期间主要被诊断患有HF。
02数据预处理和特征选择
在选择特征的过程中,研究基于HF和高血压的临床经验和前沿文献,结合纳入和排除标准,最终确定了44个关键变量,这些数据来源于EHR系统。研究关注患者结局(生存或死亡),并考虑了性别、年龄、住院时间等人口学特征,糖尿病等合并症,以及NT-proBNP、LDL胆固醇等实验室指标。其中,TyG指数作为一种新生物标志物,因其在糖尿病和不良心脏事件预测中的重要作用而被纳入,且与HF住院患者的全因死亡率密切相关。
为减轻缺失数据对分类的影响,研究采用KNN算法进行缺失值估计,该方法在处理高缺失率数据集时表现良好。同时,使用LASSO技术进行特征选择,以提高模型预测精度并防止过拟合。最终,将筛选出的特征合并到数据集中,主要分析结果是院内死亡率,即患者出院时的存活状态,缺乏出院记录的患者被排除在外。
03模型开发、评估和解释
在这项研究中,研究采用随机分层抽样将数据集分为70%的训练集和30%的测试集,分别用于构建和评估ML模型。研究选用了八种流行的ML算法(RF、XGBoost、CatBoost、LightGBM、SVM、决策树、梯度提升分类器和ANN)进行预测,并通过五次交叉验证确定最佳超参数。为解决正负样本不平衡问题,对训练集进行了预处理,包括随机欠采样和SMOTE过采样。模型性能评估采用混淆矩阵指标,包括准确性、AUC、召回率、特异性和Brier评分。通过ROC曲线和AUC值确定最佳模型,并使用Shapley值进行特征排名,量化各特征的重要性。为增强临床解释性,研究应用SHAP和LIME解释最有效模型的预测,全局SHAP值以条形图展示平均特征重要性,LIME用于局部分析。
04统计分析
HF 和高血压患者根据结局分为两组:生存或死亡。遵循正态分布的连续数据用均值±标准差来表示,而非正态分布的数据用中位数和四分位距来表示。对于统计分析,正态分布的连续变量采用 Student t 检验,偏态分布的连续变量采用 Mann-Whitney U 检验。分类变量表示为百分比或频率,并使用卡方检验进行组比较。低于 0.05 的双侧 p 值被认为表明具有统计学意义。预测模型是实现 8 种 ML 算法构建的。所有分析和计算均使用 R V4.1.2 和 Python V3.7.0 进行。
03结果
01基线特征
如(图1)所示流程图,研究从重庆医科大学医学研究工作站大数据平台下载了8945例患者的数据。根据纳入和排除标准,4647例老年心力衰竭(HF)合并高血压患者纳入本研究。在纳入的心力衰竭合并高血压患者中,训练集有3252例患者,测试集有1395例患者。(表1)展示了65岁及以上被诊断为心力衰竭合并高血压患者的基线特征,具体包括人口统计学细节、实验室指标、合并症、治疗药物和统计数据。训练集和测试集的基线特征大多平衡且可比。本研究中,总存活人数为4495人,死亡人数为152人。训练集中存活和死亡人数分别为3143人和109人。两个数据集的中位年龄分别为80岁和79岁,中位住院时间(LOS)均为10天。终点事件发生率分别为3.082%和3.352%。
02在模型中选择的特征
LASSO回归在训练集中被用于自动识别特征(图2)。LASSO回归通过调整正则化系数lambda(λ),有效地减少了损失函数(二项偏差),最终使得某些变量的系数为零。
在44个特征中,有9个被选为最佳预测特征,纳入机器学习模型中。这些特征是在收缩参数(lambda.1se)为0.01914052时确定的。这9个特征分别是年龄、住院时间(LOS)、中性粒细胞(Neu)、尿素、氯离子(Cl)、活化部分凝血活酶时间(APTT)、白细胞(LEU)、白蛋白和高密度脂蛋白胆固醇(HDL胆固醇)。
03预测模型的开发和比较
研究开发了八种流行的机器学习模型——随机森林(RF)、CatBoost、XGBoost、LightGBM、支持向量机(SVM)、决策树、梯度提升分类器和人工神经网络(ANN)——旨在预测高血压合并心力衰竭(HF)患者的院内死亡率。在调整超参数后,使用整个训练数据集对这些机器学习模型进行了训练,并使用测试集对其性能进行了评估。为了预测院内死亡率,从这八个机器学习模型中生成了受试者工作特征(ROC)曲线。如(图3)所示,随机森林模型的曲线下面积(AUC)最高,为0.850(95% CI:0.789–0.897)。XGBoost、CatBoost、LightGBM、SVM、决策树、梯度提升分类器和ANN模型的AUC分别为0.845(95% CI:0.787–0.894)、0.849(95% CI:0.793–0.898)、0.840(95% CI:0.788–0.889)、0.845(95% CI:0.783–0.894)、0.718(95% CI:0.648–0.781)、0.841(95% CI:0.789–0.889)和0.807(95% CI:0.731–0.871)(图3)。为了全面评估模型性能,研究计算了准确性、召回率、特异性和Brier评分。(表3)显示了八个机器学习模型预测院内死亡率的最佳参数。最终,由于随机森林模型具有最高的AUC值,研究选择了它来预测高血压合并心力衰竭患者的院内死亡率。其准确性、特异性、召回率和Brier评分分别为0.738、0.734、0.837和0.178。
04模型解释
研究采用了SHAP(Shapley Additive exPlanations)方法来确定每个预测特征的重要性。重要性图按降序展示了这些特征(图4)。SHAP值反映了每个特征对最终预测结果的影响,并有助于阐明特定患者的预测结果。图4显示了影响本研究的9个最重要的临床变量的SHAP汇总图。独立测试集的结果(图5A)与图4A所显示的结果一致。同时,图5展示了随机森林(RF)模型测试集的SHAP解释力图。红色条表示所列特征增加了本研究人群的院内死亡率,而蓝色条表示所列特征降低了院内死亡率。在本研究中,以下变量增加了死亡风险:尿素、中性粒细胞、住院时间、活化部分凝血活酶时间(APTT)、年龄和白细胞(LEU)(图5B)。相反,当白蛋白、高密度脂蛋白胆固醇和氯离子(Cl)水平升高时,死亡风险降低。图5C展示了一名住院时间为16天的患者,其尿素、白蛋白、中性粒细胞和高密度脂蛋白胆固醇浓度。
04结论
研究基于中国数据,构建并测试了一个可解释的机器学习模型,用于评估风险因素并预测高血压合并心力衰竭(HF)的老年患者的院内死亡率。首先,该模型能够基于现有变量快速识别出院内死亡率较高的患者。此外,还确定了尿素、中性粒细胞(Neu)、住院时间(LOS)、活化部分凝血活酶时间(APTT)、年龄和白细胞(LEU)为本研究人群中的风险因素。最后,研究使用了SHAP(Shapley Additive exPlanations)和LIME(Local Interpretable Model-agnostic Explanations)来解释预测模型,以提高其可解释性和实用性。本研究可能为识别和早期干预高血压合并心力衰竭的老年患者的院内死亡率提供了一个有价值的工具。此外,该研究还有助于提高人们的健康意识,促使人们采取健康的生活方式。它还能帮助医生在资源有限的情况下更高效地管理患者,从而减少住院和医疗费用。
结语
临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。
打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!
往期精彩回顾
【1】《CARDIOVASC DIABETOL》(IF=8.5),探索甘油三酯-葡萄糖指数对首次中风危重患者的预后影响
【2】《CARDIOVASC DIABETOL》(IF=8.5),非糖尿病人群TyG水平与生活方式评分对缺血性卒中风险的影响
【5】《eClinicalMedicine》IF=9.6,如何预测肺CT自动分割和急性呼吸窘迫综合征?深度学习给出答案。
扫二维码
关注我们
公众号|极智分析
知乎|极致分析
B站|极智分析