CARDIOVASCULAR IMAGING(IF=12.8):基线分析+模型解释性+生成分析=NICM右心室功能障碍的预后意义

文摘   2024-12-12 20:00   江西  

点击蓝字 关注我们

本次解读的是发表在JACC: CARDIOVASCULAR IMAGING(IF=12.8)上的一篇文章《An Explainable Machine Learning Approach Reveals Prognostic

Significance of Right Ventricular Dysfunction in Nonischemic Cardiomyopathy》,本研究旨在应用可解释机器学习 (ML) 模型,探究心脏磁共振 (CMR) 影像标记物与非缺血性扩张型心肌病 (NICM) 患者心血管住院和全因死亡(复合终点)不良结局之间的关联,并识别其中重要的风险预测因子。



01背景介绍

非缺血性扩张型心肌病 (NICM) 的风险分层仍然具有挑战性,因为临床表现异质且疾病进展难以预测。NICM 患者容易因心力衰竭 (HF) 症状恶化而频繁住院,这构成了重大的医疗负担。延迟钆增强 (LGE) CMR 成像可以提供 NICM 患者心肌纤维化的诊断和预后信息。既往研究已将心肌纤维化的存在和程度确定为 HF 住院的重要指标。最近的研究表明,扩张型心肌病患者的右心室 (RV) 收缩功能障碍可独立预测无移植生存率和不良 HF 结局。

当前的风险预测模型基于传统的统计单变量或多变量回归分析,从高维数据中提取风险标志物可能有局限性。机器学习(ML)的最新进展允许在没有预先假设哪些成像或临床标志物具有预后价值的情况下建立风险预测模型。 

在这项研究中,我们试图实施一个可解释的ML模型,以深入了解CMR成像标记物与心血管(CV)住院和全因死亡的不良结果之间的关系。然后使用可解释的最大似然模型来考察不同风险预测因子的贡献。风险预测模型是在一个独立的患者队列中进行评估的,这些患者在不同的机构成像,以评估模型性能的普适性。 



02材料与方法

1. 研究人群和数据收集

研究队列由来自两个不同学术医疗中心的NICM患者组成:Beth Israel Deaconess medical Center(BIDMC)和Brigham and Women’s Hospital(BWH)。在BIDMC,我们回顾性地确定了2010年1月至2019年7月期间被转诊进行临床CMR检查的NICM患者。NICM的诊断是通过从电子医疗记录中提取的信息来确认的。BWH队列包括2009年1月至2015年12月期间入选并转诊进行临床CMR检查的连续患者。

两个数据集的常见排除标准包括:

1)肥厚性、炎症性、浸润性、结节病和致心律失常性心肌病;

2) 缺血性冠状动脉疾病定义为心肌梗死史,存在心外膜冠状动脉直径  



02 风险预测模型的开发和评估

 使用基于 XGBoost 机器学习方法的模型预测住院和全因死亡。XGBoost 是一种基于训练数千个连续决策树的非参数方法,可以最优地处理不同变量类型和低事件发生率方面的数据集不平衡问题。XGBoost 迭代地优化预测模型,同时应用 L1 和 L2 范数正则化来防止过拟合。模型使用标准人口统计学、合并症和 CMR 成像参数构建。XGBoost 模型可以处理缺失数据,因此不需要对缺失值进行插补。

对于模型开发,将 BIDMC 数据集中的患者随机分为训练-验证 (70%) 和内部测试 (30%) 子集。使用 10 折交叉验证过程,使用网格搜索调整模型超参数。ROC 曲线下面积 (AUC) 用作模型评估指标,以减轻类别不平衡和低事件发生率中的偏差。除了内部验证数据集(BIDMC 数据集的 30%)之外,还使用整个 BWH 队列作为外部验证数据集来评估模型的性能和泛化能力。



3.可解释的ML模型解释

为了深入了解风险预测模型,使用了 Shapley 附加解释 (SHAP) 分析并研究了不同临床变量的贡献。SHAP 分析提供了一个通用的工具,用于估计机器学习模型中特征的重要性。在我们模型中,临床变量的 SHAP 值可以是正值或负值,表明发生特定结果的可能性增加或减少。在可解释的机器学习中,SHAP 值用于通过计算数据集中所有样本的每个输入特征的贡献来解释模型输出。

在本研究中,通过以全局(队列水平)和局部(患者特异性)形式可视化 SHAP 值来研究临床变量之间的影响和相互作用。为了研究队列水平 SHAP 值对训练子队列的具体选择的依赖性,我们使用 10 折交叉验证随机选择训练数据集,并根据结果 SHAP 值重复模型开发和最重要的预测因子的识别。此外,为了研究所提供模型在低事件发生率情况下的可靠性,我们通过排除 3 名 (12%, n = 24) 结局阳性的患者来重新训练模型,从而降低事件发生率,并报告了最重要的预测因子集的变化。



4. 统计分析

描述性统计总结了两个数据集中每个亚组的患者特征。变量表示为分类数据的频率 (%) 和连续数据的平均值 ± 标准差,用于有和没有结局的两组患者。使用未配对双尾学生 t 检验评估这些患者组之间的连续变量差异,并使用 Pearson 卡方检验或 Fisher 精确检验评估分类变量差异。P 值 >0.05 被认为具有统计学意义。使用 AUC 和精确率-召回率曲线下面积 (平均精确率 [AP]) 评估结果预测的模型性能。所有机器学习建模和解释均使用 Python(版本 3.5)和机器学习包 XGBoost 库(版本 1.3.3)、scikit-learn(版本 0.20.2/0.24.2)和 SHAP(版本 0.39)进行。



03结果

01 基线分析

BIDMC队列包括328例NICM 患者(平均年龄 56 岁;219 例[67%]为男性),BWH队列包括214例NICM患者(平均年龄48岁;136 例[63%]为男性)。BIDMC患者的平均随访时间为1220天(范围25-3588天),BWH患者为1425天(范围2-2411天)。大约10%的 BIDMC患者和16%的BWH患者达到了复合终点。β受体阻滞剂的使用率很高(BIMDC为 67%,BWH为52%)。

在达到复合终点的患者中,RVEF和LVEF 往往显著降低(BIDMC队列中P<0.001,BHW 队列中P<0.01)。LVEDVi、LVESVi、LVMi、RVEDVi和RVESVi值较高的患者更可能出现不良结局。在BIDMC队列的141例(43%) 患者和BWH队列的73例(34%)患者中观察到LGE。



2 模型性能和解释

在BIDMC队列的229例(70%)患者上训练的XGBoost模型的ROC曲线和精确率-召回率曲线如图1所示。对于内部验证队列(BIDMC 队列的30%)和外部验证队列(BWH),预测复合终点的AUC分别为0.71和0.69,AP分别为0.25和0.30。



图2显示了最重要的12个(n = 46)风险标记的模型解释。图2A显示了按平均绝对 SHAP值评估的排名靠前的特征。八个CMR参数跻身最重要的变量之列:RVEDVi、RVESVi、RVEF、RVSVi、LVEDVi、LVSVi、LVMI和LVEF。特征排名(y轴)表示特征在预测模型中的重要性。

在图 2B 中,每个点代表一个患者,其 x 轴位置表示同一行预测变量的 SHAP 值。点的颜色表示预测变量的测量值。例如,RVEF对结果预测有很大的“负面”影响(即RVEF越高,发生不良结果的概率越低)。高影响是由特征排名(沿y轴)确定的,负面影响在x轴的负侧显示为红点(即高RVEF),在正侧显示为蓝点(即低RVEF)。类似地,LVSVi、LVEF、RVSVi、舒张压 (DBP)、收缩压 (SBP) 和年龄对模型的贡献度很高。

相对于结果预测具有较高“正面”贡献的临床变量示例(即测量值越高,发生不良结果的概率越高)包括肺动脉收缩压 (PASP)、RVEDVi、RVESVi、LVEDVi 和 LVMI。使用 10折交叉验证重复模型开发表明,3 个RV临床参数(即RVESVi、RVEDVi和RVEF)是我们研究队列中不良结果的10个最重要的预测因子。我们还发现%LGE 是一个重要的预测因子(排名第11)。使用降低的事件发生率重复模型训练得出以下一组最重要的因素:PASP、RVEDVi、年龄、LVMI、RVEF、LVEDVI、LVSVi、LVESVi、LVEF、心率、%LGE、RVSVi。也就是说,即使在减少结局阳性患者的数量后,我们主要实验中报告的9个重要参数(即PASP、RVEDVI、RVEF、RVSVi、年龄、LVSVi、LVEF、LVMI 和 LVEDVi)仍然是最重要的参数。



图 3 为来自 BIDMC 队列的两名有和没有不良事件的代表性患者提供了个性化特征归因。预测从基线值(偏差)开始,该值是训练数据集中所有预测的平均值。每个特征的贡献显示为一个箭头,该箭头推动降低(负值)或增加(正值)结果的概率。箭头根据它们对结果的影响进行排序,它们的颜色代表正面(红色)或负面(蓝色)的贡献。每个箭头的长度与给定特征的 SHAP 值成正比。为这些特定实例获得的输出显示为模型输出值。

在有不良结局的患者中,高LVEDVI(173 mL/m²)、LVMI(98g/m²)、PASP(26 mmHg)、RVEDVi(117mL/m²)以及低RVEF (27%)、LVEF(27%) 和年龄(40岁)导致了对高 LVSVi(46mL/m²)的高风险预测(图3A)。

在没有不良结局的患者中,相对较高的 RVESVi(40mL/m²)会增加患者的风险;然而,低PASP(20mmHg)和高RVEDVi(74 mL/m²)、LVSVi(48mL/m²)、RVEF(46%)和年龄(80岁)值会降低发生不良结局的风险(图 3B)。



图4绘制了内部患者队列中12个最重要风险预测因子的SHAP值与每个预测因子测量值的关系图。可以从图中确定每个预测因子的截止阈值,以区分高风险(即SHAP值>0)和低风险(即SHAP值<0)。例如,当RVEF降至 42%以下时,SHAP值会增加,从而增加不良事件的风险。类似地,LVEF的临床阈值可以定义为 30%。


3 生存分析

表3列出了最具预测性的CMR参数的建议临界点。使用这些临界值,Kaplan-Meier生存分析显示,在BIDMC队列中,RVEDVi<=90(毫升/平方米)、RVESVi<=36(毫升/平方米)或RVEF>42%的患者预后明显更好(图5A)。在外部BWH队列中,RVEF>42%和RVSVi>33mL/m2的预后较好(图5B)。

在两组患者中,LVEDVi<115mL/m2、L VMI<75g/m2、或LVEF>30%的患者预后较好(表3)。在我们的数据集中,所有被选择用于模型开发的变量,除了PASP,都被测量了超过98%的患者。





04总结

结论

这项概念验证研究表明,可解释的机器学习模型可以识别有心血管住院和全因死亡风险的NICM患者(AUC = 0.71),并可以识别与这些不良结果相关的风险标志物。可解释的ML模型将右心室功能障碍确定为NICM不良结果的主要因素。有必要进行前瞻性的大型多中心研究,以进一步检验研究结果的可推广性。

小编总结

本研究使用可解释机器学习方法构建了一个预测 NICM 患者不良结局风险的模型,并揭示了 RV 功能障碍在 NICM 预后中的重要性。SHAP 分析为理解模型预测和识别关键风险因素提供了有价值的见解。尽管存在一些局限性,例如样本量较小和回顾性设计等,但该研究的结果仍然具有重要的临床意义,为 NICM 患者的风险分层和个体化治疗提供了新的思路。未来的研究需要在更大规模、多中心的前瞻性队列中验证模型的性能和泛化能力,并进一步探索RV功能障碍与NICM不良结局之间的因果关系。


结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!


往期精彩回顾

【1】归因分析与GBD数据库如何完美交织?这一篇就够了!

【2】Joinpoint回归也能结合GBD数据库?瞧瞧高手们的做法

【3】《eClinicalMedicine》IF=9.6,饮酒者饮酒与痴呆发病率之间有何关系?孟德尔随机化给出答案!

【4】《CARDIOVASC DIABETOL》(IF=8.5),TyG与心血管疾病风险中内脏肥胖之间的相互作用

【5】European Respiratory Review(IF=9.0),如何预测儿童哮喘的恶化?机器学习模型给出解决方法。

扫二维码

关注我们

公众号|极智分析

知乎|极致分析

B站|极智分析



极智分析
为临床、科研人员提供一站式临床研究在线分析建模平台;提供医学统计咨询服务;提供临床数据分析服务;提供医疗大数据建模服务;分享研究进展、临床研究设计方案、询证医学案例。
 最新文章