本次解读的是发表在Eur J Heart Fail(IF=16.9)上的一篇文章《Development and validation of a machine learning-based approach to identify high-risk diabetic cardiomyopathy phenotype》本文旨在开发并验证一种基于机器学习的聚类方法,以根据超声心动图和心脏生物标志物参数识别高危糖尿病心肌病(DbCM)表型。
01背景介绍
2型糖尿病(T2D)患者发生心力衰竭(HF)的风险明显高于没有T2D的患者,尽管其他危险因素得到了最佳控制。因此,人们越来越关注开发新的方法来降低这一人群的HF风险有针对性地分配有效的预防性干预措施取决于确定发生心衰风险最高的患者。T2D患者通常从高危期(A期HF)发展为亚临床糖尿病性心肌病(DbCM)(B期HF),然后发展为明显的临床HF(C期HF)。DbCM是指T2D患者的心肌结构和功能异常,不能用冠状动脉疾病或瓣膜疾病等其他心血管疾病的潜在原因来解释。在早期阶段(B期HF),DbCM无症状,仅表现为无创心脏成像参数和血清心脏生物标志物的改变,其中许多与HF事件独立相关。DbCM可以识别早期,高风险的亚临床阶段,可以针对有效的治疗来预防HF。
在当代临床实践中确定高危DbCM表型有几个挑战。DbCM没有普遍接受的定义或诊断阈值。在个体和研究人群中,DbCM的心脏结构、功能和心脏生物标志物水平异常差异很大。识别心肌病的传统方法依赖于选择超声心动图参数和任意阈值来识别这些参数的异常。这并没有考虑到可能导致DbCM发展的心脏参数之间的多变量和非线性相互作用。此外,与不同超声心动图异常相关的HF风险也各不相同;因此,它们对高危DbCM表型的比例贡献可能不相同理想情况下,识别高危DbCM表型的标准化方法应该是自动化的,充分利用心脏特征的全谱,而不受现有阈值的限制,以定义心脏结构和功能异常。
机器学习(ML)算法可以利用大量的健康数据来检测传统统计方法经常遗漏的模式和关系,从而提供更全面和细致的疾病表型视图使用无监督聚类(或现象映射),这些算法可以进一步训练,根据患者独特的临床特征组合将患者分类为不同的表型组。基于ML的方法提供了定义和识别DbCM的潜在途径。虽然先前的研究在聚类方法中使用了各种临床特征来识别高危人群,但重点关注心脏参数对于确定高危DbCM表型尤为重要。心功能障碍是DbCM的核心特征,超声心动图和心脏生物标志物参数直接反映了与DbCM相关的病理生理变化因此,这里开发并验证了基于ML的聚类方法来识别高危DbCM,这是一种基于超声心动图和心脏生物标志物参数的亚临床表型,具有较高的HF风险。然后构建并验证ML分类器以预测外部队列中的这种表型。
02方法
研究分析了来自社区动脉粥样硬化风险(ARIC)和心血管健康研究(CHS)流行病学队列研究以及德克萨斯大学(UT)西南医学中心电子健康记录(EHR)的参与者水平数据。ARIC和CHS的数据由美国国立卫生研究院生物标本和数据存储信息协调中心(BioLINCC)批准后获得。
01研究人群
基于ML的高危DbCM表型在ARIC糖尿病患者中得到,并在CHS患者和UT西南EHR糖尿病登记处的患者中进行了外部验证。ARIC访问5包括全面的超声心动图和心脏生物标志物评估,CHS初次访问,以及2018年至2023年间UT西南EHR登记处患者的首次就诊被认为是本研究的基线访问。研究纳入了糖尿病患者,排除了基线时已确诊为心血管疾病或心力衰竭、年龄<40岁、左心室射血分数<45%或在关键协变量或心力衰竭结局数据缺失的患者。此外,这里从衍生队列中排除了超声心动图特征提示肥厚性心肌病或心脏淀粉样变性的参与者,这些特征可以通过异常增加的室间隔厚度(>1.5 cm)、后壁厚度(>1.2 cm)或在没有高血压的情况下相对壁厚度(>0.57)来确定。名ARIC和CHS参与者提供了书面知情同意书,每个参与地点的伦理委员会批准了这些研究。德克萨斯大学西南医学中心的机构审查委员会认为,对德克萨斯大学西南医学中心电子病历数据的分析和目前的分析是免税的。
02临床、生物标志物和超声心动图协变量
CVD定义为有心脏病发作、冠状动脉手术或中风史。糖尿病通过空腹血糖水平、抗高血糖药物使用或医疗诊断来定义。所有队列中,使用CKD-EPI公式计算eGFR。在ARIC和CHS中,NT-proBNP和hs-cTnT在认证实验室中测量,但在EHR队列中不常见。
参与者接受专业超声技师进行的超声心动图检查。左室质量(LVM)通过Devereux公式计算并指数化(LVMi)。左房容积通过双翼面积长度法计算并指数化。二尖瓣血流速度通过脉冲波多普勒测量,组织多普勒成像评估环松弛速度(E')。相对壁厚计算为后壁厚度与左室舒张末期尺寸的比值。左室流出道速度和速度-时间积分通过脉冲波多普勒测量,主动脉瓣流速和梯度通过连续波多普勒测量。右室面积和速度通过组织多普勒成像评估。三尖瓣返流速度在存在时通过连续波多普勒测量。全局纵向应变通过斑点追踪超声心动图计算。
03表型变量、聚类和分类器开发
本研究旨在基于心脏结构和功能测量建立高危DbCM(糖尿病心肌病)表型。在排除缺失率超过20%和相关性大于0.7的变量后,从35个超声心动图和生物标志物参数中筛选出25个协变量。这些数据被标准化处理,并使用主成分分析进行无监督分层聚类以定义表型聚类,随后进行K-means聚类整合。聚类前采用主成分分析降维,保留关键特征间差异。表型群的数量基于簇内惯性的绝对减少来确定。随访中HF(心力衰竭)累积发生率最高的表型组被识别为高危DbCM表型。
建立了随机森林模型评估基线协变量与高危DbCM表型的关系,选择变量重要性度量(VIMP)大于5%的协变量。使用超声心动图和生物标志物特征构建监督学习分类器预测高危DbCM。通过OptiML平台训练多种机器学习算法,自动进行模型选择和超参数调整。在深度神经网络(DeepNN)开发中,采用贝叶斯优化自动搜索最优网络配置和超参数。开发后,计算每个协变量的重要性。
04统计分析
使用卡方检验(分类变量)和单因素方差分析(连续变量)比较表型组的基线人口学、临床和超声心动图特征。使用未调整的Cox比例风险模型评估各表型组发生HF的时间差异,并使用累积发生率图(1 - Kaplan-Meier估计)进行可视化。这里通过计算接收者操作特征(AUROC)曲线下的面积、准确性、精密度、召回率和F-measure统计数据,在内部验证了DeepNN分类器预测高危DbCM表型的能力。进一步将DeepNN分类器与决策树、集成学习和逻辑回归模型进行了比较。为了评估各种超声心动图参数对DeepNN模型性能的贡献,这里系统地删除了超声心动图参数并评估了所得模型的性能。
在开发了高风险DbCM表型的DeepNN模型之后,通过将参与者分类到他们最相似的表型组,在多个外部验证队列(CHS和基于ehr的队列)中评估了其性能。对于基于ehr的队列,其中某些生物标志物如NT-proBNP不可用,DeepNN模型通过使用指标变量来处理缺失的数据这允许基于可用特征进行分类,并确保模型在不同数据集上的一致应用,并具有不同级别的数据完整性。仅在CHS外部验证队列中,DeepNN预测的表型组和从头现象映射之间的一致性由Cohen's Kappa统计确定。在外部验证队列中,使用Cox比例风险模型和如前所述的累积发病率图,检查了预测的DbCM表型与事件HF之间的关联。采用R版本4.1.2进行分析,双侧p值< 0.05表示显著性。
03结果
01基于糖尿病个体心脏参数的表型
衍生队列包括ARIC队列第5次访问的1199名糖尿病参与者。在这里的分析中确定的最佳聚类数为3。三个表群参与者的基线特征如表1所示。组间年龄无显著差异。Phenogroup 1参与者的心血管(CV)危险因素负担最低,包括高血压和最低的体重指数。表型1的参与者也具有更有利的超声心动图参数,包括较低的LVMi和左心房大小。最后,表型1参与者的心脏生物标志物水平也较低,包括hs-cTnT和NT-proBNP。表型2参与者的CV危险因素处于中等水平,但在超声心动图上的整体纵向应变最优越。相反,表型3参与者的CV危险因素负担最高,hs-cTnT和NT-proBNP水平最高,超声心动图特征最差,左心房和左心室大小最大,整体纵向应变最差。
02表型群与心力衰竭风险的关联
HF 的风险在不同表型之间存在显著差异,从表型1(累积发生率 3.1%) 到表型3的最高(12.1%),HF的累积发生率逐步增加(图 1)。在Cox比例风险分析中,与表型1相比,表型3参与者的HF风险高出三倍以上,在调整CV危险因素后未减轻(调整后的风险比[HR] 3.49;95% 置信区间 [CI] 1.99-6.09;p < 0.001)。因此,HF 累积发生率最高的表型3参与者被确定为具有高危 DbCM 表型。
03糖尿病心肌病分类器的开发和性能
随机森林模型确定了VIMP >5%的7个变量用于预测高危DbCM表型:NT-proBNP、LVMi、E速度、e' 速度、A速度、左心房维度和左心室舒张末期容积指数。根据已识别的协变量开发DeepNN模型来预测DbCM表型的概率。在ARIC推导队列中,DeepNN模型显示出出色的交叉验证准确性(AUROC = 0.960,准确性 93.6%)。DeepNN进一步优于使用决策树(AUROC = 0.833)、随机森林(AUROC = 0.940)和逻辑回归(AUROC = 0.937)建模策略的模型。即使在进行特征消融并系统地排除单个生物标志物和超声心动图参数(AUROC [范围] = 0.911–0.963)后,该模型仍表现良好(图 2A)。值得注意的是,在 VIMP >5% 的 7 个变量中,LVMi 是预测 DbCM 表型的最重要参数(图 2B)。
04分类器和临床结果验证:心血管健康研究队列
研究在CHS数据集中观察到DeepNN分类器和从头表型之间的高度一致性,以识别高危DbCM表型(Cohen's Kappa = 0.80,95% CI 0.74-0.86)。DeepNN模型确定了15.6%(n = 125)的符合条件的CHS糖尿病参与者具有 DbCM 表型。具有(与没有)高危DbCM表型的参与者更常见于男性,并且具有更高的传统CV危险因素负担和更大的心脏结构和功能损害。在具有(与没有)高危 DbCM 表型的组之间,5年时HF的累积发生率也分别从20.9%到10.7%显着差异(图3A)。在调整后的Cox比例风险模型中,具有(与没有)DbCM 表型的参与者患HF的风险高61%(HR 1.61,95% CI 1.18-2.19;p = 0.001)(表2)。DeepNN模型预测DbCM表型的概率每增加5%,调整后的HF风险就会增加3%(HR1.03,95% CI 1.01-1.05;p = 0.001)(表2)。
05临床结果验证:电子健康记录队列
在EHR队列的参与者中,在排除了超声心动图信息缺失或基线时有CVD病史的个体后,DeepNN模型被映射到 071名参与者。DeepNN 模型确定 29.4%的参与者(n = 1491)具有高危DbCM表型。具有(与没有)高危DbCM 表型的参与者更常见于男性,具有更高的传统CV危险因素负担和更大的心脏结构损伤。具有(与没有)高危DbCM表型的参与者相比,5年时HF的累积发生率更高(18.1% vs. 13.0%)(图 3B)。在调整后的Cox比例风险分析中,具有(与没有)DbCM表型的参与者发生HF的风险显著升高(HR 1.34,95% CI 1.08-1.65;p = 0.003),在考虑了人口统计学和CV风险因素后(表 2)。在调整后的Cox分析中,在连续尺度上DbCM表型的概率增加与HF风险增加之间存在类似的关联模式(表 2)。
04结论
研究开发并验证了一种基于ML的方法,使用常用的超声心动图和生物标志物参数来识别与DbCM最一致的表型,并在多个外部队列中验证了这一点。在本研究中,16%至29%的糖尿病患者存在这种表型。基于ML的聚类方法来识别DbCM可能会促进基于风险的方法,在糖尿病患者的最高风险亚组中使用有效但可能昂贵的HF预防性治疗,这些治疗更有可能从中受益。
结语
临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。
打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!
往期精彩回顾
【2】Joinpoint回归也能结合GBD数据库?瞧瞧高手们的做法
【5】European Respiratory Review(IF=9.0),如何预测儿童哮喘的恶化?机器学习模型给出解决方法。
扫二维码
关注我们
公众号|极智分析
知乎|极致分析
B站|极智分析