科研达人们,趁着机器学习技术荣获诺贝尔奖的热潮,是否想在心脏疾病领域取得突破性进展?看这里!这篇发表在《Journal of the American College of Cardiology》、影响因子高达21.7的前沿研究,通过机器学习模型,为复发性心包炎患者的风险分层提供了新模型。不要错过,让我们一起探索如何利用AI革新心脏病管理!
1、创新的风险分层模型建立:本研究基于365例复发性心包炎患者的详尽数据,开发了一个基于机器学习的生存分析模型。研究团队不仅采用了传统的Cox比例风险模型,还融入了随机生存森林、支持向量机和梯度提升等先进的机器学习算法。通过这些方法,研究者们成功构建了一个能够预测患者长期临床缓解风险的分层模型,这在复发性心包炎的研究领域尚属首次。对于想研究机器学习策略的朋友们,绝对是个值得一试的新选择。
2、深入的特征选择与模型优化:研究者们通过SHAP值分析,精心筛选出了影响模型预测性能的关键变量,包括年龄、性别、复发次数等。他们不仅优化了模型的预测能力,还提高了模型的可解释性,使其更适合临床应用。这种结合传统统计学和机器学习技术的方法,不仅提高了研究的深度,也为临床决策提供了有力的支持,还更容易获得审稿人的青睐哦!
PS:小伙伴们是不是觉得研究新思路就在眼前?机器学习模型结合SHAP值分析,就是这么给力!如果你也有想法,却不知如何下手,赶紧联系生信路吧!生信路这里不仅有超多创新研究思路,还有前沿的分析方法,一起来探讨学习吧!下一个发表高分文章的就是你!
定制生信分析
云服务器租赁
加微信备注99领取使用
题目:预测复发性心包炎患者的长期临床预后
杂志:Journal of the American College of Cardiology
影响因子:IF=21.7
发表时间:2024年9月
研究背景
复发性心包炎(RP)是急性心包炎后高达30%患者的衰弱性疾病,易复发,影响生活质量,增加发病率。其管理具挑战性,需个性化治疗,一线疗法常不足。新药物阿那金拉和利洛奈普特有效。本研究旨在分析大型RP患者队列,确定相关因素,开发预后风险分层工具。
数据来源
本研究的数据来源于2012年至2019年间克利夫兰诊所收治的连续365例复发性心包炎(RP)患者的回顾性研究。研究共纳入了497例患者,排除了有先前心包切除术史或随访时间少于6个月的88例患者,以及因辐射、恶性、细菌、代谢或真菌病因引起的44例RP患者。最终纳入分析的基线RP患者为365例。
研究思路
本研究首先通过回顾性审查2012年至2019年间连续365例复发性心包炎患者的医疗记录来收集数据,然后使用五种机器学习生存模型来计算患者在5年内实现临床缓解的可能性,并据此将患者分为高风险、中风险和低风险组。接着,通过SHAP值分析来识别和优化影响模型预测的关键变量,并最终确定了一个包含10个重要变量的简化模型。研究还通过Kaplan-Meier曲线和时间依赖的ROC曲线来评估风险分层的效能,并使用Cox回归分析来验证不同风险组间临床缓解率的差异。
研究结果
1.整体队列和结果组的基线特征
本研究对365名复发性心包炎患者进行了分析,中位随访35个月(Q1-Q3:16-88个月),平均年龄46岁。主要数据包括复发次数(中位数3次)、病因(特发性61%,PCIS 21%,自身免疫性18%)、LGE程度(无或轻微76%,中度到重度24%)及合并症(如高血压28%,心房颤动12%,2型糖尿病6.8%)。通过机器学习模型,基于年龄、性别、复发次数、病因、心率、LGE、LVEF、药物使用等变量(表1),分析了患者达到临床缓解(CR)的可能性。结果显示,32%患者实现了CR,且这些患者往往为男性,年龄较大,且有特发性或PCIS病因,心率中位数较低,复发次数较少。
表1:整体队列和结果组的基线特征
2.XGB模型在测试集上的表现及特征重要性分析
在本研究中运用XGB模型,基于34个候选变量(包括类固醇依赖性、基线复发次数、心率等),未进行特征消除,直接在测试集上进行训练。通过比较不同模型的性能(表2),XGB模型展现了优异的预测能力,其C指数达到了0.778。进一步利用SHAP值分析(图1),揭示了20个对模型输出影响最大的特征,发现类固醇依赖性、复发次数、心率等是预测患者临床缓解的关键因素。
表2:比较不同模型的预测性能
图1:XGB模型和功能重要性的全球解释
3.连续变量对模型输出影响的SHAP分析
在本研究中使用SHAP依赖图(图2A-D)分析了心率、心包炎发作次数、年龄和左心室射血分数(LVEF)等连续变量对临床缓解(CR)可能性的影响。分析结果显示,心率增加与CR可能性降低呈反比关系(图2A);心包炎发作次数对CR的影响先降后稳,3次发作后无明显变化(图2B);55岁以上患者CR可能性增加(图2C);LVEF超过60%时,CR可能性下降(图2D)。基于这些结果,研究将这些变量分为不同的组别,以便简化模型并提高其预测的准确性。
图2:SHAP特征依赖图
4.风险模型和模型评估
研究中通过递归特征消除过程选择了10个关键变量(年龄、性别、基线复发次数、病因、心率、LGE、LVEF、秋水仙碱、DMARDs和类固醇使用),并使用多变量分析来支持基于截止值的特征选择和分类。研究比较了不同模型的性能,发现CPH和GBSA模型在测试集上都达到了最高的C指数0.800(表2)。考虑到易解释性和临床适用性,选择了CPH模型进行风险分层。基于β系数,为每个变量分配了分数,并计算了每个患者的总风险分数(图3A)。风险分层显示,随着风险分数的增加,CR率成比例下降。Kaplan-Meier曲线(图3C)和时间-ROC曲线(图3D)进一步证实了模型在不同风险组中预测CR的有效性。Cox回归分析也表明,低风险组患者的CR率显著高于高风险组患者。这些结果突出了模型在识别复发性心包炎患者中高风险个体方面的潜力。
表3:风险模型和模型评估
文章小结
生信路有话说
生信路还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询生信路,竭诚为您的科研助力!
定制生信分析
思路评估
服务器租赁
往期推荐
1.三个Python代码=20分文章?!康奈尔大学团队新发表:随机森林+多源数据,这顶破天的性价比,十分钟看完代码冲Top!
2.孟德尔随机化正值“当打之年”!疾病亚型分析,创新思路大进阶!首都医科大学团队一招斩获7分+!快快码住~
3.玩转NHANES数据库,TOP团队有妙招!北京大学团队10.5分横断面研究,生信小白也可轻松复现,赶紧码住!
4.高福院士主编的“国产”第一神刊《Science Bulletin》拳打PNAS,脚踢Nature、Science?真实水平如何?