IF=6.2!中国学者联合机器学习+NHANES,全新视角构建心血管预测模型

文摘   科学   2024-11-29 17:40   浙江  

直播预告

明天开课:机器学习方法!详情可点击下方链接了解

11.30-12.1 R语言构建机器学习课程开启,欢迎报名开启

 引言

机器学习联合公共数据库强强联合!创新和热度齐到手,还担心发不了高分?今天就分享一篇IF6.2的二区top文章,中国学者利用NHANES数据库的数据,通过可解释机器学习框架来预测疾病风险,提供了一个全面且可解释的评估工具!

接下来,让我们一起看看这篇文章!

心血管疾病(CVD)已成为全球首要的致死原因。而环境污染物,尤其是挥发性有机化合物(VOCs),也被确定为其重要的风险因素。

然而,在先前的研究中发现,除了依赖特定的环境检测手段来获取VOCs数据外,还可通过检测尿液中的VOCs代谢产物,分析VOCs暴露对人体健康的具体影响。

2024年11月1日,中国学者NHANES数据库,在期刊Ecotoxicology and Environmental Safety环境科学与生态学top二区,IF=6.2)发表题为Identifying cardiovascular disease risk in the U.S. population using environmental volatile organic compounds exposure: A machine learning predictive model based on the SHAP methodology的研究论文,旨在开发一个可解释的机器学习(ML)模型,并使用基本人口统计数据和VOCs组成的数据来预测CVD发生风险。
研究结果表明,在6种ML预测模型中,RF模型预测性能最佳,其中年龄和ATCA(尿液VOC代谢组分)是预测CVD风险的最重要因素。此外,ATCA在老年人和高血压患者中的保护作用最为显著。

本公号回复“ 原文”即可获得文献PDF等资料。如果你对预测模型感兴趣,不妨看看我们的机器学习构建临床预测模型课程!如感兴趣请联系郑老师团队,微信号:aq566665

研究团队基于美国国家健康与营养调查(NHANES)据库2011~2018年的数据,经过纳排,最终纳入了5,098名参与者,其中515名为CVD患者。同时,研究团队进一步将数据集分为70%训练集(n =3568)和30%验证集(n =1530),并通过15项尿代谢物指标评估VOCs的暴露情况。

主要研究流程:

模型构建
研究团队基于数据集,开发了6种ML模型构建CVD风险预测模型。
  • 包括随机森林(RF),光梯度提升机(LightGBM),决策树(DT),极端梯度提升(XGBoost),多层感知器(MLP)和支持向量机(SVM)。

模型评估

研究团队使用一系列指标评价模型的预测性能,并通过SHAP算法阐明具有最佳性能的模型。

  • 包括ROC曲线下面积(AUROC)、准确度、平衡准确度、F1评分、J指数、kappa、Matthew相关系数(MCC)、阳性预测值(PPV)、阴性预测值(NPV)、灵敏度(sens)、特异度(spec)。


机器学习联合NHANES预测疾病风险

ROC曲线的结果表明,在6种ML预测模型中,RF模型的预测性能最好,其AUROC达到了0.8143,表明模型具有优秀的预测能力。

图2 6个ML模型的ROC曲线

(A)测试集;(B)验证集

团队进一步使用SHAP法,评估RF模型中每个特征变量的重要性及其在模型预测中的贡献。结果表明,年龄和ATCA在其中发挥重要作用,具体如下

  • 年龄是所有变量中最重要的,同时也是CVD风险的重要危险因素。这意味着,随着年龄的增长,发生CVD的风险增加。

  • 在mVOCs组分中,最重要的是ATCA,其重要性仅次于年龄。同时,较高的ATCA水平与CVD风险降低相关,尤其是在高血压患者和老年人中。

图3 RF模型的SHAP图

(A)变量的SHAP值排序;(B)SHAP蜂窝图;(C)连续变量的SHAP值变化趋势图;(D)分类变量的SHAP值的箱形图。

图4 ATCA的SHAP依赖图

(A)ATCA与高血压的交互作用图;(B)ATCA与年龄的交互效应图
综上所述,研究团队认为,RF模型具有优秀的预测CVD风险的能力。因此将基本人口统计数据与VOCs暴露相结合的模型,在预测未来疾病风险方面具有巨大的潜力。

机器学习发文现在可是风头正盛!如果你也想及时抓住它的热度,但却一头雾水?那么郑老师在11月30号即将开始的,基于R语言的机器学习构建预测模型的直播课程太适合你了!还衍生了一对一统计服务指导课程!报名即可享发文退款服务!热度把握住,发文更不愁!

关注“公共数据库与孟德尔随机化”公众号,我们将持续为你提供高分文章的思路解读

郑老师统计团队及公众号

全国较大的线上医学统计服务平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!


我们提供以医学数据数据挖掘统计服务
①NAHANES:一二区论文占半数
②MIMIC:急诊数据分析与机器学习建模
GBD:全球、中国各种疾病患病、死亡研究
孟德尔随机化:疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导

GBD、NHANES医学数据库挖掘1对1R语言指导

联系助教陈老师咨询(微信号sas555777


公共数据库与孟德尔随机化
我们专门介绍公共数据库与孟德尔随机化,每周文献周报,呈现精品文献阅读
 最新文章