6.2/Q1,南昌大学联合NHANES+机器学习+SHAP建立根据VOC预测CVD风险模型

文摘   2024-11-15 23:48   海南  

Med-NHANES,持续分享NHANES临床生信文献与思路解读,捕捉当下热点指标/思路,感兴趣的老师可以点点关注~需要定制化分析的老师欢迎扫码联系~

文章标题:Identifying cardiovascular disease risk in the U.S. population using environmental volatile organic compounds exposure: A machine learning predictive model based on the SHAP methodology

中文标题:使用环境挥发性有机化合物暴露确定美国人群的心血管疾病风险:基于 SHAP 方法的机器学习预测模型

发表期刊Ecotoxicol Environ Saf .

发表时间2024年10月

影响因子6.2/Q1

研究背景

心血管疾病 (CVD) 仍然是全球死亡的主要原因。环境污染物,特别是挥发性有机化合物 (VOC),已被确定为重要的风险因素。本研究旨在开发一个机器学习 (ML) 模型,以使用 SHapley 加法解释 (SHAP) 根据 VOC 暴露和人口统计数据预测 CVD 风险,以实现可解释性。

分析方法

我们利用了 2011 年至 2018 年全国健康与营养检查调查 (NHANES) 的数据,包括 5098 名参与者。通过 15 个尿液代谢物指标评估 VOC 暴露。数据集被分为训练集 (70%) 和测试集 (30%)。开发了 6 个 ML 模型,包括随机森林 (RF)、光梯度提升机 (LightGBM)、决策树 (DT)、极端梯度提升 (XGBoost)、多层感知器 (MLP) 和支持向量机 (SVM)。使用受试者工作特征曲线下面积 (AUROC) 评估模型性能,准确率、平衡准确率、F1 评分、J 指数、kappa、马修相关系数 (MCC)、阳性预测值 (PPV)、阴性预测值 (NPV)、敏感性 (sens)、特异性 (spec) 和 SHAP 用于解释表现最佳的模型。

结果分析

1. 基线特征

基线分析共随机选择 515 名 CVD 患者和 4583 名对照,基线特征见表 1。使用基线表,我们发现 CVD 患者往往年龄较大,SBP、DBP、BMI、HbA1c、HDL-C、PIR 较低,更可能是男性、糖尿病、吸烟者、白人和受教育程度较低。在 mVOCs 方面,CVD 疾病患者的 T34_MHA、AMCC、CYMA、DHBMA、CEMA、T2HPMA、MHBMA3、PGA、MA 和 HMPMA 水平往往较高,而 ATCA 水平显着降低。

2. mVOCs 与 CVD 风险之间的相关性

我们调整了年龄、性别、种族、婚姻状况、PIR、教育水平、吸烟、糖尿病、高血压和 BMI 的协变量,最后在模型 3 中,ATCA (OR=0.79,95 % CI=0.72–0.88,P<0.001)、CEMA (OR=1.17, 95 % CI = 1.04–1.32,P = 0.007)、CYMA (OR=1.12,95 % CI = 1.04–1.21,P = 0.003)、X2HPMA (OR=1.11,95 % CI = 1.01–1.23,P = 0.029)和 PGA (OR=1.15,95 % CI = 1.00–1.31,P = 0.044)水平与 CVD 风险保持显著相关。在显著的 mVOCs 成分中,只有 ATCA 是 CVD 风险的保护因素,而其余 3 种 mVOCs 均以浓度依赖性方式导致人群 CVD 风险增加。相对较大的 E 值表明我们的模型是稳健的,这表明任何未测量的混杂因素都需要非常强才能完全解释观察到的关联(表 2)。

3. 模型变量选择

随后,本研究使用带有阴影特征的 Boruta 算法描绘了 21 个可能有效的预测变量(对应于图 2 中的绿色模块)。阴影特征变量用于训练和构建 ML 模型,其中包括高血压、年龄、SBP、DBP、性别、PIR、BMI、T2MHA、T34_MHA、AAMA、AMCC、ATCA、SBMA、CEMA、T3HPMA、CYMA、DHBMA、T2HPMA、MHBMA3、PGA、MA 和 HMPMA。

4. 模型评估和比较

基于上面选择的模型变量构建了6个机器学习(ML)模型,并利用多个指标评估其性能。ROC曲线显示,RF模型具有最好的预测性能和模型拟合度,AUROC为0.8143(图3)。进一步在训练(A)和测试(B)集上跨多个评估指标(包括准确性、平衡准确性、F1评分、J指数、kappa、马修相关系数(MCC)、阳性预测值(PPV)、阴性预测值(NPV)、精确度、召回率、ROC AUC、灵敏度(sens)和特异性(spec))比较6个模型的性能,结果显示RF模型的性能最佳。因此,在随后的分析中,最佳模型(RF)的可解释性分析是研究的第一要务。

5. 特征重要性的可视化

我们进行了 SHAP 分析,以评估 RF 模型中每个特征变量的重要性及其在模型预测中的贡献,结果始终强调年龄是所有变量中最重要的,拥有最大的SHAP值,是CVD风险的重要风险因素。最重要的mVOCs成分是ATCA,它在所有变量中的重要性排在年龄之后,同时它对CVD的发展有保护作用(图5)。

6. 关键 mVOC 对 CVD 的交互作用

利用SHAP相互作用值分析年龄、高血压和ATCA水平的相互作用效应。结果显示,较高的ATCA水平与CVD风险的降低相关,特别是在高血压个体和老年人中,表明ATCA与这些因素有显著的交互作用(图6)。

文章小结

RF 模型表现出最高的预测性能,ROC 为 0.8143。SHAP 分析确定年龄和 ATCA 是最重要的预测因素,ATCA 显示出对 CVD 的保护作用,尤其是在老年人和高血压患者中。该研究发现 ATCA 水平与年龄之间存在显着的相互作用,这表明由于氧化应激和与衰老相关的炎症反应增加,ATCA 的保护作用在老年人中更为明显。E 值分析表明对未测量的混杂因素具有稳健性。今天为大家分享的文章纯公共数据挖掘+统计分析,就发到了一区!如果你也想在临床方向发高分文章,不妨试试这个省钱省事又省力的思路吧!

Med-NHANES
Med-NHANES,主要更新NHANES数据库的最新生信文章和思路,以及最新的指标。提供专业的生信分析服务:思路设计,生信分析,文献复现,科室科研培训,数据库搭建,助力您的科研之路!
 最新文章