直播预告
明天开课:机器学习方法!详情可点击下方链接了解
心血管疾病(CVD)已成为全球首要的致死原因。而环境污染物,尤其是挥发性有机化合物(VOCs),也被确定为其重要的风险因素。
然而,在先前的研究中发现,除了依赖特定的环境检测手段来获取VOCs数据外,还可通过检测尿液中的VOCs代谢产物,分析VOCs暴露对人体健康的具体影响。
本公号回复“ 原文”即可获得文献PDF等资料。如果你对预测模型感兴趣,不妨看看我们的机器学习构建临床预测模型课程!如感兴趣请联系郑老师团队,微信号:aq566665
研究团队基于美国国家健康与营养调查(NHANES)数据库2011~2018年的数据,经过纳排,最终纳入了5,098名参与者,其中515名为CVD患者。同时,研究团队进一步将数据集分为70%训练集(n =3568)和30%验证集(n =1530),并通过15项尿代谢物指标评估VOCs的暴露情况。
主要研究流程:
包括随机森林(RF),光梯度提升机(LightGBM),决策树(DT),极端梯度提升(XGBoost),多层感知器(MLP)和支持向量机(SVM)。
✅模型评估
研究团队使用一系列指标评价模型的预测性能,并通过SHAP算法阐明具有最佳性能的模型。
包括ROC曲线下面积(AUROC)、准确度、平衡准确度、F1评分、J指数、kappa、Matthew相关系数(MCC)、阳性预测值(PPV)、阴性预测值(NPV)、灵敏度(sens)、特异度(spec)。
机器学习联合NHANES预测疾病风险
ROC曲线的结果表明,在6种ML预测模型中,RF模型的预测性能最好,其AUROC达到了0.8143,表明模型具有优秀的预测能力。
图2 6个ML模型的ROC曲线
团队进一步使用SHAP法,评估RF模型中每个特征变量的重要性及其在模型预测中的贡献。结果表明,年龄和ATCA在其中发挥重要作用,具体如下:
年龄是所有变量中最重要的,同时也是CVD风险的重要危险因素。这意味着,随着年龄的增长,发生CVD的风险增加。
在mVOCs组分中,最重要的是ATCA,其重要性仅次于年龄。同时,较高的ATCA水平与CVD风险降低相关,尤其是在高血压患者和老年人中。
(A)变量的SHAP值排序;(B)SHAP蜂窝图;(C)连续变量的SHAP值变化趋势图;(D)分类变量的SHAP值的箱形图。
图4 ATCA的SHAP依赖图
用机器学习发文现在可是风头正盛!如果你也想及时抓住它的热度,但却一头雾水?那么郑老师在11月30号即将开始的,基于R语言的机器学习构建预测模型的直播课程太适合你了!还衍生了一对一统计服务指导课程!报名即可享发文退款服务!热度把握住,发文更不愁!
关注“公共数据库与孟德尔随机化”公众号,我们将持续为你提供高分文章的思路解读!
郑老师统计团队及公众号
全国较大的线上医学统计服务平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!