​GEO挖够了?来NHANES新赛道!机器学习挑大梁,集结两大发文利器,纯生信3个月斩获Q1区,河北农大团队赢麻了!

文摘   2024-11-04 20:00   陕西  

有人说,NHANES数据库是最容易发文的数据库,你觉得呢?(欢迎在评论区各抒己见~)

小记者认为,从发文数量上来看是这样的。NHANES数据库中包含的数据类型很多,可挖掘内容也多,那么我们就可以不局限于做一些简单的统计分析(这块已经开卷了),还可以利用某些数据进行机器学习分析、建模等(替代已经挖够了的GEO),把分析层次拉高,去开辟新的发文道路,突破内卷

说到机器学习,绝对是生信中提分利器,现在又获得了2大诺奖加持,火热程度指日可待,估计后面做科研的都要来分一杯羹了,所以咱们生信圈的赶紧跑快些,新思路用起来,一不小心可能就被后来者居上了!(想自学机器学习的朋友们可以看看小记者新上线的视频课,点击文末链接即可观看哈)

下面就看一篇NHANES和机器学习强强联合的文章:出自河北农业大学团队,基于NHANES中的尿代谢物数据开发6个机器学习模型,预测CVD风险。用NHANES替代GEO,新数据创新性更强;集结6大机器学习算法,分析层面进行拔高,更容易发文!想用公共数据库建模的朋友,可以另辟蹊径用下NHANES数据库,比GEO更新颖更容易出高分,当然如果不会选数据,不会分析的朋友也可以滴滴小记者,背靠坚实团队,服务一步到位~

定制生信分析

云服务器租赁

(加微信备注99领取试用)


题目:使用环境挥发性有机化合物暴露识别美国人群的心血管疾病风险:基于SHAP方法的机器学习预测模型

杂志:Ecotoxicology and Environmental Safety(IF=6.2)

发表日期:2024年10月

公众号回复“999”领取原文PDF,文献编号:241104

研究背景

心血管疾病(CVD)仍然是全球死亡的主要原因。环境污染物,特别是挥发性有机化合物(VOCs),已被确定为重大风险因素。这项研究的目的是开发一个机器学习(ML)模型来预测CVD风险,该模型基于VOC暴露和人口统计学数据,使用SHapley Additive exPlanations(SHAP)进行解释。

研究思路

该研究利用了2011年至2018年NHANES的数据(包括5098名参与者),通过15种尿代谢物指标评估VOC暴露。将数据集分为训练集(70 %)和测试集(30 %),开发六个ML模型来预测CVD风险,包括随机森林(RF)、光梯度推进机(LightGBM)、决策树(DT)、极限梯度推进(XGBoost)、多层感知器(MLP)和支持向量机(SVM)。使用受试者操作特征曲线下面积(AUROC)、准确性、平衡准确性、F1评分、J指数、kappa、马修相关系数(MCC)、阳性预测值(PPV)、阴性预测值(NPV)、敏感性(sens)、特异性(spec)评估模型性能,并应用SHAP解释最佳性能模型。

主要结果

1. 基线分析和逻辑回归分析

基线分析中随机选择了515名CVD患者和4583名对照,基线特征显示CVD患者往往年龄较大,SBP、DBP、身体质量指数、HbA1c较高,HDL-C、PIR较低,更可能是男性、糖尿病患者、吸烟者、白人和受教育程度较低者。在mVOCs方面,CVD疾病患者的T34_MHA、AMCC、CYMA、DHBMA、CEMA、T2HPMA、MHBMA3、PGA、MA和HMPMA水平明显较高,而ATCA水平明显较低(表1)。使用逻辑回归分析mVOCs组分和CVD风险之间的相关性,结果显示,在调整完协变量的模型 3 中,ATCA、CEMA、CYMA、X2HPMA 和 PGA 水平仍与心血管疾病风险显著相关,其中只有ATCA是CVD风险的保护因素,而其余三种mVOCs均以浓度依赖的方式导致人群CVD风险增加(表2)。

表1:基线特征(完整图表见原文)

表2:逻辑回归分析mVOCs组分和CVD风险之间的相关性(完整图表见原文)

2. 模型变量选择

首先将数据集分为70 %训练集(n =3568)和30 %测试集(n =1530)进行模型构建(图1)。使用具有阴影特征的 Boruta 算法划分出 21 个潜在有效的预测变量(图2,绿色模块)。阴影特征变量用于训练和建立 ML 模型,其中包括高血压、年龄、SBP、DBP、性别、PIR、BMI、T2MHA、T34_MHA、AAMA、AMCC、ATCA、SBMA、CEMA、T3HPMA、CYMA、DHBMA、T2HPMA、MHBMA3、PGA、MA 和 HMPMA。

图1:研究流程图

图2:模型变量选择

3. 模型评估和比较

基于上面选择的模型变量构建了6个机器学习(ML)模型,并利用多个指标评估其性能。ROC曲线显示,RF模型具有最好的预测性能和模型拟合度,AUROC为0.8143(图3)。进一步在训练(A)和测试(B)集上跨多个评估指标(包括准确性、平衡准确性、F1评分、J指数、kappa、马修相关系数(MCC)、阳性预测值(PPV)、阴性预测值(NPV)、精确度、召回率、ROC AUC、灵敏度(sens)和特异性(spec))比较6个模型的性能,结果显示RF模型的性能最佳。因此,在随后的分析中,最佳模型(RF)的可解释性分析是研究的第一要务。(ps:自己个人电脑跑生信代码是不是经常崩溃?想免费试用服务器联系小记者,双11还有超级优惠!)

图3:ROC曲线

图4:不同机器学习模型在训练(A)和测试(B)集上跨多个评估指标的性能比较

4. 特征重要性的可视化

作者随后进行了SHAP分析,以评估RF模型中每个特征变量的重要性及其在模型预测中的作用,结果始终强调年龄是所有变量中最重要的,拥有最大的SHAP值,是CVD风险的重要风险因素。最重要的mVOCs成分是ATCA,它在所有变量中的重要性排在年龄之后,同时它对CVD的发展有保护作用(图5)。

图5:SHAP分析

4. 关键mVOCs对CVD的交互作用

利用SHAP相互作用值分析年龄、高血压和ATCA水平的相互作用效应。结果显示,较高的ATCA水平与CVD风险的降低相关,特别是在高血压个体和老年人中,表明ATCA与这些因素有显著的交互作用(图6)。

图6:ATCA的相互作用效果图

小结

这文章是不是很新颖呢?文章有2大亮点:一个是NHANES数据库的应用,挖掘热度高、数据量大、可挖掘空间大,可以替代GEO数据库;另一个是6大ML模型分析+SHAP分析,拔高分析层次,蹭蹭提分!看完这个思路该干啥不用小记者多说了吧!学起来,用起来,趁着机器学习还没全普及,发他个几篇高分!如果你也想用NHANES数据库+机器学习建模发高分,但搞不定数据选择和分析,欢迎联系小记者!专业团队为你保驾护航,1V1定制创新思路~



小记者话生信

如果您的时间和精力有限或者缺乏相关经验,并且对生信分析和期刊推荐有所需要的话,“生信日报”非常乐意为您提供如下服务:免费思路评估、付费生信分析和方案设计以及付费选刊等,有意向的小伙伴欢迎咨询小记者哦!

生信分析

思路设计

服务器租赁

扫码咨询小记者


1、超高分sci!将近50分你还有不看的理由?德国学者真是把机器学习玩出花了,直接构建一个新生信分析方法,还不快看!

2、国自然出品就是牛!复旦大学施思&虞先濬团队:借公共数据库+RNA-seq+湿实验研究癌症成纤维,IF近9分属实佩服!

3、MDPI期刊再爆丑闻!23本期刊存在“审稿人工厂”问题!

4、1区5分+药理学方向官方期刊,生信文章友好!发文量大,审稿速度快,还在犹豫什么赶快投起来!

5、中山二院宋尔卫苏士成实验室患癌事件后续,团队1周内接连发表Cell和Nature···


生信日报
持续更新生信思路,提供专业的生信分析服务:思路设计、生信分析、文献复现、数据库搭建......欢迎土豪们找小记者定制分析!
 最新文章