GEO挖够了?来NHANES新赛道!机器学习挑大梁,集结两大发文利器,纯生信3个月斩获Q1区,河北农大团队赢麻了!

学术   2024-11-11 10:03   上海  
有人说,NHANES数据库是最容易发文的数据库,你觉得呢?(欢迎在评论区各抒己见~)
小云认为,从发文数量上来看是这样的NHANES数据库中包含的数据类型很多,可挖掘内容也多,那么我们就可以不局限于做一些简单的统计分析(这块已经开卷了),还可以利用某些数据进行机器学习分析、建模等(替代已经挖够了的GEO),把分析层次拉高,去开辟新的发文道路,突破内卷!
说到机器学习,绝对是生信中提分利器,现在又获得了2大诺奖加持,火热程度指日可待,估计后面做科研的都要来分一杯羹了,所以咱们生信圈的赶紧跑快些,新思路用起来,一不小心可能就被后来者居上了!
下面就看一篇NHANES和机器学习强强联合的文章:出自河北农业大学团队,基于NHANES中的尿代谢物数据开发6个机器学习模型,预测CVD风险。用NHANES替代GEO,新数据创新性更强;集结6大机器学习算法,分析层面进行拔高,更容易发文!想用公共数据库建模的朋友,可以另辟蹊径用下NHANES数据库,比GEO更新颖更容易出高分,当然如果不会选数据,不会分析的朋友也可以滴滴小云,背靠坚实团队,服务一步到位

定制生信分析

云服务器租赁

(加微信备注99领取试用)


题目:使用环境挥发性有机化合物暴露识别美国人群的心血管疾病风险:基于SHAP方法的机器学习预测模型
杂志:Ecotoxicology and Environmental Safety(IF=6.2)
发表日期:2024年10月
研究背景
心血管疾病(CVD)仍然是全球死亡的主要原因。环境污染物,特别是挥发性有机化合物(VOCs),已被确定为重大风险因素。这项研究的目的是开发一个机器学习(ML)模型来预测CVD风险,该模型基于VOC暴露和人口统计学数据,使用SHapley Additive exPlanations(SHAP)进行解释。
研究思路
该研究利用了2011年至2018年NHANES的数据(包括5098名参与者),通过15种尿代谢物指标评估VOC暴露。将数据集分为训练集(70 %)和测试集(30 %),开发六个ML模型来预测CVD风险,包括随机森林(RF)、光梯度推进机(LightGBM)、决策树(DT)、极限梯度推进(XGBoost)、多层感知器(MLP)和支持向量机(SVM)。使用受试者操作特征曲线下面积(AUROC)、准确性、平衡准确性、F1评分、J指数、kappa、马修相关系数(MCC)、阳性预测值(PPV)、阴性预测值(NPV)、敏感性(sens)、特异性(spec)评估模型性能,并应用SHAP解释最佳性能模型。
主要结果
1. 基线分析和逻辑回归分析
基线分析中随机选择了515名CVD患者和4583名对照,基线特征显示CVD患者往往年龄较大,SBP、DBP、身体质量指数、HbA1c较高,HDL-C、PIR较低,更可能是男性、糖尿病患者、吸烟者、白人和受教育程度较低者。在mVOCs方面,CVD疾病患者的T34_MHA、AMCC、CYMA、DHBMA、CEMA、T2HPMA、MHBMA3、PGA、MA和HMPMA水平明显较高,而ATCA水平明显较低(表1)。使用逻辑回归分析mVOCs组分和CVD风险之间的相关性,结果显示,在调整完协变量的模型 3 中,ATCA、CEMA、CYMA、X2HPMA 和 PGA 水平仍与心血管疾病风险显著相关,其中只有ATCA是CVD风险的保护因素,而其余三种mVOCs均以浓度依赖的方式导致人群CVD风险增加(表2)。
表1:基线特征(完整图表见原文)
表2:逻辑回归分析mVOCs组分和CVD风险之间的相关性(完整图表见原文)
2. 模型变量选择
首先将数据集分为70 %训练集(n =3568)和30 %测试集(n =1530)进行模型构建(图1)。使用具有阴影特征的 Boruta 算法划分出 21 个潜在有效的预测变量(图2,绿色模块)。阴影特征变量用于训练和建立 ML 模型,其中包括高血压、年龄、SBP、DBP、性别、PIR、BMI、T2MHA、T34_MHA、AAMA、AMCC、ATCA、SBMA、CEMA、T3HPMA、CYMA、DHBMA、T2HPMA、MHBMA3、PGA、MA 和 HMPMA。
图1:研究流程图
图2:模型变量选择
3. 模型评估和比较
基于上面选择的模型变量构建了6个机器学习(ML)模型,并利用多个指标评估其性能。ROC曲线显示,RF模型具有最好的预测性能和模型拟合度,AUROC为0.8143(图3)。进一步在训练(A)和测试(B)集上跨多个评估指标(包括准确性、平衡准确性、F1评分、J指数、kappa、马修相关系数(MCC)、阳性预测值(PPV)、阴性预测值(NPV)、精确度、召回率、ROC AUC、灵敏度(sens)和特异性(spec))比较6个模型的性能,结果显示RF模型的性能最佳。因此,在随后的分析中,最佳模型(RF)的可解释性分析是研究的第一要务。(ps:自己个人电脑跑生信代码是不是经常崩溃?想免费试用服务器联系小云,双11还有超级优惠!)
图3:ROC曲线
图4:不同机器学习模型在训练(A)和测试(B)集上跨多个评估指标的性能比较
4. 特征重要性的可视化
作者随后进行了SHAP分析,以评估RF模型中每个特征变量的重要性及其在模型预测中的作用,结果始终强调年龄是所有变量中最重要的,拥有最大的SHAP值,是CVD风险的重要风险因素。最重要的mVOCs成分是ATCA,它在所有变量中的重要性排在年龄之后,同时它对CVD的发展有保护作用(图5)。
图5:SHAP分析
4. 关键mVOCs对CVD的交互作用
利用SHAP相互作用值分析年龄、高血压和ATCA水平的相互作用效应。结果显示,较高的ATCA水平与CVD风险的降低相关,特别是在高血压个体和老年人中,表明ATCA与这些因素有显著的交互作用(图6)。
图6:ATCA的相互作用效果图
小结
这文章是不是很新颖呢?文章有2大亮点:一个是NHANES数据库的应用,挖掘热度高、数据量大、可挖掘空间大,可以替代GEO数据库;另一个是6大ML模型分析+SHAP分析,拔高分析层次,蹭蹭提分!看完这个思路该干啥不用小云多说了吧!学起来,用起来,趁着机器学习还没全普及,发他个几篇高分!如果你也想用NHANES数据库+机器学习建模发高分,但搞不定数据选择和分析,欢迎联系小云!专业团队为你保驾护航,1V1定制创新思路~

定制生信分析


云服务器租赁

热点推荐

孟德尔随机化

临床公共数据分析

单细胞测序

肿瘤免疫与微环境

机器学习

单基因分析

生信云服务器

代码合集(点击查看)

培训班系列(点击查看)

云生信学生物信息学
专注生信10余年,原创文章数千篇; 公号资料免费领,寻求服务找小云; 长期学习加关注,生信干货更不停。
 最新文章