GEO挖够了？来NHANES新赛道！机器学习挑大梁，集结两大发文利器，纯生信3个月斩获Q1区，河北农大团队赢麻了！

文摘 2024-11-04 20:00 陕西

有人说，NHANES数据库是最容易发文的数据库，你觉得呢？（欢迎在评论区各抒己见~）

小记者认为，从发文数量上来看是这样的。NHANES数据库中包含的数据类型很多，可挖掘内容也多，那么我们就可以不局限于做一些简单的统计分析（这块已经开卷了），还可以利用某些数据进行机器学习分析、建模等（替代已经挖够了的GEO），把分析层次拉高，去开辟新的发文道路，突破内卷！

说到机器学习，绝对是生信中提分利器，现在又获得了2大诺奖加持，火热程度指日可待，估计后面做科研的都要来分一杯羹了，所以咱们生信圈的赶紧跑快些，新思路用起来，一不小心可能就被后来者居上了！（想自学机器学习的朋友们可以看看小记者新上线的视频课，点击文末链接即可观看哈）

下面就看一篇NHANES和机器学习强强联合的文章：出自河北农业大学团队，基于NHANES中的尿代谢物数据开发6个机器学习模型，预测CVD风险。用NHANES替代GEO，新数据创新性更强；集结6大机器学习算法，分析层面进行拔高，更容易发文！想用公共数据库建模的朋友，可以另辟蹊径用下NHANES数据库，比GEO更新颖更容易出高分，当然如果不会选数据，不会分析的朋友也可以滴滴小记者，背靠坚实团队，服务一步到位~

定制生信分析

云服务器租赁

(加微信备注99领取试用)

题目：使用环境挥发性有机化合物暴露识别美国人群的心血管疾病风险:基于SHAP方法的机器学习预测模型

杂志：Ecotoxicology and Environmental Safety（IF=6.2）

发表日期：2024年10月

公众号回复“999”领取原文PDF，文献编号：241104

研究背景

心血管疾病(CVD)仍然是全球死亡的主要原因。环境污染物，特别是挥发性有机化合物(VOCs)，已被确定为重大风险因素。这项研究的目的是开发一个机器学习(ML)模型来预测CVD风险，该模型基于VOC暴露和人口统计学数据，使用SHapley Additive exPlanations(SHAP)进行解释。

研究思路

该研究利用了2011年至2018年NHANES的数据（包括5098名参与者），通过15种尿代谢物指标评估VOC暴露。将数据集分为训练集(70 %)和测试集(30 %)，开发六个ML模型来预测CVD风险，包括随机森林(RF)、光梯度推进机(LightGBM)、决策树(DT)、极限梯度推进(XGBoost)、多层感知器(MLP)和支持向量机(SVM)。使用受试者操作特征曲线下面积(AUROC)、准确性、平衡准确性、F1评分、J指数、kappa、马修相关系数(MCC)、阳性预测值(PPV)、阴性预测值(NPV)、敏感性(sens)、特异性(spec)评估模型性能，并应用SHAP解释最佳性能模型。

主要结果

1. 基线分析和逻辑回归分析

基线分析中随机选择了515名CVD患者和4583名对照，基线特征显示CVD患者往往年龄较大，SBP、DBP、身体质量指数、HbA1c较高，HDL-C、PIR较低，更可能是男性、糖尿病患者、吸烟者、白人和受教育程度较低者。在mVOCs方面，CVD疾病患者的T34_MHA、AMCC、CYMA、DHBMA、CEMA、T2HPMA、MHBMA3、PGA、MA和HMPMA水平明显较高，而ATCA水平明显较低（表1）。使用逻辑回归分析mVOCs组分和CVD风险之间的相关性，结果显示，在调整完协变量的模型 3 中，ATCA、CEMA、CYMA、X2HPMA 和 PGA 水平仍与心血管疾病风险显著相关，其中只有ATCA是CVD风险的保护因素，而其余三种mVOCs均以浓度依赖的方式导致人群CVD风险增加（表2）。

表1：基线特征（完整图表见原文）

表2：逻辑回归分析mVOCs组分和CVD风险之间的相关性（完整图表见原文）

2. 模型变量选择

首先将数据集分为70 %训练集(n =3568)和30 %测试集(n =1530)进行模型构建（图1）。使用具有阴影特征的 Boruta 算法划分出 21 个潜在有效的预测变量（图2，绿色模块）。阴影特征变量用于训练和建立 ML 模型，其中包括高血压、年龄、SBP、DBP、性别、PIR、BMI、T2MHA、T34_MHA、AAMA、AMCC、ATCA、SBMA、CEMA、T3HPMA、CYMA、DHBMA、T2HPMA、MHBMA3、PGA、MA 和 HMPMA。

图1：研究流程图

图2：模型变量选择

3. 模型评估和比较

基于上面选择的模型变量构建了6个机器学习（ML）模型，并利用多个指标评估其性能。ROC曲线显示，RF模型具有最好的预测性能和模型拟合度，AUROC为0.8143（图3）。进一步在训练(A)和测试(B)集上跨多个评估指标（包括准确性、平衡准确性、F1评分、J指数、kappa、马修相关系数(MCC)、阳性预测值(PPV)、阴性预测值(NPV)、精确度、召回率、ROC AUC、灵敏度(sens)和特异性(spec)）比较6个模型的性能，结果显示RF模型的性能最佳。因此，在随后的分析中，最佳模型(RF)的可解释性分析是研究的第一要务。（ps：自己个人电脑跑生信代码是不是经常崩溃？想免费试用服务器联系小记者，双11还有超级优惠！）

图3：ROC曲线

图4：不同机器学习模型在训练(A)和测试(B)集上跨多个评估指标的性能比较

4. 特征重要性的可视化

作者随后进行了SHAP分析，以评估RF模型中每个特征变量的重要性及其在模型预测中的作用，结果始终强调年龄是所有变量中最重要的，拥有最大的SHAP值，是CVD风险的重要风险因素。最重要的mVOCs成分是ATCA，它在所有变量中的重要性排在年龄之后，同时它对CVD的发展有保护作用（图5）。

图5：SHAP分析

4. 关键mVOCs对CVD的交互作用

利用SHAP相互作用值分析年龄、高血压和ATCA水平的相互作用效应。结果显示，较高的ATCA水平与CVD风险的降低相关，特别是在高血压个体和老年人中，表明ATCA与这些因素有显著的交互作用（图6）。

图6：ATCA的相互作用效果图

小结

这文章是不是很新颖呢？文章有2大亮点：一个是NHANES数据库的应用，挖掘热度高、数据量大、可挖掘空间大，可以替代GEO数据库；另一个是6大ML模型分析+SHAP分析，拔高分析层次，蹭蹭提分！看完这个思路该干啥不用小记者多说了吧！学起来，用起来，趁着机器学习还没全普及，发他个几篇高分！如果你也想用NHANES数据库+机器学习建模发高分，但搞不定数据选择和分析，欢迎联系小记者！专业团队为你保驾护航，1V1定制创新思路~

小记者话生信

如果您的时间和精力有限或者缺乏相关经验，并且对生信分析和期刊推荐有所需要的话，“生信日报”非常乐意为您提供如下服务：免费思路评估、付费生信分析和方案设计以及付费选刊等，有意向的小伙伴欢迎咨询小记者哦！

生信分析

思路设计

服务器租赁

扫码咨询小记者

1、超高分sci！将近50分你还有不看的理由？德国学者真是把机器学习玩出花了，直接构建一个新生信分析方法，还不快看！

2、国自然出品就是牛！复旦大学施思&虞先濬团队：借公共数据库+RNA-seq+湿实验研究癌症成纤维，IF近9分属实佩服！

3、MDPI期刊再爆丑闻！23本期刊存在“审稿人工厂”问题！

4、1区5分+药理学方向官方期刊，生信文章友好！发文量大，审稿速度快，还在犹豫什么赶快投起来！

5、中山二院宋尔卫苏士成实验室患癌事件后续，团队1周内接连发表Cell和Nature···

http://mp.weixin.qq.com/s?__biz=Mzg5MzkzODQyNQ==&mid=2247525653&idx=1&sn=cf155ed91bddb81412dd4640195689a8

生信日报

持续更新生信思路，提供专业的生信分析服务:思路设计、生信分析、文献复现、数据库搭建......欢迎土豪们找小记者定制分析！

Nat Commun|机器学习联手多组学简直杀疯了，14.7分纯生信直接拿下！不服来战~

8.5分纯生信1个月就接受，这么神奇？只需常规模型构建联合一下孟德尔！再加上细胞死亡+机器学习助力，北京安定医院这波操作妙啊！

强烈推荐网络与药理学后面要分子对接

这套孟德尔随机化生信“组合拳”打的也太溜了！12种机器学习+转录组+WGCNA，buff叠满！快学起来！

华西团队新作曝光“最快晋升神器”：meta已是过去，现在得靠NHANES分析和孟德尔，联合思路发5分就像开挂，45天接受太牛了

为什么别人的孟德尔随机化一发一个10分+，而你复现了高分却屡投屡拒？连最关键的一步都不清楚，还做什么MR分析

Cell重磅！西北大学+华大联培“本科生共同一作”参与发表，开发时空算法工具包，空间转录组迎来重大突破

机会来了，获得生信大神同款必备生信服务器，不要错过

IF=37.6牛牪犇！这个CP太强了，孟德尔随机化+蛋白组学拿下顶刊！卷对方向绝对事半功倍，快来学~

硕士看了流泪，导师看了沉默！本科生一作0实验发5分+纯生信！代谢重编程+机器学习很好复现，硕士做了也直接毕业了

什么？“乳酸化”还没开始做又出来个“棕榈酰化”？还是各大顶刊新宠？生信挖掘发文空间还超大？这不得好好看看···

高水平生信研究到底有什么共性？咱能不能搞？

“双疾病分析”真是纯生信发文的绝佳思路！搭配机器学习1个多月发6分+！台湾学者这个双疾病选的挺妙，很容易复现，学起来~

Nat Commun|机器学习联手多组学简直杀疯了，14.7分纯生信直接拿下！不服来战~

哇塞！36 岁的杰青副院长江一舟教授太牛了，本月2篇12 分+多组学分析齐发，复旦附属肿瘤医院科研天团实力非凡！

硕士看了流泪，导师看了沉默！本科生一作0实验发5分+纯生信！代谢重编程+机器学习很好复现，硕士做了也直接毕业了

网络毒理学搭配对口2区6分+生信友好刊，效果绝了！西交大3201医院团队抓住新风口，联手机器学习发Top刊，你来也可以！

一分钟讲清什么是网络药理学

热点丰富到爆！济宁市第一人民医院1区网药文：网络药理学+单细胞分析+MR+代谢组学，亮瞎审稿人双眼，7 分+根本不够看！

22天发14分Nat Commun，就靠15个样本的单细胞测序，这是什么实力啊！单细胞不愧是生信真顶流，浙大一附院团队够厉害！

IF 35.5！单细胞测序依然YYDS！把“单细胞+代谢应激+巨噬细胞”这个王牌套路学会，Circulation也能手到擒来！

每个生信人都需要一台服务器

这么city的MR发文思路，你能不看？天津大学邹映雪团队：孟德尔随机化+共定位分析+分子对接，3图拿下6+，分分钟复刻，速围观

为什么别人的孟德尔随机化一发一个10分+，而你复现了高分却屡投屡拒？连最关键的一步都不清楚，还做什么MR分析

厉害了，液液相分离！最简单的预后模型+qPCR验证就能发2区5分+，发文空间超大，2个多月接受，上海肺科医院团队赢麻了！

生信大神都在用的生信服务器，好东西值得试试，双十一入手超划算！

单细胞分析1个月搞定6分+纯生信，遇上肿瘤转移直接“封神”，不用测序真的香，直接拿去复现！

22天发14分Nat Commun，就靠15个样本的单细胞测序，这是什么实力啊！单细胞不愧是生信真顶流，浙大一附院团队够厉害！

中医药+肿瘤就是王炸！山东大学团队靠网药+代谢组学+孟德尔，2个月轻松摘下1区7分+，IJBM生信友好刊果然好发！

硕士看了流泪，导师看了沉默！本科生一作0实验发5分+纯生信！代谢重编程+机器学习很好复现，硕士做了也直接毕业了

生信大神都在用的生信服务器，好东西值得试试，双十一入手超划算！

亮瞎审稿人双眼！单细胞分析+机器学习+MR分析，纯生信发2区6分就是如此简单！不用费劲找选题，玩的就是联合思路，懂得进！

Nat Commun|机器学习联手多组学简直杀疯了，14.7分纯生信直接拿下！不服来战~

IF=11.4，妥妥的新思路，恭喜复旦团队纯生信发顶刊！UKB数据库分析+孟德尔随机化+机器学习的联合思路果然牛，突破内卷就用它

老师，别让你的得力干将维护生信服务器了

我心中“中医药”天花板思路来袭，药食同源持续上分！网药+分子动力学+动物实验凭实力出圈，干湿结合轻松get一区7分+！

纯生信修回，审稿人要求补充验证实验，我该怎么办？

单基因分析out了？NoNoNo！文章/标书双赢！安徽医科大这波亮眼操作：机器学习+公共数据挖掘，换个疾病又是一篇~

GEO挖够了？来NHANES新赛道！机器学习挑大梁，集结两大发文利器，纯生信3个月斩获Q1区，河北农大团队赢麻了！

一步一步教你安装 Jupyter Notebook，让Python更简单

纯生信搭配“毕业神刊”，一发一个不吱声！生信全家桶：线粒体基因+多组学+机器学习+孟德尔随机化！热点堆堆乐，不做实验照样起飞！

22天发14分Nat Commun，就靠15个样本的单细胞测序，这是什么实力啊！单细胞不愧是生信真顶流，浙大一附院团队够厉害！

IF 31.7/ 子刊，饮食习惯并不是造成痛风的主要原因！青岛大学团队权威研究：遗传才是痛风的罪魁祸首！

听说审稿人就喜欢有Graphical Abstract 的文章，学会它，别让论文输在起跑线上！

硕士看了流泪，导师看了沉默！本科生一作0实验发5分+纯生信！代谢重编程+机器学习很好复现，硕士做了也直接毕业了

机器学习是真热啊！“纯生信+机器学习”简单分析就荣登1区7.7分，IJBM杂志真宝藏刊—接收纯生信、审稿快，快来薅羊毛吧！

师弟逆袭记：如何通过租服务器，从实验室新手到生信专家的华丽转身

生物信息学：一把未来科研的金钥匙

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

​GEO挖够了？来NHANES新赛道！机器学习挑大梁，集结两大发文利器，纯生信3个月斩获Q1区，河北农大团队赢麻了！

GEO挖够了？来NHANES新赛道！机器学习挑大梁，集结两大发文利器，纯生信3个月斩获Q1区，河北农大团队赢麻了！