利用NHANES数据库发SCI？这个方法太火了（一）

文摘科学 2024-05-16 21:02 湖南

大家好！全新meta分析教程开课了，细节拉满，长期更新，一完就会。欢迎有meta分析学习和发文需求的老师和朋友订阅！目前已更新2集，文章链接：

1、PROSPERO注册平台快速注册小秘籍；

2、Meta分析的统计异质性检验，你真的能解读清楚吗？

借助NHANES数据库发文的热度依然不减，对SCI有想法但手里头又没有合适的数据的老师或者同学，真的可以考虑好好筹备一番，抓住“福利的尾巴”。

从NHANES数据库中挖掘特异性的指标，然后将其与疾病相关联，是常用的思路。最近几年，“Mixture analysis”（混合物分析）发展壮大，随之而来的是几种统计分析方法，现在已经发展为大热或必备方法（或者，该称之为惯用套路），例如：

加权分位数和（Weighted quantile Sum，WQS）回归；

贝叶斯核机回归（Bayesian Kernel Machine Regression，BKMR）。

前段时间，我们对此做了简单的介绍，还不太了解的朋友可以先看看前面发布的文章：

2区SCI！使用贝叶斯核机回归进行NHANES数据库分析

本次分享如何实现加权分位数和（WQS）回归。

一、连续变量的WQS回归

WQS回归是一种对高维数据进行多元回归的统计方法，具有环境暴露、表观/基因组学和代谢组学等中常见的复杂相关模式。该模型构建了一个经验加权指数，估计预测变量（暴露）对结果的混合效应，然后可以在具有相关协变量的回归模型中使用该指数来检验指数与因变量或结果的关联。每个单独的预测变量对总体指数效应的贡献可以通过估计权重的相对强度来评估，因为这些成分是量化的，因此处于同一尺度上。检简言之，WQS可以有效避免传统回归分析方法对多重共线性等处理不足的缺点。

R包“gWQS” 将 WQS 回归扩展到具有连续和分类结果，并实现了随机子集 WQS 和重复保持 WQS，可以输出预测变量总体指数效应的参数估计和显著性检验，以及分配给每个预测变量的估计权重，这些权重确定每个变量对WQS指数和结果变量之间关系的相关贡献。

接下来，笔者将以“gWQS”工具包作者提供的示例作为参照，为大家分享具体分析步骤。

数据集：采用R包内置的示例数据进行分析。

# 查看内置的示例数据，yLBX是连续型的因变量,ybinLBX是二分类变量str(wqs_data)help(wqs_data)
# 提取混合变量(要研究的自变量)PCBs = names(wqs_data)[1:34]

先做个探索性建模，看看混合变量对结局变量的影响是正向还是反向。

# 建模# yLBX是因变量，pwqs表示正向效应，nwqs表示负向，#  mix_name是混合变量名# q指定分位数，validation指定验证集占比# b指定bootstrap次数（建议增加到最少100）# rh是重复次数（建议增加到最少100）# family指定分布类型（此处为高斯即正态分布）res1 = gwqs(yLBX ~ pwqs + nwqs, mix_name = PCBs, data = wqs_data,                   q = 10, validation = 0.6, b = 5, b1_pos = TRUE, rh = 2,                  family = "gaussian", seed = 123)
summary(res1)

代码的解释在上述方框内部，结果如下：

因为此建模函数底层是glm，所以直接summary就可以出来结果。直接看pwqs和nwqs的置信区间，可见pwqs显著，nwqs不显著。

可视化结果：

# bar plotgwqs_barplot(res1)# scatter plot y vs wqsgwqs_scatterplot(res1)# scatter plot residuals vs fitted valuesgwqs_fitted_vs_resid(res1)# boxplot of the weights estimated at each repeated holdout stepgwqs_boxplot(results2i)

第一张是变量重要性图，看着跟随机森林的类似。第2和第3张是常见的回归诊断。最后一张是多次采样的估计权重误差。这些图美观性差点意思，可以提取相关结果，通过ggplot2自行绘制好看的图。

# 获取估计权重的确切值head(res1$final_weights)
# WQS回归的权重表gwqs_weights_tab(res1)

ggplot2绘图步骤略。简单展示：

由于负向效应不显著，所以可以直接拟合下面的模型。

res2 = gwqs(yLBX ~ wqs, mix_name = PCBs, data = wqs_data,             q = 10, validation = 0.6, b = 5, b1_pos = TRUE, rh = 2,            family = "gaussian", seed = 123)
summary(res2)

二、增加协变量

很简单，直接在公式右侧加，以sex为例，该变量已经因子化处理了。

res3 = gwqs(yLBX ~ wqs + sex, mix_name = PCBs, data = wqs_data,                   q = 10, validation = 0.6, b = 5, b1_pos = TRUE, rh = 2,                  family = "gaussian", seed = 123)summary(res3)

控制性别后，wqs还是显著的。绘图及其他步骤与上述的一样。

三、二分类变量的WQS回归

res4 = gwqs(ybinLBX ~ wqs, mix_name = PCBs, data = wqs_data,              q = 10, validation = 0.6, b = 5, b1_pos = TRUE, rh = 2,             family = "binomial", seed = 123)summary(res4)

这里可以来个有意思的指标（ROC曲线）。

gwqs_ROC(res4, wqs_data)

同样的，如果对默认给的图不满意，可以自己美化。

最后，还有其他扩展功能，比如说在建模时可以进行lasso正则化，对于变量数太多的情况，可以考虑对系数进行压缩。限于篇幅，这里就不展示了。

分享到这里就结束了，统计分析的发展真的很快，恰好笔者本人也喜欢看文献，边看边探索，不嫌弃的话，大家可以关注我们公众号，并建议把我们的公众号设为星标，有进展会第一时间跟大家分享。

小提醒：笔者水平有限，上述内容如有不当之处，还望海涵。如果你在科研学习中遇到了疑问，恰好也想跟网友们交流，可以加入我们建立的“护理科研交流群”。这是一个完全自由、开放、免费、没有套路的纯交流群。加群方式：后台私信关键词“加群”。

参考文献：

[1]R包'gWQS'的帮助文档。

[2]https://renzetti.r-universe.dev/gWQS/doc/manual.html

封面和正文图片来自R软件输出结果，本文仅供学习、分享使用，如有侵权，请联系我们删除，谢谢。

护理统计随笔

专注护理科研设计和统计分析。别人不会告诉你的干货，可以来这里找！

最新文章

护理科研选题的全新视角：离散选择实验

比随机森林强! 利用catboost做临床预测模型

顶刊都在用！基于LightGBM的临床预测模型实现方法

附详细的实操步骤：临床预测模型Meta分析（老歌新唱）

xgboost + shap可加性解释（R版本）：优秀的机器学习解决方案

还在做系统评价吗？证据图谱可以学起来了

还在纠结要不要做质性研究吗？Q方法了解下

轻松+愉快！在线版meta分析工具

这篇发在核心期刊的体位相关meta分析到底有何特色？

实操来了！轻松搞定预测模型类别不平衡问题

小白快速成长秘诀：看文献不要只看结果，要学会从中提炼未曾注意的细节！

我们正式开通一对一辅导、论文审稿与数据分析服务

预测模型小白入门：不平衡数据与处理方法

我们正式开通一对一辅导、论文审稿与数据分析服务

预测模型研究中，机器学习到底是怎么一回事？（小白入门版）

最后一波！我们组织的Meta分析小班课明日开课，请速度上车！

想学症状群轨迹分析的同学看过来！

我们自己组织的小班课来啦！Meta分析特训小班课！

护理北核！轻松搞定潜在剖面分析！（小白入门版）

我们自己组织的小班课来啦！Meta分析特训小班课！

纵向数据+风险预测模型？这种思路很有意思

论文审稿/数据分析，专业团队助你一臂之力

Meta分析难题：如何对图形数据进行提取？

小白优选！Meta分析特训班，欢迎零基础同学报名！

训练营来啦！Meta分析特训班，欢迎报名！

吐血整理!最新版护理类SCI期刊的影响因子来了！

有了这个工具，做meta分析速度起飞！

全体护理人员终于盼到了！报考在职研究生，专科起报！双证毕业！

风险预测模型：开发七个步骤和用于验证的 ABCD

论文审稿/数据分析，专业团队助你一臂之力

小白系列：方案构建及应用竟然如此简单？对中华护理杂志文献的解读

小白系列：如何撰写随机对照试验护理论文——基于中华护理杂志文献

小白系列：通过拆读中华护理杂志的文献，带你入门网络分析！

Meta杀手锏！Meta分析之数据转化（一）

SCI分享！利用增长混合模型对患者报告结局数据进行纵向分析

国内护理系统评价的报告质量分析

主客体互倚模型看这篇就够了！附完整流程

一种非常棒的研究思路，推荐给大家

潜变量增长模型——基于Mplus软件的实现方法

研究生第10节课：医学研究中常见的综述类型

纵向研究之变化轨迹：R语言实现

各有千秋！利用三种主流统计软件建立线性混合效应模型

利用NHANES数据库发SCI？这个方法太火了（一）

非常不错的思路，纵向研究变化轨迹还可以这样分析？

Meta分析的统计异质性检验，你真的能解读清楚吗？

又见轨迹研究？潜类别增长模型分析步骤

一区TOP征稿：Prediction Models and Clinical Outcomes

还在手动做描述统计和单因素分析？这个方法不错

2区SCI！使用贝叶斯核机回归进行NHANES数据库分析

PROSPERO注册平台快速注册小秘籍

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉