每个NHANES数据挖掘，都要权重计算！（附系列推文）

学术健康 2025-01-03 00:07 上海

往期推荐

【NHANES教程】（一）简介和数据下载

【NHANES教程】（二）提取变量和合并数据

【NHANES教程】（三）NHANES结合孟德尔随机化揭示肾结石的因果关联

【NHANES教程】（四）数据集清洗

【NHANES教程】（五）绘制基线表Table1

【NHANES教程】（六）创建新变量和描述性分析

为了更好地帮助大家掌握临床研究和NHANES数据挖掘，柠檬从临床研究基本概念说起，结合相关文献和NHANES相关论文；同时，把NHANES数据下载、清洗、整合和可视化等实操内容做成系列课程。本次，我们重点讨论NHANES数据挖掘中的权重计算。

对于多组数据的统计分析，非正态分布或方差不齐的数据，采用U检验或H检验；对于正态分布，且方差齐的数据，采用 t 检验或ANOVA。上述数据分析有个默认前提，每个样本被抽到的概率是相等的，属于简单随机抽样。但是，NHANES采用的是复杂多阶段抽样(counties、segments、household和individual)，每个样本被抽到的概率并不相等，各阶段抽样数据也不独立。因此，在处理NHANES数据时，采用还常规的统计方法（描述性统计：如均值、标准差、百分比；统计推断和模型：如区间估计、T 检验、方差分析、回归等）分析会出现问题。

IMPORTANT NOTE

For NHANES datasets, the use of sampling weights and sample design variables is recommended for all analyses because the sample design is both a clustered design and incorporates differential probabilities of selection. If you fail to account for the sampling parameters, you may obtain biased estimates and overstate significance levels.

在下载nhanes数据时，除了需要下载参与者的信息外，还需要下载抽样调查相关信息（weight，strata，psu）。之所用要下载这部分数据，就是为了在正确分析数据之前，先告诉统计软件nhanes的抽样设计是复杂多阶段抽样。

nhanesDesign <- svydesign(id      = ~psu,                          strata  = ~strata,                          weights = ~persWeight, #NHANES数据分析中weight需要提前计算                          nest    = TRUE,                          data    = nhanesAnalysis)

那么，多周期合并时样本权重如何计算呢？基本原则是以样本数量最少的变量对应的权重进行校正。对于多周期权重计算：1999-2002 四年的样本，使用数据集中四年权重，如wtint4yr、wtmec4yr；2001-2002及以后的样本权重，乘以相应的比例即可。

具体来说，所有变量都在in-home interview中收集，采用wtint4yr；一些变量是在MEC中收集，采用wtmec4yr；一些变量是调查子样本的一部分，采用相应子样本的权重，如研究变量中有空腹甘油三酯（接受检测的人大约是接受MEC检查的样本的一半），采用wtsaf4yr，多周期的话要注意使用合并权重；一些变量来自24小时饮食召回（24-hour dietary recall）：变量来自第一天recall，采用wtdrd1；变量来自第二天recall，采用wtdr2d，多周期的话要注意使用合并权重；计算好之后将最终权重数据传入svydesign()方法中weigths，即完成了抽样方式的设置。后面，就可以进行后续的分析了。

https://wwwn.cdc.gov/nchs/nhanes/tutorials/default.aspx

关于NHANES数据挖掘，国内有些教程做得不错。其实，标准流程就在NHANES官网。把这个流程弄清楚，搞明白，不仅是学会了NHANES数据的处理，也有助于建立临床思维。

参考资料：

https://blog.csdn.net/weixin_40563866/article/details/120291633
https://www.jianshu.com/p/bd8ebbd68250
https://mp.weixin.qq.com/s/tUvxF8hSc1exff00c5lz4g

芒果师兄

1.生信技能和基因编辑。2.论文发表和基金写作。3. 健康管理和医学科研资讯。4.幸福之路，读书，音乐和娱乐。

最新文章

m6A甲基化是咋影响癌症治疗耐药性的？

十二讲03.探究肿瘤遗传学，就抓分析

新玩法！孟德尔随机化+多组学数据整合分析泛癌生物标志物-TGS1

每个NHANES数据挖掘，都要权重计算！（附系列推文）

梅开二度，更上层楼！王福俤教授的2024！

2025，让生信更落地的利器来了！

十二讲02.探究肿瘤微环境，就抓循环！

免疫治疗新进展—靶向癌症中CD8 T细胞和NK 细胞代谢紊乱

思路推荐！三个临床病例竟能发Nature！

文末福利！与WGCNA、差异分析媲美的时间序列分析Mfuzz！

专注肿瘤三大方向！生信大牛王凌华的2024！关于肺腺癌上皮细胞图谱，尤其出彩！

十二讲01.探究肿瘤的本质，就抓表型

大讨论！肺癌单细胞注释，肥大细胞和髓系细胞可以同时出现吗？

Nature Aging｜揭秘-逆转衰老对免疫抑制的关键！

Nature上是怎么研究TAGLN2的？

重生之生信服务器的救赎

似曾相识！上海九院这篇鉴定头颈肿瘤中新类群的研究，共培养实验做得真棒！

空间组学，定位真的很重要！

孟德尔随机化思维在闪耀！PCSK9 突变驱动肿瘤转移上顶刊！

空间组学！Xenium是个啥？

T 细胞表观重编程上Science！代谢驱动的！

空间组学！Visium是个啥？

牛！重新利用大型微阵列以实现可扩展的空间转录组学

博士到院士有多远，万水千山！

TREM2：胶质母细胞瘤中的新发现，为癌症免疫治疗带来新机遇！

空间组学！CODEX是个啥？

B 细胞表观重编程上Cell，这次是免疫逃逸！

肿瘤异质性，分三个层面可好？！

Immunity！清华伉俪揭示自身免疫病中 B 细胞的表观重编程！

肿瘤干细胞存在吗？做成瘤实验！

科学大发现 | 肿瘤表达CD24，与巨噬细胞上的Siglec-10互作，逃逸抗肿瘤免疫反应

缺氧肿瘤微环境，真的存在吗？请查阅《癌生物学》p637！

这篇Science，打法跟王凌华团队的有点像

肿瘤免疫12讲 (下)，肿瘤的治疗！

赢麻了！一周内发Cell、Nature和Science论文各一篇！这样的西湖大学，光芒万丈！

重磅！Nature揭秘抗衰关键竟是它！

肿瘤免疫12讲 (中)，肿瘤的转移！

“细胞衰老实验”指南来咯！

肿瘤免疫12讲 (上)，肿瘤的发生！

王福俤教授应邀任Cell Metabolism编委！可喜可贺，凭实力入围！

肿瘤微环境的几个特征！从缺氧到酸性，再到代谢重编程，好像都挺热门的！

举报论文造假是不是成了一门生意？！

Cancer Cell | 曹雪涛院士团队新发现！CD28 促进 PD-L1 介导的免疫逃逸

这泼天富贵会落到新一代病理上吗？！mIHC+NGS联合检测或将重新定义肿瘤诊断！

Circulation重磅：上海交通大学揭秘NPM1分子心脏修复新机制

GWAS找表型+多组学定机制！这篇Nature找到调控巨噬细胞炎症反应的核心基因！

代谢分析，让单细胞数据更出彩！感谢吴博开发的scMetabolism包，能修正下就更好了~

靴子落地！eLife 93%文章将继续被WOS收录！

【芒果速递】杀伤性 T 细胞竟促进肿瘤进展

经典综述 — 肿瘤干细胞标志物

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉