往期推荐
【NHANES教程】(一)简介和数据下载
【NHANES教程】(二)提取变量和合并数据
【NHANES教程】(三)NHANES结合孟德尔随机化揭示肾结石的因果关联
【NHANES教程】(四)数据集清洗
【NHANES教程】(五)绘制基线表Table1
【NHANES教程】(六)创建新变量和描述性分析
为了更好地帮助大家掌握临床研究和NHANES数据挖掘,柠檬从临床研究基本概念说起,结合相关文献和NHANES相关论文;同时,把NHANES数据下载、清洗、整合和可视化等实操内容做成系列课程。本次,我们重点讨论NHANES数据挖掘中的权重计算。
对于多组数据的统计分析,非正态分布或方差不齐的数据,采用U检验或H检验;对于正态分布,且方差齐的数据,采用 t 检验或ANOVA。上述数据分析有个默认前提,每个样本被抽到的概率是相等的,属于简单随机抽样。但是,NHANES采用的是复杂多阶段抽样(counties、segments、household和individual),每个样本被抽到的概率并不相等,各阶段抽样数据也不独立。因此,在处理NHANES数据时,采用还常规的统计方法(描述性统计:如均值、标准差、百分比;统计推断和模型:如区间估计、T 检验、方差分析、回归等)分析会出现问题。
nhanesDesign <- svydesign(id = ~psu,
strata = ~strata,
weights = ~persWeight, #NHANES数据分析中weight需要提前计算
nest = TRUE,
data = nhanesAnalysis)
那么,多周期合并时样本权重如何计算呢?基本原则是以样本数量最少的变量对应的权重进行校正。对于多周期权重计算:1999-2002 四年的样本,使用数据集中四年权重,如wtint4yr、wtmec4yr;2001-2002及以后的样本权重,乘以相应的比例即可。
https://blog.csdn.net/weixin_40563866/article/details/120291633 https://www.jianshu.com/p/bd8ebbd68250 https://mp.weixin.qq.com/s/tUvxF8hSc1exff00c5lz4g