NHANES 数据做复杂抽样加权多因素回归出现 P 值为 NaN 怎么办

文摘科学 2024-08-21 08:00 北京

NHANES 采用了分层四阶段抽样设计，因此在统计分析时，多采用 R 软件 survey 包，进行复杂抽样加权分析。

有不少同学在进行多因素回归分析时，当自变量较多时，R 软件给出的回归结果，所有 P 值均为 NaN，举例如下：

library(survey)
load("./data_frame.RData")
data_frame <- data_to_save
# Constructing a complex survey design objectsvy_design <- survey::svydesign(  strata = ~SDMVSTRA,   id = ~SDMVPSU,   weights = ~WTINT2YR,   nest = TRUE,   data = data_frame)
# Fitting a survey-weighted logistic regression modelmod <- survey::svyglm(  RIAGENDR ~ DMDHRGND + DMDCITZN + SIALANG +     DMDHRAGZ + RIDRETH3 + DMDHRMAZ + INDFMPIR,   family = binomial(),   design = svy_design

运行结果如下：

软件提示 Zero or nagative residual df; p-values not defined

到这里，很多同学懵圈了，不知道下一步怎么办了。

这里我们查阅了survey包的说明书，也和survey包的作者在github里做了交流，我们避开晦涩的统计术语，用临床医生听得懂的话给大家解释一下：

发生这个情况的原因是，模型残差自由度消耗为零。通常由于自变量个数比较多，但样本量又不够大的情况。如何处理呢？

首先是减少自变量的个数。但很多同学并不乐意这么做。那就采用其他理论来设置模型残差的自由度。具体原理如下：

可以在summary(model) 的时候，强行设置模型残差的自由度 df.resid。

1）当不指定 df.resid 时，软件使用 Korn 和 Graubard 推荐的方法计算空模型的自由度（df），通过减法计算残差自由度。这对于 PSU 水平的协变量是正确的，但对于个体水平的协变量可能非常保守。

结果如上图

2）使用 df.resid = degf(result$survey.design) 可计算 PSUs 减去 strata 的数目来获得残差自由度。

结果如下：

3）使用 df.resid = Inf 可基于正态分布进行检验

结果如下：

这样，P 值就计算出来了。

官方对上述方法的评价原文：

If df.resid is not specified the df for the null model is computed by degf and the residual df computed by subtraction. This is recommended by Korn and Graubard and is correct for PSU-level covariates but is potentially very conservative for individual-level covariates. To get tests based on a Normal distribution use df.resid=Inf, and to use number of PSUs-number of strata, specify df.resid=degf(design).

如果觉得以上表述太复杂，也可以用一个傻瓜软件 Mstata 来一键解决问题：

软件位于 www.mstata.com 进入软件后选 “复杂抽样加权（NHANES等）” 下拉菜单，选 “单因素多因素分析” 模块。

我们看到该软件在做复杂抽样加权回归的时候，有个这样的选项：

在选第一个默认设置的时候，有时候会出现残差自由度为零，多因素分析没有 P 值的情况：

软件自动给出了红色报警文字提示，一键修改设置后：

再点分析按钮，则顺利显示多因素分析 P 值：

真是方便得不要不要的。

同时，软件也内置了上述过程的源代码在附件里，需要留底给审稿人的，直接复制软件自动生成的 R 源代码保存即可。

http://mp.weixin.qq.com/s?__biz=MzkwNTM5MzE4MA==&mid=2247487937&idx=1&sn=419eebb94ba8cf6fef23d911f80ca7a5

真实世界数据

介绍真实世界数据，真实世界研究和真实世界证据

最新文章

关于MSTATA免费版宕机的说明

拷贝一篇论文的基线表 Table 1 并一键模拟生成相应的原始数据库

一键自动生成符合预期统计结果的医学研究数据库：模拟研究的理论和实现

中介分析的实现与多个 R 包横向测评

开源啦：鼠标一秒生成中介分析 mediation R 代码（非chatGPT)

一键生成回归模型拟合后的公式（表达式）

一键完成 P for trend 的统计分析表格

开源啦：一键生成基线表 Table 1 同时自动生成 R 源代码，学术严谨、无惧黑箱！

一键完成 Landmark 生存曲线（复杂抽样加权，NHANES数据库）的绘制

一键完成复杂抽样加权（NHANES 等）Kaplan-Meier 生存曲线的绘制：

一键完成复杂抽样加权（NHANES 等）回归分析的亚组（分层）分析及森林图的绘制

NHANES 复杂抽样加权：为何层内 PSU 只有 1 个时 R 软件会报错？

NHANES 数据做复杂抽样加权多因素回归出现 P 值为 NaN 怎么办

当分组变量是一个连续性变量，怎么自动做亚组（分层）分析？

一键完成亚组（分层）分析及其森林图，支持连续性及二分类的自变量了！

一键完成单因素+多因素竞争风险模型分析

MSTATA 升级至 0.93 版，使用 docker 预启动技术

一键生成NHANES等复杂抽样加权的基线表（Table 1）

告别长时间加载, MSTATA医学统计机器人0.93版预告

一键完成NHANES复杂抽样加权的单因素+多因素回归分析并自动生成R代码

有序分类 Logistic 回归 R 包横向测评及自动代码生成 AI 工具介绍

为何SPSS计算的中位生存期，是10个月，而R计算的中位生存期，是18个月？

基线表（Table 1）里的值到底应该保留几位小数

基线表（Table 1）如何一键增加显示统计量（t 值，卡方值、F值等）

重磅！一键自动秒生产 10+分 SCI 新套路：什么人群治疗有效？治疗组和连续性变量交互作用的立方样条图

一键生成多模型（调整不同的协变量）比较的论文发表级表格

一键生成确证性影响因素研究（调整、不调整协变量的回归）的发表级统计表工具

双结局展现在同一个亚组森林图！从Excel结果数据到华丽森林图一键转换

亚组分析森林图生成器万能加强版

一键自动生成临床试验不良事件 AE 表格

MSTATA 0.92版预览

医院行风建设背景下，医生如何进行风险管理？

MSTATA 改版倒计时

一键自动生成 Cox-nomogram 临床预测研究 SCI 论文

MSTATA 智能版取得重要突破

外部验证集的AUC比训练集还大，正常吗

陆续公布统计软件的源代码

勘误：在外部验证集绘制 ROC、Calibration 校准曲线和 DCA 曲线的 R 源代码

在外部验证集绘制 ROC、Calibration 校准曲线和 DCA 曲线的 R 源代码

Mstata 全新颠覆性的版本将在新年上线

医学科研中连续性变量离散化的原因和价值

请选择开放分析源代码的统计分析平台

如何自动得到亚组分析森林图，并显示Events/N

基线表模块升级：根据Q-Q图判断正态性并选择统计方法

超强！一键完成中介效应分析并自动生成投稿级别的论文表格

一键生成十种绚丽色彩的临床基线特征表PPT

当分类变量的分组数量>20时，还能放入回归模型吗

Mstata访问故障的公告

GPT终于可以根据用户自己上传的临床数据一键生成可投稿级的SCI 论文了

MSTATA为什么最近没有更新

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉