一键完成复杂抽样加权（NHANES 等）Kaplan-Meier 生存曲线的绘制：

文摘科学 2024-09-13 08:00 上海

本文介绍了利用 MSTATA 软件，一键完成复杂抽样加权（NHANES 等数据库）Kaplan-Meier 生存曲线的绘制。

NHANES 等数据库，因为使用了复杂抽样设计，因此在进行生存分析和绘制生存曲线时，需要 R 软件 survey 包 svykm 函数，平时使用的生存曲线绘制工具派不上用场。而 svykm 包直接绘制的生存曲线极其简单和丑陋。因此我们需要更加傻瓜的工具来完成复杂抽样加权的生存曲线绘制，将 svykm 的结果，用 ggplot2 进行加强型的绘制。这样绘制的漂亮曲线，可以用 PDF 或 PPT 进行随意编辑。

软件在 www.mstata.com 进入后选择“复杂抽样加权（NHANES等）” 数据库专用分析菜单下面的“复杂抽样加权 Kaplan-Meier 生存曲线” 模块进行。

Kaplan-Meier 生存曲线（复杂抽样加权）

一键完成复杂抽样加权（NHANES 等）Kaplan-Meier 生存曲线的绘制：

复杂抽样设计

许多调查使用复杂抽样设计而非简单随机抽样。这有多种原因。例如，如果构建列出总体中每个单位的抽样框架很困难或可能导致错误，可以使用多阶段抽样，先抽取较大且易于列出的单位群体，然后在每个群体内调查某些或全部单位，这样可以在现场构建准确的抽样框架。在多阶段抽样中，首先抽取主抽样单位（PSU）（例如，家庭），然后在每个PSU内抽取单位（例如，家庭中的个体）。当然，可以有超过两个阶段的抽样。早期阶段的单位形成簇。

另一个使用复杂抽样设计的原因是简单随机样本可能会导致某些感兴趣的子群体样本量过小。例如，如果关注种族/民族特定的平均血压，研究人员可能希望增加较小子群体的样本量。简单随机样本可能会导致多数种族/民族的样本量较大，而少数群体的样本量较小。与其增加总体样本量以确保较小群体的足够样本量，不如使用不等概率抽样对大群体进行欠抽样，对小群体进行过抽样，这样更具成本效益。

一种不等概率抽样的方法是在一些多阶段抽样设计中按比例概率抽样（PPS），其中较大的PSU有更大的被选中概率。另一种是分层随机抽样，即首先将总体非随机地分成若干层（例如，地理区域），然后在每层内进行简单随机抽样。将总体分层成不等大小的层，然后在每层内进行简单随机抽样，会导致不等概率抽样，因为较小层中的个体有更大的被选中概率。

NHANES

国家健康与营养检查调查（NHANES）是一个具有复杂设计的调查的例子。

NHANES样本不是简单随机样本，而是使用复杂的多阶段概率抽样设计来选择参与者，以代表美国民间非机构化人口。还对某些人口子群体进行过度抽样，以提高这些特定子群体健康状况指标估计的可靠性和精确性。研究人员需要在分析中适当指定抽样设计参数。

简而言之，NHANES采用了分层四阶段抽样设计。首先，根据人口普查区域和其他地理信息构建分层（非随机）。在每个分层内，随机选取美国县（PSU），较大的县有更大的被选中概率。在县内，按比例选取街区。在街区内，随机选取家庭，并对某些年龄、种族和收入群体进行过度抽样（较高的选中概率）。最后，在家庭内随机选取个体。有关NHANES复杂抽样设计的完整描述，请参见官方NHANES教程。

NHANES网站提供了使用survey软件包分析NHANES数据的示例R代码，以及在分析NHANES数据时的一些特殊考虑。

准备数据

NHANES数据的下载地址在 https://wwwn.cdc.gov/nchs/nhanes/

这里我们可以点击下方下载一段样例数据片段来做测试：

下载csv样例数据（右击另存为）

数据集中包含以下变量以考虑抽样设计：

分层变量（SDMVSTRA）：
主要抽样单位（SDMVPSU）
访谈抽样权重（WTINT2YR）
检查抽样权重（WTMEC2YR）
空腹子样本抽样权重（WTSAF2YR）：

本例中做生存曲线的相关变量：

asthma：0和1，0 表示该随访对象随访结束时没有罹患哮喘；1 表示该调查对象随访结束时罹患哮喘

asthma_year：该随访对象从出生后经历多少年发展为哮喘（没有哮喘则填随访结束时的年龄）

在使用NHANES数据时，请务必查阅相关数据文档和代码手册，以确保使用适当的抽样权重。

使用方法

进入软件界面，首先进行如下设置：

设置复杂抽样参数

请按照以下步骤设置您的复杂抽样参数：

选择分层变量

在设置界面中，找到“请选择代表分层（strata）的变量”选项。
从下拉菜单中选择一个变量，该变量代表数据中的分层信息。例如，在NHANES数据库中，这个变量通常是SDMVSTRA。
背景知识：分层抽样（Stratified Sampling）是一种将总体分为若干个互不重叠的层，然后在每个层内进行随机抽样的方法。这种方法可以提高估计的精确性，特别是在总体内部具有较大异质性的情况下。例如，在NHANES中，不同地理区域（如不同的州或县）可能存在健康状况的差异，通过分层抽样可以确保每个区域的代表性。
如果您的数据不需要分层，请选择“无”。

选择主抽样单位（PSU）变量

选择完分层变量后，系统会自动弹出“请选择代表主抽样单位（id）的变量”选项。
从下拉菜单中选择一个变量，该变量代表数据中的主抽样单位（PSU）。例如，在NHANES数据库中，这个变量通常是SDMVPSU。
背景知识：主抽样单位（Primary Sampling Unit, PSU）是多阶段抽样中的第一层单位。在NHANES中，PSU通常是县或县级等价单位。在每个PSU内，再进一步抽取次级单位（如家庭或个人）。这种方法可以减少调查成本，提高抽样效率。
确保所选变量不同于分层变量。

选择权重变量

访谈权重（WTINT2YR）：如果您的分析仅使用在访谈中收集的数据，则选择此权重。每个参与者都接受了访谈，因此每个人的访谈抽样权重都大于0。
检查权重（WTMEC2YR）：如果您的分析包含体检数据，则应选择此权重。大多数参与者在移动检查中心（MEC）接受了体检，收集了客观测量数据。
空腹子样本权重（WTSAF2YR）：如果您的分析包含空腹血液测量数据，则应选择此权重。只有部分参与者在空腹状态下提供了血液样本，因此需要使用相应的权重进行调整。

选择完PSU变量后，系统会自动弹出“请选择代表权重（weights）的变量”选项。
从下拉菜单中选择一个权重变量。权重变量有助于确保样本的代表性。在NHANES数据库中，常见的权重变量有WTINT2YR、WTMEC2YR等。
背景知识：权重（Weights）是用于调整样本统计量以反映总体参数的因子。在复杂抽样设计中，由于不同单位被抽中的概率不同，直接使用样本统计量可能会产生偏差。权重的作用是校正这种偏差，使估计值更接近于总体参数。例如，在NHANES中，不同个体的被抽中概率不同，通过使用合适的权重，可以确保结果具有全国代表性。
选择权重的指南（简化版，仅做示例）：
注意：选择权重变量非常复杂，以上只是一个简要规则，实际规则比这个复杂，请务必登录和参考NHANES官网的说明书，对于选择哪个权重有详细的规则说明，以确保选择适当的权重。

处理权重缺失值

将权重缺失值用0填充
将权重缺失的数据整行删除
将权重缺失以及权重≤0的数据整行删除（Cox回归请勾选此项）

在权重变量选择下方，您需要选择如何处理权重变量中的缺失值。
选项包括：
背景知识：在调查数据中，权重缺失值可能会影响分析结果的准确性。不同处理方法可以应对不同的分析需求和数据质量问题。例如，将缺失值填充为0可以保留数据行，但可能导致偏差；而删除权重缺失的数据则可以提高结果的准确性，但会减少样本量。

设置嵌套集群标识（Nest）

选择是否应用嵌套集群标识。如果您的数据集的ID值在分层中是嵌套的（如NHANES数据库），推荐选择“是”。
选择“是”可以确保在每个分层内，集群ID是唯一的，避免分析时出现问题。
背景知识：嵌套集群（Nested Clusters）是指在复杂抽样设计中，主抽样单位ID在不同分层内可能重复。通过设置嵌套集群标识，可以确保每个分层内的集群ID是唯一的，从而避免在数据分析时出现混淆和错误。例如，在NHANES中，不同地理区域可能有相同的PSU ID，通过嵌套设置可以确保分析的准确性。

6. 分组生存曲线

用户可以选择生成：

总体生存曲线：不区分组别的生存曲线。
分组生存曲线：按不同组别比较生存曲线。

当选择“分组生存曲线”时，需进一步选择代表分组的变量（如治疗组）。

7. 时间和状态变量的选择

时间变量：选择代表时间的变量，通常是从起始到事件（如死亡）发生的时间或末次随访时间。
状态变量：选择代表最终状态的变量（如 1 代表死亡，0 代表存活）。

8. 生存曲线生成

在所有变量选择完毕后，用户可以点击“生成/更新生存曲线”按钮，系统将根据设定绘制加权生存曲线。

点击后生成生存曲线。然后在右侧面板进行图像外观调整：

操作说明：生存曲线图像调整

在生成生存曲线图后，您可以使用右侧的面板进一步调整图像的外观和设置。以下是各个调整选项的操作说明。

1. 选择生存曲线类型

通过选择“生存曲线的类型”，您可以决定生存曲线的纵坐标样式：

传统下降 KM 曲线（常见于总体生存率或无进展生存率等）：显示的是生存概率，曲线随时间下降。
累计事件发生率（常见于疾病发病率等）：显示的是事件累计发生率，曲线随时间上升。

2. 曲线外观风格调整

您可以选择生存曲线的外观风格：

经典色不带背景网格：使用经典的颜色搭配，不显示网格线。
黄绿JAMA风格：使用黄绿色调的颜色搭配，并带有背景网格。

3. 选择曲线颜色搭配

您可以通过以下选项调整曲线的配色风格：

黑白风格：曲线以黑白色呈现。
彩色搭配：提供三种不同的彩色搭配供选择。

4. 线条风格调整

选择曲线的线条风格：

仅用实线颜色区分：不同的曲线通过颜色区分。
用实线与虚线区分：不同的曲线通过实线、虚线等线条样式进行区分。

5. 调整曲线粗细

通过滑块调整曲线的线条粗细。默认值为 1，可以根据需要调节，范围从 0.1 到 5。

6. 调整图像尺寸和边距

通过滑块调整图像的宽度和高度，以及左右空白边距：

图像宽度：设置曲线图的宽度，范围从 100 到 2000。
图像高度：根据不同分组数自动调整图像高度，您也可以手动设置。
左侧空白宽度：调整左侧空白，防止左侧文字被遮挡。
右侧空白宽度：调整右侧空白，防止右侧文字被遮挡。

7. 设置横纵坐标刻度

选择如何设置横纵坐标的刻度：

系统自动设定：软件自动根据数据计算刻度。
手动设定：您可以手动设置横纵坐标的刻度，包括：

横坐标轴的最小值和最大值。
横坐标轴每个刻度的长度。
纵坐标轴的下限和上限（一般在 0 到 1 之间）。

8. 设置坐标轴文字大小

通过滑块调整坐标轴刻度和标题的文字大小。

9. 坐标轴标题设置

您可以设置横纵坐标轴的标题文字：

横坐标标题：默认显示“Time (单位)”，您可以根据需要调整。
纵坐标标题：根据生存曲线类型自动调整为“Survival Probability”或“Cumulative Events”，也可以手动修改。

10. 纵坐标刻度单位

选择纵坐标刻度的单位格式：

小数表示：纵坐标用小数表示（如 0.5, 0.6）。
百分比表示：纵坐标用百分比表示（如 50%, 60%）。

11. 显示 Log-rank P 值

选择是否显示 Log-rank P 值：

如果选择显示，可以进一步设置 P 值在图中的位置和字体大小。

12. 显示风险人数表

选择是否显示风险人数表：

风险人数表：显示不同时间点各分组中仍处于风险中的人数。
如果选择显示，您可以调整表格的高度、字体大小，以及表格标题。

13. 显示 95% 可信区间

选择是否显示 95% 可信区间条带（阴影区域）。

14. 重置选项

如果需要恢复默认设置，您可以点击“重置并恢复到起始默认选项”按钮，图像设置将回到初始状态。

重要统计学概念解释

加权分析：复杂抽样数据通过权重调整来保证样本代表性，使推断更具外部有效性。
分层（strata）：数据被分为若干层，每层内抽样进行独立的随机化，以提高统计推断的效率。
主抽样单位（PSU）：复杂抽样设计中的基本抽样单位，用于方差估计和统计推断。
嵌套（nest）：确保主抽样单位在分层内的唯一性。
Kaplan-Meier 生存曲线：用于估计某个时间点的生存概率，特别适用于右删失数据。

http://mp.weixin.qq.com/s?__biz=MzkwNTM5MzE4MA==&mid=2247488051&idx=1&sn=448cdee8937d9614ff67b30cce05645b

真实世界数据

介绍真实世界数据，真实世界研究和真实世界证据

最新文章

关于MSTATA免费版宕机的说明

拷贝一篇论文的基线表 Table 1 并一键模拟生成相应的原始数据库

一键自动生成符合预期统计结果的医学研究数据库：模拟研究的理论和实现

中介分析的实现与多个 R 包横向测评

开源啦：鼠标一秒生成中介分析 mediation R 代码（非chatGPT)

一键生成回归模型拟合后的公式（表达式）

一键完成 P for trend 的统计分析表格

开源啦：一键生成基线表 Table 1 同时自动生成 R 源代码，学术严谨、无惧黑箱！

一键完成 Landmark 生存曲线（复杂抽样加权，NHANES数据库）的绘制

一键完成复杂抽样加权（NHANES 等）Kaplan-Meier 生存曲线的绘制：

一键完成复杂抽样加权（NHANES 等）回归分析的亚组（分层）分析及森林图的绘制

NHANES 复杂抽样加权：为何层内 PSU 只有 1 个时 R 软件会报错？

NHANES 数据做复杂抽样加权多因素回归出现 P 值为 NaN 怎么办

当分组变量是一个连续性变量，怎么自动做亚组（分层）分析？

一键完成亚组（分层）分析及其森林图，支持连续性及二分类的自变量了！

一键完成单因素+多因素竞争风险模型分析

MSTATA 升级至 0.93 版，使用 docker 预启动技术

一键生成NHANES等复杂抽样加权的基线表（Table 1）

告别长时间加载, MSTATA医学统计机器人0.93版预告

一键完成NHANES复杂抽样加权的单因素+多因素回归分析并自动生成R代码

有序分类 Logistic 回归 R 包横向测评及自动代码生成 AI 工具介绍

为何SPSS计算的中位生存期，是10个月，而R计算的中位生存期，是18个月？

基线表（Table 1）里的值到底应该保留几位小数

基线表（Table 1）如何一键增加显示统计量（t 值，卡方值、F值等）

重磅！一键自动秒生产 10+分 SCI 新套路：什么人群治疗有效？治疗组和连续性变量交互作用的立方样条图

一键生成多模型（调整不同的协变量）比较的论文发表级表格

一键生成确证性影响因素研究（调整、不调整协变量的回归）的发表级统计表工具

双结局展现在同一个亚组森林图！从Excel结果数据到华丽森林图一键转换

亚组分析森林图生成器万能加强版

一键自动生成临床试验不良事件 AE 表格

MSTATA 0.92版预览

医院行风建设背景下，医生如何进行风险管理？

MSTATA 改版倒计时

一键自动生成 Cox-nomogram 临床预测研究 SCI 论文

MSTATA 智能版取得重要突破

外部验证集的AUC比训练集还大，正常吗

陆续公布统计软件的源代码

勘误：在外部验证集绘制 ROC、Calibration 校准曲线和 DCA 曲线的 R 源代码

在外部验证集绘制 ROC、Calibration 校准曲线和 DCA 曲线的 R 源代码

Mstata 全新颠覆性的版本将在新年上线

医学科研中连续性变量离散化的原因和价值

请选择开放分析源代码的统计分析平台

如何自动得到亚组分析森林图，并显示Events/N

基线表模块升级：根据Q-Q图判断正态性并选择统计方法

超强！一键完成中介效应分析并自动生成投稿级别的论文表格

一键生成十种绚丽色彩的临床基线特征表PPT

当分类变量的分组数量>20时，还能放入回归模型吗

Mstata访问故障的公告

GPT终于可以根据用户自己上传的临床数据一键生成可投稿级的SCI 论文了

MSTATA为什么最近没有更新

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉