当分组变量是一个连续性变量，怎么自动做亚组（分层）分析？

文摘科学 2024-08-17 17:35 北京

本文介绍了利用 MSTATA 软件，根据一个连续性变量（例如年龄）的值，任意输入不同切割点进行亚组分析，并自动生成亚组森林图，得到满足论文发表所需的的所有 word 图表，可以直接投稿。

在一项研究中，探讨两种药物（药物A和药物B）对某种疾病的治疗效果。研究者首先进行总体样本的回归分析，得出药物A和药物B在总体人群中的效果。然而，考虑到疾病的分期和等级可能影响药物效果，研究者进一步进行亚组分析。

1）如果已经有现成的分类变量，例如疾病的分期（如T1、T2、T3、T4）和等级（如I、II、III），则可以直接用这样的亚组，分别分析各亚组内两种药物的效果。

2）当分组变量是一个连续性变量，例如年龄（岁），而不是年龄组，则需要人为将年龄离散化为年龄分组，才能进行亚组分析，而取什么年龄做为分割点（例如分为<18岁，≥18岁，还是<30, 30-60, ≥60岁），可能导致的亚组分析结果不同。取什么分割点主要和研究设计、指标选择等相关，一般可以采用学科共识、前人经验，临床约定，或者统计学里的曲线观察（例如交互作用RCS曲线、广义添加模型）等方式确定。

针对第二种情况，MSTATA 给用户提供了一个任意输入不同切割点进行亚组分析的测试平台，系统会自动切割数据，可以快速地得到不同切割点设置后的亚组分析结果。可以用于自己非正式测试，或者用于敏感性分析。

自由设定不同的分割点，用一个连续性变量的值（例如年龄），将数据分成几个亚组，做回归分析的亚组（分层）分析：

软件位于 www.mstata.com 进入软件后选 “因果推断” 下拉菜单，选 “确证性影响因素研究 - 将一个连续性变量的不同取值设为分割点进行分层，进行回归分析的亚组敏感性分析” 模块。

亚组（分层）分析的定义和概念

亚组分析是指在总体研究样本中，根据某些特征将样本划分为若干亚组，并在每个亚组内进行独立的分析。其目的是探讨不同亚组在某些特定特征下的差异，揭示出整体分析中可能被忽视的细节。亚组分析通常应用于回归分析之后，以进一步细化研究结果，使其更具针对性和实用性。

为什么回归分析之后要做亚组分析？

虽然回归分析可以揭示总体样本的趋势和关系，但不同特征（如年龄、性别、疾病分期等）可能对结果有不同的影响。通过亚组分析，我们可以：

识别异质性：揭示不同亚组之间的差异，识别是否存在某些亚组对治疗或干预有不同的反应。
提高结果的外推性：通过细分亚组，研究结果更能代表不同特征人群，提高其外推性。
制定个性化治疗策略：在医学研究中，不同亚组的患者可能需要不同的治疗方法，亚组分析可以帮助制定更为精准的治疗策略。

当分组变量不是一个现成的分类变量，而是一个连续性变量，怎么做亚组（分层）分析？

例如，在一项研究中，探讨两种药物（药物A和药物B）对某种疾病的治疗效果。研究者首先进行总体样本的回归分析，得出药物A和药物B在总体人群中的效果。然而，考虑到疾病的分期和等级可能影响药物效果，研究者进一步进行亚组分析，如果已经有现成的分类变量，例如疾病的分期（如T1、T2、T3、T4）和等级（如I、II、III），则可以直接用这样的亚组，分别分析各亚组内两种药物的效果。

当分组变量是一个连续性变量，例如年龄（岁），而不是年龄组，则需要人为将年龄离散化为年龄分组，才能进行亚组分析，而取什么年龄做为分割点（例如分为<18岁，≥18岁，还是<30, 30-60, ≥60岁），可能导致的亚组分析结果不同。取什么分割点主要和研究设计、指标选择等相关，一般可以采用学科共识、前人经验，临床约定，或者统计学里的曲线观察（例如交互作用RCS曲线、广义添加模型）等方式确定。而本模块则给用户提供了一个不同切割点进行亚组分析的测试平台，可以快速地得到不同切割点设置后的亚组分析结果。可以用于自己非正式测试，或者用于敏感性分析。

准备数据

首先务必按照下面的格式准备数据（网站上可下载，下载后在此基础上修改）：

下载csv样例数据（右击另存为）

打开如下图：

本样例数据的规则：

一个患者一行（这是准备数据最重要的前提）。
每个患者准备两大类数据，影响因素变量和结局变量，影响因素和结局分别都可以有多个变量。
如图所示，hospital, treatment, age, age2, sex, obstruct, prfor, adhear, differ, extent 为影响因素（自变量），而blood, effect, status, time, occurrence在本例中是结局变量。
影响因素变量有两种，连续性变量（值是连续数据，它可以在变量值所属区间内任意进行取值，如年龄[岁]、血糖值、人的身高、智商等）以及分类变量（是说明事物类别的一个名称，其取值是分类数据。如”性别”就是一个分类变量，其变量值为”男”或”女”；“行业”也是一个分类变量，其变量值可以为”零售业”、“旅游业”、“汽车制造业”等），在本例中 age是连续性变量（numeric）, 其他的是分类变量（factor）。age单位为”岁”时为连续变量，而age2为年龄段分组，这时候为分类变量。
以上概念很重要，后面有一个页面专门设置连续变量和分类变量。
结局变量在本工具中分为几类：

连续型结局变量
如本例中的blood（某血液检测指标）
二分类结局变量
如本例中的effect（疗效）为二分类变量（Good，Bad）
生存型结局变量
需要用两个变量组合来表示，如本例中的status和time。
status代表患者在研究结束时的状态，在本工具中只能取0和1两个数字，不要用字符文本，否则会出错。0 代表没观察到事件发生（如没死或者失访），1 代表观察到了事件发生（如已经死亡且录入了死亡日期）。
time代表从开始日期（开始日期的定义由你的研究目的决定，如随机对照研究往往取随机化入组的那一天为开始日期，而观察性研究可以取首次诊断日期或首次治疗日期等等根据研究目的而定）到结局日期的时间差。当status=1时，结局日期为发生事件（如死亡）的日期，当status=0时，结局日期为最后一次活着的日期（如研究结束日，或随后一次随访日）。
总之，time是一个数值型变量，您需要填入患者从开始到死亡或者随后一次随访时，一共活着的天数。如time为56，status为1时代表患者从开始到死亡活了56天；当time为56，status为0时代表患者没观察到死亡，从开始到最后一次随访，活了56天。
准备数据时，time填入一个非负的整数，status填入0或1，time和status都不能为空，每个患者都必须填入数字。time或status不确定（缺失）时，该患者最好不要放入本数据库。
计数型结局变量
计数型的结局变量为一个非负的整数，如本例中occurrence，是急性发作次数，无法取负数，也不可能取小数。
分数型结局变量
当结局变量为一个分数，如发病率、患病率、受精率等，结局包含一个分子和一个分母。如要研究全国各地疾病患病率的影响因素时，按照每个地区一行来准备数据，分子和分母设置成两个变量（列），如分子为患病人数，分母为地区人口数。
准备数据的规则是：分子和分母都是非负整数，不允许填入负数，也不允许填入小数，分子的数值不能大于分母。

操作步骤

一、选择结局变量的类型

进入软件后，选择“回归分析”模块。
在“选择结局变量的类型”部分，根据您的研究需求，选择适合的回归模型：

二分类变量（Logistic回归，例如是否转移，是否客观缓解等）
连续性变量（线性回归，例如生物标志物值等）
生存变量（Cox回归，例如总生存期（OS），无进展生存期（PFS），无病生存期（DFS）等）

二、选择结局变量/应变量

根据您在第一步选择的结局变量类型，进行相应的操作：

Logistic回归：

系统会自动筛选数据库中所有的二分类变量。
在“请选择结局变量/应变量”下拉菜单中，选择您的结局变量。

线性回归：

系统会自动筛选数据库中所有的连续性变量。
在“请选择结局变量/应变量”下拉菜单中，选择您的结局变量。

Cox回归：

系统会自动筛选数据库中所有的连续性变量。
在“请选择代表时间的变量”下拉菜单中，选择表示时间的变量（如从开始到死亡的时间，或从开始到末次随访时间）。
系统会自动筛选数据库中所有的二分类变量。
在“请选择代表患者最终状态的变量”下拉菜单中，选择表示患者最终状态的变量（如1代表发生事件，0代表删失）。

三、选择结局变量的水平

Logistic回归和Cox回归：

系统会自动检测结局变量的所有水平。
在“请下拉选择结局变量的哪个水平表示发生事件”下拉菜单中，选择表示发生事件的水平（注意：选中的水平在建模时系统会设定为1，剩下的水平会设定为0）。

四、选择解释变量/自变量

在“要研究的解释变量/自变量的类型”部分，选择变量类型：

二分类变量
连续性变量

系统会根据您的选择筛选相应的变量。

在“请点击选择要研究的解释变量/自变量”下拉菜单中，选择您的解释变量/自变量。

五、选择参照组和观察/试验组（仅针对二分类解释变量）

系统会自动检测解释变量的所有水平。
在“请下拉选择参照组”下拉菜单中，选择参照组。
在“请下拉选择观察/试验组”下拉菜单中，选择观察/试验组。

六、选择混杂因素（协变量）

系统会自动筛选数据库中所有的变量。
在“请点击选择需要调整的混杂因素（协变量）”下拉菜单中，选择需要调整的混杂因素（协变量），可多选。

七、对连续变量进行尺度转换或标准化处理

系统会列出所有连续性变量。
根据需要，对每个连续性变量选择相应的处理方法：

不做处理
中心化处理（centered）
标准化处理（standardized）
进行Log变换

八、选择亚组分析字段

选择一个连续性变量，例如年龄；
选择要根据年龄，将整个数据集分为几个亚组，例如选 3；
输入分割点，例如 40，60，系统会自动把数据库根据年龄分为 3 个组。

九、生成/更新亚组分析结果

点击“生成/更新亚组分析结果”按钮，系统会根据您的选择进行亚组分析，并展示结果。

亚组分析结果：

生成森林图：

http://mp.weixin.qq.com/s?__biz=MzkwNTM5MzE4MA==&mid=2247487926&idx=1&sn=e9e65b04cfd0348c36cf589cca68bbf0

真实世界数据

介绍真实世界数据，真实世界研究和真实世界证据

最新文章

关于MSTATA免费版宕机的说明

拷贝一篇论文的基线表 Table 1 并一键模拟生成相应的原始数据库

一键自动生成符合预期统计结果的医学研究数据库：模拟研究的理论和实现

中介分析的实现与多个 R 包横向测评

开源啦：鼠标一秒生成中介分析 mediation R 代码（非chatGPT)

一键生成回归模型拟合后的公式（表达式）

一键完成 P for trend 的统计分析表格

开源啦：一键生成基线表 Table 1 同时自动生成 R 源代码，学术严谨、无惧黑箱！

一键完成 Landmark 生存曲线（复杂抽样加权，NHANES数据库）的绘制