分类数据多重填补后的结果合并的非正态考量点

2024-09-28 08:10 上海

多重插补 (MI) 是一种处理缺失数据的方法，在临床试验中得到了广泛的应用。人们已经开发出各种方法，这些方法在 SAS PROC MI 中随时可用，用于对连续变量和分类变量进行多重插补。MI 会生成原始数据集的多个副本，其中缺失数据用插补数据集之间略有不同的值填充。然后使用标准统计方法分析每个数据集以获得完整数据，并使用 Rubin 规则将所有插补数据集的结果合并（汇总）以进行整体推断，该规则考虑了与插补值相关的不确定性。Rubin 的汇总方法非常通用，无论在分析阶段为每个插补数据集估计什么样的统计数据，方法基本相同。但是，组合规则假设估计值呈渐近正态分布，但情况可能并非总是如此。例如，Cochran-Mantel-Haenszel (CMH) 检验和Mantel-Haenszel (MH) 常见比值比估计值通常用于分类数据分析，它们产生的统计数据不服从正态分布。在这种情况下，需要先对从每个估算数据集估计的统计数据应用正态化变换，然后才能应用 Rubin 组合规则。在本文中，我们展示了如何对上述两个统计数据进行此操作，并探讨了基于应用的正态化变换的显着性检验的一些操作特性。我们还展示了如何获得二项式比例的组合估计值及其在治疗组之间的差异。

多重插补（MI）是 Rubin （1987）引入的一种方法，用于分析计划收集的一些缺失数据。近年来，临床试验中数据缺失的问题受到了统计学家和监管机构的广泛关注，这导致通常用于处理该问题的方法类型发生了变化。过去，相对简单的方法，尤其是单一插补方法最受欢迎。例如，对于连续变量，通常使用最后一次观察结转（LOCF）或基线观察结转（BOCF）等方法。然而，该领域的最新研究以及欧洲药品管理局（EMA）（2010）和FDA委托的美国国家研究委员会（NRC）（2010）小组的监管指南指出了使用这些方法时可能遇到的几个重要缺点。其中一个问题是，单一插补方法没有考虑与缺失数据相关的不确定性，并且在分析阶段将单一插补值视为真实值。这可能导致低估与根据数据计算的各种统计量的估计值相关的标准误差。这些方法的另一个问题是，与过去相当普遍的一些想法相反，这些方法可能会在很大程度上使分析偏向于试验组治疗，这取决于临床研究中缺失的某些特征和模式。

多重插补直接涉及第一个问题，即考虑缺失数据的不确定性。它通过在分析中为每个缺失项引入多个（但在某种意义上是合理的）值，并在分析填充数据时考虑这些插补值的可变性来实现这一点。在某些假设下，MI 也可以减少偏向于试验组。

与过去广泛使用连续变量的单一插补方法类似，二分类结果在处理缺失数据时也以类似的方式处理。例如，对于具有二分类结果的临床试验的分析，这通常表示对治疗的反应或无反应的状态，所有缺失值的病例通常都被归为无反应。从某种意义上说，这相当于连续变量的 BOCF 插补。在 BOCF 中，假设受试者在缺失的主要时间点（通常是治疗或研究结束）表现出与基线相同的疾病或症状的阶段/严重程度，因此假设对治疗没有反应。因此，以确定性方式将缺失的二分类结果归入“对治疗无反应”的类别，因此可以预期会出现与 BOCF 相同的问题，即低估不确定性和潜在偏倚以支持试验组。LOCF 类型的方法过去也用于二分类数据。

幸运的是，多重插补不仅适用于连续变量，还可用于二元和分类变量。当担心单次插补可能导致重要偏倚时，这提供了一种有趣的替代方案，并提供了一种解释与插补相关的不确定性的原则性方法。

在 SAS 中，PROC MI 提供了插补二分类变量的功能（SAS 用户指南，2011 年），其中基于 logistic 回归模型的插补在临床试验的背景下可能是最有用的。使用 MI 对二分类变量进行插补后，将创建多个数据集，其中所有数据集的观测值相同，但插补值不同。然后，应使用标准方法分析这些多个数据集，如果数据一开始就完整，则会选择这些方法。然后，将这些多个数据集的结果组合（汇集）以进行整体推理，以考虑插补之间的可变性。SAS PROC MIANALYZE 提供了组合来自多个数据集的结果的功能（SAS 用户指南，2011 年），在执行各种完整数据分析后可以轻松使用。

但是，对于某些类型的完整数据分析，包括临床试验中经常使用的分类数据分析，可能需要在调用PROC MIANALYZE 的功能之前执行其他操作。这是因为 Rubin 规则（Rubin， 1987）用于合并由此过程实现的多个插补数据集的结果，是基于以下假设：从每个插补数据集估计的统计数据是正态分布的。 许多估计值（例如，均值和回归系数）是近似正态分布的，而其他估计值（例如相关系数、比值比、风险比、相对风险等）则不是。在这种情况下，可以首先将归一化变换应用于估计的统计量，然后可以将 Rubin 组合规则应用于变换后的值。

Van Buuren （2012）提出了一些可以应用于多种类型的估计统计量的变换（参见表 1 中 Van Buuren 书中汇总表的复制部分）。他还讨论了对多重插补数据进行多变量 Wald 检验、似然比检验、卡方检验和一些针对模型参数的自定义假设检验的方法，但指出最后两种方法 - 卡方检验（Rubin，1997;Li et al.， 1991）和自定义假设检验- 可能不是很可靠，并且目前还没有足够的实践经验。

在本文中，我们讨论了可用于合并 Cochran-Mantel-Haenszel （CMH）检验结果和基于多重插补数据的比值比（来自 logistic 回归或 Mantel-Haenszel （MH）对共同比值的估计）的归一化变换，以及如何获得二项式比例及其治疗组之间的差异的组合估计。对于优势比，我们使用对数变换。对于 CMH 检验（基于卡方分布统计量），除了 Rubin （1987）和 Li et al. （1991）的程序外，我们还使用另一种方法，即应用 Wilson-Hilferty 变换来标准化卡方分布统计量。我们使用模拟研究比较了这些方法的操作特性。关于 MI 工作原理的详细背景超出了本文的范围。我们提供了关于如何在 SAS 中执行基于 MI 的分析的非常一般和高级的讨论，并提供了一些 SAS 代码示例。有关基本方法的详细处理，我们向读者推荐 Rubin （1987）、SAS 用户指南（2011）、Carpenter 和Kenward （2013）以及 Van Buuren （2012）。本文和此处提供的示例的主要重点是需要实施的具体步骤，以便从产生非正态分布统计数据的分析中获得总体推论，特别是上述几个分类变量分析。

本文中的分析将使用示例数据集 datain 进行说明，其中包含以下变量

表 2 总结了在每次研究访视和研究完成者之前停止研究的受试者百分比。该数据集中的一些受试者在治疗开始后和第一次基线后访视之前不久就停药（安慰剂组为 14%，实验组为 2%）。这些受试者包含在分析中。与安慰剂组相比，试验组的研究完成者比例略高（84% 对 77%）。在本文中，我们假设输入数据集具有单调的缺失模式，并且没有受试者错过中间访视。

表 3 显示了基于研究完成者，每个治疗组第 3 次访视时反应者和无反应者的百分比，首，然后基于所有研究受试者，如果所有退出都被认为是无反应者（过去使用的常见单一插补方法）。

在后续部分中，我们将展示如何使用多重插补对该数据集进行插补，然后展示基于多重插补数据与单次插补（所有缺失均为无反应者）的分析结果。

多重插补分析通常分三个步骤进行：

1．插补：使用 M 组不同的值填充缺失数据，从而生成 M 个插补数据集。此步骤可以使用 PROC MI 在 SAS 中执行

2．分析：每个 M 个插补数据集都使用如果数据完整的情况下会选择的任何方法单独分析。此步骤可以使用 SAS 中的任何分析程序来实现，例如 PROC GLM、PROC MIXED、PROC LOGITIC、PROC FREQ 等。

3．合并：将从步骤 2 获得的 M 个插补数据集的分析结果合并为一个总体结果。可以使用 SAS PROC MIANALYZE 执行此步骤

SAS 过程 PROC MI 提供了几种连续变量和分类变量插补的方法（SAS 用户指南，2011 年）。选择使用的方法取决于缺失模式是否单调。如果缺失值总是由于提前退出研究，则临床试验的数据集将具有单调缺失模式。也就是说，当给定访视的评估缺失时，它们也将在所有后续访视中缺失，因为受试者停止了研究参与。当受试者错过了一些中间访问但仍然在研究中并在以后有可用的评估时，就会出现非单调缺失。对于连续变量，两种缺失模式都有很好的插补方法选择，而对于分类变量，尽管 SAS 版本 9.3 提供了一类新的插补方法的实验版本，即完全条件定义（FCS），该方法可以处理任意缺失模式，并包括分类数据插补的方法。然而，即使使用早期版本的 SAS，也有一种方法可以处理非单调分类缺失数据，即使用马尔可夫链蒙特卡洛（MCMC）方法对非单调缺失记录进行部分插补，同时将分类变量视为连续变量，并使用多元正态分布对其进行建模。这不是最佳方法，但通常是可以接受的，因为大多数时候，非单调缺失数据的数量非常小，并且此部分插补步骤对最终研究时间点分析的总体影响很小。

有时，分类变量是根据一些潜在连续测量得出的。例如，对治疗的反应者的状态可以根据连续参数中相对于基线的临床有意义变化的阈值来确定，或者作为多个参数相对于基线变化的聚合指标来确定。在这种情况下，最好先插补基础连续变量，然后根据插补值执行分类。这样，分析人员可以更好地选择用于插补连续变量的可用方法，并且可以提高插补的准确性。然而，这种方法并不总是适用，因为一些终点是直接在二分类尺度上定义的。在 PROC MI 中，有两种方法可用于分类数据的插补：逻辑回归和判别函数法。前一种方法根据具有可用数据的受试者为每个需要插补的变量估计一个 Logistic 回归模型，然后使用来自此模型的预测（或者更准确地说，来自此模型的贝叶斯后验分布和缺失数据）来填充缺失值。与其他多重插补方法一样，此过程的执行方式是，为插补采样的值反映了估计的 Logistic 回归模型（称为插补模型）的不确定性（Rubin， 1987）。SAS 版本 9.4，logistic 回归模型的插补可用于单调缺失数据，FCS 方法用于非单调缺失。

判别函数方法在临床试验中似乎通常没有用，因为它的使用仅限于所有预测变量都是连续的，并且满足组内协方差矩阵的近似多变量正态性和相等性的假设。在临床试验中，治疗组通常由二分类变量表示，通常需要作为预测变量包含在模型中。此外，如果需要估算分类终点，我们通常希望将来自先前时间点的该终点的值作为预测因子。因此，判别函数方法在临床试验中的效用有限，但在某些情况下可能很有用，因为需要根据一组其他连续基线特征来估算缺失的基线分类协变量。如果数据完整，本来会使用的任何分析方法都可以在此阶段应用。应使用相同的分析方法来分析每个 M 个插补数据集。

同样，汇总步骤 2 （Rubin， 1987）中获得的分析结果的方法不依赖于步骤 1 中使用的插补方法。该方法非常通用，无论在分析阶段估计哪种统计数据（例如，平均值的估计或回归参数），该方法基本上都是相同的。但是，如前所述，Rubin 开发的组合规则依赖于估计的统计量近似呈正态分布的假设。虽然此假设适用于许多常用统计量，但对于经常对分类数据执行的某些分析，情况并非如此。本文的重点是这方面，在后续部分中，我们将展示需要采取哪些额外步骤才能从乘法插补数据中组合此类分析的结果。SAS 用户指南（2011 年）中的PROC MIANALYZE 文档示例 57.10 说明了在使用 PROC MIANALYZE 中实施的 Rubin 规则之前合并 Pearson 相关系数的估计值时需要应用的归一化变换。我们提供了其他分析和转换的示例，重点介绍分类数据分析中经常使用的分析和转换。

假设本文用作示例的数据集包含一个二分类参数，该参数表示每次研究访视时对治疗的反应。在本节中，我们说明了使用 SAS 功能对此二分零五i数据执行多重插补的基本步骤。我们假设没有潜在continuous 参数来确定二分类反应应者状态。因此，我们将使用基于logistic 回归的插补方法来插补分类变量。此方法可用于 PROC MI 的 MONOTONE 语句，如 SAS 代码片段 1 中所示。当使用 MONOTONE LOGISTIC 语句时，PROC MI 按顺序估计每个变量 resp_1、 resp_2 和 resp_3 的logistic 回归插补模型，其中每个模型都包括治疗（trt）和基线评分（score_0）作为预测因子。resp_2 的插补模型还包括 resp_1 作为预测因子，resp_3 的模型同时包括 resp_1 和 resp_2。通常，使用 SAS 代码片段 1 中所示的MONOTONE 语句的语法，当插补具有缺失值的变量时，VAR 语句中其左侧列出的所有变量都将作为预测变量包含在插补模型中。可以通过在 MONOTONE 语句中使用不同的语法为每个变量指定不同的模型（SAS 用户指南，2011）。PROC MI 语句中的选项NIMPUTE 指定要生成的插补数据集的数量。输出数据集datain_mi将包含原始数据集的 500 个副本，所有数据集的观测值都相同，并且插补值因数据集而异。这些多个副本将由_Imputation_进行区别.

SAS 代码片段 1. 使用 Logistic 回归对二分类反应变量进行多重插补

当使用 Logistic 回归进行插补时，统计师应该意识到完美预测的潜在问题。如果由模型中包含的协变量形成的层形成的单元格中，因分类变量的所有可用值都相同（例如，可用的二分类结果在一个单元格内都是 0 或全是 1），则可能会发生这种情况。这可能会导致插补模型生成的插补值与观察到的值非常不同（有关此问题的更多详细信息，请参见 Carpenter 和 Kenward （2013））。在临床试验中，如果在研究开始时不太可能达到反应，则在早期时间点估算二分类反应状态可能更有可能。此外，如果模型中包括研究中心等协变量，并且存在受试者数量相对较少的地点，所有这些地点在给定时间点具有相同的反应，则可能会发生这种情况。为了解决这个潜在的问题，建议通过在每个时间点将 logistic 回归模型拟合到可用数据来执行初步的探索步骤，例如，使用 PROC LOGISTIC，并仔细检查生成的模型参数。在这种情况下，PROC LOGISTIC 将生成“准完全分离”的警告，分析人员随后可以通过排除或更改某些协变量来修改模型以避免此问题。为每个时间点适当选择模型后，就可以通过使用单独的 MONOTONE LOGISTIC 语句对每个变量在不同模型在 PROC MI 中指定它们。

执行插补后，下一步是分析插补数据集。SAS 代码片段 2 提供了一个分析示例，其中 logistic 回归模型用于估计治疗对研究访视 3 时反应的影响，并将基线评分调整为连续协变量。从 PROC MI datain_mi的输出数据集用作分析过程 PROC LOGISTIC 的输入，并且由于此数据集包含原始数据集的 500 个插补副本，因此使用“BY _Imputation_”语句调用分析过程，以便在每个插补数据集中执行相同的分析。保存 ODS 输出数据集 PARAMETERESTIMATES 和 ODDSRATIOS 以捕获分析模型分别估计的回归系数和优势比的估计值。这些 ODS 数据集将包含每个插补数据集的一组估计值，该数据集由每个数据集中包含的变量 _Imputation_ 标识。

SAS 代码片段 2 还显示了 PROC MIANALYZE 的调用，该调用用于合并 PROC LOGISTIC 在datain_mi数据集上多重插补的分析结果。ODS以 lgsparms 名称保存并包含 logistic 回归系数估计的PARAMETERESTIMATES输出数据集，使用 PARMS 选项，PARAMETERESTIMATES 作为输入传递给 PROC MIANALYZE。这是用于传达分析结果以及包含这些结果的数据集的结构信息的选项之一。PROC MIANALYZE 语句中的 PARMS 选项用于传递包含参数估计值和关联标准误差的数据集。括号中包含的选项 CLASSVAR=CLASSVAL 向 PROC MIANALYZE 表示有关输入数据集结构的一些附加信息，其中指定了分类效应的级别。PROC MIANALYZE 的 SAS 文档包括一组广泛的分析示例，其中包含许多不同的分析 SAS 程序和将其结果传递给 PROC MIANALYZE 的适当语法。

在 SAS 代码片段 2 中调用 PROC MIANALYZE 时，我们在 MODELEFFECTS 语句中指定了 trt 变量，通过该变量，我们请求对治疗效果的回归系数进行总体（合并）估计。因此，此过程的输出将为我们提供一个合并回归估计、其标准误差、置信区间（CI）和系数等于 0（无处理效应）的假设检验的 p 值.

SAS 代码片段 2.使用 logistic 回归和合并估计分析多重填补数据治疗效果的回归系数。

如本例所示，标准多重插补在关于缺失机制的随机缺失（MAR）假设下运行。在 MAR 下，假设退出的受试者在研究终止后的时间点对治疗的反应具有与留在研究中的受试者相同的概率分布，条件是分析中包含的基线和退出前数据。换句话说，假设已停止的受试者与留在研究中的类似受试者具有相同的反应概率。这与通常在单次插补分析中完成的假设相反，即所有退出都是无反应者（概率为 1）。因为完成者通常对治疗有反应的概率非零，所以 MI 插补将导致两个治疗组中的缺失值被归因于更乐观的结果。当安慰剂组中停药的比例较大时，就像我们的示例数据集中的情况一样，MI 插补可能比全无反应者插补更有利于安慰剂。在这种情况下，与全无反应者方法相比，MI 插补可能较少偏向于试验组，并且根据监管指南可能被认为更合适（EMA，2010 年;NRC，2010 年）。

表4显示了如上所述的多重插补数据的分析结果，以及将所有研究终止归为无反应者的单一插补方法的结果。我们还提供了观察到的病例分析结果（无插补）以供参考。在 MAR 假设下，观察到的病例分析提供了比值比的无偏估计，从而提供了与 logistic回归模型中治疗效果相对应的系数的无偏估计（Carpenter 和 Kenward，2013 年）。正如根据上一段的讨论所预期的那样，与单一插补方法相比，基于 MI 的分析产生的治疗效果系数和相应的 p 值的估计值略小。基于 MI 的估计值也更接近于观察案例分析中的估计值。在所有分析下，治疗效果均具有统计学意义。

在 SAS 代码片段 2 中，ODS 输出数据集 PARAMETERESTIMATES 按原样传递给 PROC MIANALYZE。回归系数的估计值近似正态分布，因此可以直接应用由此SAS 过程实现的 Rubin 组合规则。

ODS 输出数据集ODDSRATIOS 中捕获的比值比估计值不能这样说这些估计值具有对数正态分布。我们在下面部分展示了如何处理这种情况。

如上所述，优势比的估计值服从对数正态分布。我们可以应用对数转换来规范化这些估计值，以便能够应用 Rubin 的组合规则。如前所述，这些组合规则将从多个插补数据集获得的统计量的输入估计值以及这些估计值的标准误差，并生成总体合并估计值、总体标准误差（方差）、置信区间和来自统计量等于零的单变量假设检验的 p 值。SAS 代码片段 3 中的第一个数据步骤（对 PROC LOGISTIC 的 ODS 输出数据集 ODDSRATIOS 执行，名称为 lgsodds）包含应用于治疗效应优势比估计值的对数变换。转换后的估计值的标准误差是从优势比估计值的对数转换置信下限和置信上限获得的。然后，包含转换后的估计值及其标准误差的数据集将传递给 PROC MIANALYZE，如同一代码片段所示。在这种情况下，使用 DATA 选项的 PROC MIANALYZE 使用不同的输入语法。使用此选项时，MODELEFFECTS语句包含表示要合并的统计量的估计值的变量名称，而 STDERR 语句包含表示该估计值的标准误差的变量的名称。合并结果捕获在 ODS 数据集 PARAMETERESTIMATES 中。然后，优势比的组合估计值可以回变换为其原始对数尺度，如 SAS 代码片段 3 的最后一个数据步骤所示，该步骤还使用优势比标准误差的组合估计值计算对数尺度上的置信限。

SAS 代码片段 3. 使用 logistic 回归分析多重插补数据获得的优势比的合并估计值

表 5 显示了上述插补数据分析（组合估计）、使用单一插补的分析以及观察到的病例分析的比值比估计值及其置信区间。再一次，正如预期的那样，我们看到 MI 估计值略小于单次插补的估计值，并且接近观察到的病例的估计值，并且没有置信区间覆盖1，这表示治疗效果的比值比与差异在 1 上显着不同。

我们的示例数据集基于二分类反应变量，但逻辑回归也可以用于具有多个分类级别的变量。对于二分类结果，也可以使用常见优势比的Mantel-Haenszel估计值（Mantel &Haenszel， 1959;Agresti，2002 年），在 SAS 中可以通过 PROC FREQ 计算调整后的 2×2 表（例如，2 个水平的治疗组和一个二分类反应变量，如我们的示例所示，针对分类分层变量进行调整）。在这种情况下，所需的转换与上述完全相同。SAS 代码片段 4 通过用于执行Mantel-Haenszel 分析的 PROC FREQ 来说明这一点，其中基线评分类别作为分层因子，随后在 ODS 输出数据集 COMMONRELRISKS 中对常见优势比估计值进行对数转换。将转换后的估计值与 PROC MIANALYZE 和反向转换步骤相结合，与 SAS 代码片段 3.中的相同。

SAS 代码片段 4. 变换从多重插补数据分析中获得的 Mantel-Haenszel 共同比值的估计

表 6 包含来自多重插补数据与单次插补的共同比值的 Mantel-Haenszel 估计值，以及观察病例分析的估计值。这些估计值与Logistic 回归中的估计值接近。

Cochran-Mantel-Haenszel 检验（Landis et al.， 1978）通常用于临床试验分析，以便在控制一个或多个分层变量（例如，基线疾病严重程度）后对两个分类变量（例如，治疗组和对治疗的反应）之间的关系进行完整的数据分析在多因子表中。在无关联的零假设下，CMH 一般关联统计量具有渐近卡方分布，具有（C1 − 1）（C2 − 1）自由度，其中 C1 和 C2 表示两个分类变量中每个变量假定的类别数。对于较小的自由度，卡方分布是高度偏斜的，因此从乘法插补数据获得 CMH 检验的组合结果需要对 CMH 统计量进行归一化的转换。例如，Wilson-Hilferty转变（Wilson ; Hilferty，1931;Goria， 1992）可用于此目的：

其中 cmh（m）是根据第 m 个插补数据集计算的 CMH 统计量，df 是与 CMH 统计量关联的自由度数，wh_cmh（m）是转换后的值。

在原假设下，变换后的统计量近似呈正态分布，均值为 1 − 2/（9 × df），方差为 2/（9 × df）。我们可以在（1）中标准化这个变换后的统计量，以获得一个均值为 0、方差为 1的变量。

此转换后的统计数据现在可以传递给 PROC MIANALYZE，以便执行组合 CMH 检验。

SAS 代码片段 5 包含对 PROC FREQ 的调用，以使用 TABLES 语句中的 CMH 选项请求 CMH 检验，结果在ODS 输出数据集 CMH 中捕获。随后的数据步骤应用等式（2）中描述的 Wilson-Hilferty 变换，然后使用与优势比相同的语法将转换后的值传递给 PROC MIANALYZE。最后，组合 CMH 检验的 p 值可以对 PROC MIANALYZE 对转换后的统计量生成的正常检验的上尾 p 值获得。这是在 SAS 代码片段5。

SAS 代码片段 5. 通过对多重插补数据分析合并 CMH 统计量的估计值，并获得 CMH 检验的总体 p 值

表 7 显示了从 CMH 检验中获得的 p 值，用于治疗组和反应者状态之间的一般关联，根据多重插补数据、单次插补和观察病例调整基线评分类别。该检验的 p 值接近 logistic 回归模型的处理效应回归系数的 p 值（见表 3），多重插补数据的CMH 检验比单一插补数据的检验更保守。

为了说明 Wilson-Hilferty 变换如何影响假设检验，图 1 显示了在将一系列未变换的卡方统计量与具有 1 个自由度的卡方分布（在 x 轴上）与将转换后的统计量与正态分布（y 轴）进行比较时获得的 p 值的散点图。图 1 的左面板显示，在大多数 p 值范围内，散点（由圆圈表示）沿着一条接近同一性的线，这意味着对转换后的统计量的假设检验将给出与对未转换卡方统计量的检验大致相同的 p 值。仅在接近 p 值的高端（>0.8）时，转换后的检验将提供较小的 p 值，但是，这不会改变统计显著性的结论.

如果我们放大接近图 1 右侧面板所示的统计显著性水平 0.05 的 p 值范围，我们可以看到转换后的统计量的 p 值略低。表 8 提供了一个 p 值列表，这些 p 值将导致基于未转换卡方检验的无统计显著性（或边界线）结论，而来自转换统计量的 p 值将略低于 0.05 的显著性水平。在所有其他情况下，关于统计显著性的结论是相同的。在解释临界线显著性发现时，应考虑这种微小的差异。一般来说，与单次插补相比，多重插补数据提供了更保守的治疗效果估计值，因此使用具有此转换的多重插补仍然可能比使用单次插补更保守.

应该注意的是，在备择假设下，Wilson-Hilferty 变换统计量的分布不会相同，因为基础 CMH 统计量将具有具有未知非中心性参数的非中心卡方分布。如果应用 Rubin 的组合规则来获得置信区间的组合估计值，这将产生影响，但在此转换下，组合 CMH 假设检验仍应适用。下面根据使用不同测试的仿真研究的结果提供了更多讨论.

在本节中，我们描述了一种混合卡方分布统计的替代程序，该程序由 Rubin （1987）提出，并由 Li et al. （1991）进一步研究。用 χ 2 卡方分布统计表示，在每个 m=1,..., M 插补数据集中估计有 k 个自由度。可以按如下方式获得合并检验统计量:

基于 Dx 的假设检验的合并 p 值可以使用 F 分布获得，其中 k 和 ν x 分别为分子和分母自由度，如下所示：

SAS 代码片段 6 中提供了实现方程（3）和（4）所述步骤的宏，其中假设 M 个插补数据集的估计统计量保存在具有变量 chsq_value 的数据集中，并且该数据集使用 datain 参数传递给宏。对于未调整2×2 表分析，与每个卡方分布统计量关联的自由度数为 1，但该值可能因其他分析而异，并且可以使用 df 参数传递。

SAS 代码片段 6. 宏实现 Rubin （1987）和 Li et al. （1991）的程序，用于汇集卡方分布统计

我们将在下面描述的模拟研究中使用这种方法，并将其操作特性与基于Wilson-Hilferty 变换的方法进行比较。

在本节中，我们将展示如何组合每个治疗组中反应者的二项式比例的估计值，以及这些比例之间的差异。对于每个治疗组中反应者的比例，PROC FREQ（在 ODS 输出数据集 BINOMIALPROP 中捕获）为每个插补数据集提供的比例估计及其渐近标准误差可以直接传递给 PROC MIANALYZE，如 SAS 代码片段 7 所示。不需要转换;调用 PROC FREQ 后的数据步骤只需将每个插补数据集的一条记录上的比例估计值及其标准误差对齐，然后将生成的数据集传递给PROC MIANALYZE。对于极端概率的CI，可以取下置信区间计算为 m个估算的较低 Clopper-Pearson CIs 中的最小值;置信区间上限计算为 m 个估算的 Clopper-Pearson 置信上限的最大值，点估计还是按照mianalyze的合并结果结算。

SAS 代码片段 7. 合并来自多重插补数据分析的二项式比率的估计值

对于两组中比例之间的差异，估计差值的标准误差计算为每个比例的标准误差平方和的平方根。然后，此标准误差与估计的比例差异一起传递给 PROC MISANALYZED，如 SAS 代码片段 8.

SAS 代码片段 8. 从多重插补数据分析中合并二项式比例之间差异的估计值

表 9 总结了每个治疗组中反应者比例的估计值及其基于多重插补数据与单次插补和观察病例的差异。在这种情况下，比率之间差值的多重和单次插补估计值几乎相同，但此差值大于零的检验的 p 值与多重插补数据相比略大。这些 p 值与上面讨论的其他分析中的值一致。与单次插补相比，基于多重插补，每个治疗组中反应者的估计比例有很大不同。通过多重插补，每个治疗组中估计有更多的反应者，这是意料之中的，因为基于研究完成者的多重插补模型反应，因此至少一些退出可能与完成者相似，并且有非零的反应机会，而我们的单次插补方法中的反应概率为零。

我们进行了一项小型模拟研究，以检查和比较三种分析和合并方法的操作特性（功效和 I 型错误率）与多重插补二分类数据：（1）对数变换的共同比值比的 MH 估计（MHOR-LT）;（2） Wilson-Hilferty 转化的 MH 检验（MH-WHT）;（3）使用 Rubin （1987）和 Li 等人（1991）的卡方混合程序（MH-CHP）进行 MH 检验。请注意，在 2×2 表分析（两个治疗组的二元反应者状态）的背景下，MH 测试等效于前面讨论的未经调整的 CMH 测试。如前所述，Wilson-Hilferty 变换和其他卡方合并程序也可以在分析阶段对 C1 × C2表使用分层 CMH 检验应用于更通用的设置。

我们的模拟研究模拟了临床试验可能产生的数据。为了生成模拟数据，我们假设对治疗的反应是根据一些潜在的连续终点和预先指定的反应者临界值定义的，即连续值比基线提高了 50%。我们首先使用多变量正态分布在一个基线和 3 次基线后评估访问中模拟了这个潜在连续变量的数据。选择协方差结构是为了反映一种现实情况，即主体内相关性随着测量值在时间上的距离越来越远而降低。校准基本平均结构以匹配预先指定的反应率（基于基线定义提高 50%）。模拟了安慰剂组反应率的两个水平：较低的 20% 和较高的 40%。对于试验组受试者，我们考虑了两种相应的零情景，其中试验组的比率与安慰剂受试者完全相同，以及两种替代情景，其中试验组的反应率被校准，以确保在假设没有停药的情况下测试比例之间的差异时，大约有 80% 的功效。该分析旨在对生成的 2×2 表进行 - 两个治疗组的二分类反应者状态 - 没有任何分层因子。

我们假设了一个相当简单的缺失 MAR 模型，其中只有结果恶化了一定程度等于或大于某个临界值的受试者才“有资格”在基线后第 2 次或第 3 次访视时退出。一旦受试者达到这个 “退出条件”，他/她就被假定以概率γ停止。在保持 γ=0.5 的情况下，我们校准了退出资格临界值，以确保安慰剂组中的退出率达到所需的百分比。然后，试验组的退出率将由 2 个因素的组合驱动：安慰剂组的退出率和假设的治疗效果大小（比值比）。

表 10 总结了与所研究的不同模拟场景相对应的参数（更多详细信息见附录）。该模拟研究的主要重点是评估三种分析方法，并汇集来自多重插补二进制数据的结果。整体操作特性也会受到插补模型的影响，为了考虑到这一点，我们使用了两种插补方法：（1）直接使用顺序 Logistic 回归对二分类反应变量进行插补;（2）使用普通顺序线性回归插补基础连续变量，然后根据观察到的和插补的连续值计算二分类反应者状态。在这两种情况下，插补模型都相似，因为它们包括每个序贯回归模型中每个治疗组内所有先前时间点的基线值和基线后结果。

模拟研究的结果（基于 1000 个模拟数据集和 100 个插补）如表 11 和 12 所示，分别报告了 I 型错误率和统计功效。除了上述插补和分析/合并方法的结果外，这些表格还报告了估计 MH 共同比值的观察病例的分析结果。在当前模拟设置中，这种分析可以被认为是一个很好的基准，因为可用的案例分析提供了对 MAR 机制情况下比值比的无偏估计（Carpenter 和 Kenward，2013 年）。从表11 中我们可以看到，应用于乘法插补数据的所有 3 种分析方法（MHOR-LT、MH-WHT 和MH-CHP）都保持了标称 I 型误差率（<0.05）无论使用何种插补模型，MH-CHP 方法的脱落率为 10%，导致错误率略微膨胀。三种方法之间的错误率非常相似，并且与可用案例分析中的错误率相似。MHOR-LT 方法比其他方法略显保守。当在二分类尺度上执行插补时，与其他两种分析/合并方法相比，MH-WHT 方法的比率略高（但在标称水平内），用于具有较高退出率的模拟场景。总的来说，方法之间的差异非常小，可能在某种程度上是由于模拟误差。

就统计功效而言，应用于多重插补数据的 3 种分析/合并方法之间的差异也相当小：在另一种情况下，MH-CHP 和 MH-WHT 在两种插补方法的背景下似乎略优于 MHOR-LT，随着脱落率的增加，MH-WHT 比 MH-CHP 略有优势，尤其是在二分类尺度上进行插补时。

虽然应用于插补数据的分析/汇集方法之间的差异非常小，则不同插补方法的功效差异更为明显。首先，观察到的病例分析虽然在当前情况下是无偏倚的，但显示功效损失在 7% 到 15% 之间，具体取决于退出率和安慰剂反应者概率。连续插补数据使我们能够恢复高达 5-6% 的功率损失。然而，与观察到的情况相比，直接在二分类尺度上插补数据会导致更剧烈的功效损失——在某些情况下高达 15%。这个结果并不奇怪，因为在插补模型中粗略化预测变量会导致一些信息丢失，从而转化为较低的功效。

在本文中，我们专注于多重插补分类数据的分析，特别是如何结合 MI 的分类分析结果进行整体推理。Rubin 组合规则依赖于每个插补数据集中估计的统计数据大致呈正态分布的假设，而分类分析并不总是如此。在应用 Rubin 规则以结合 Cochran-Mantel-Haenszel 检验的结果、共同比值的对数比值比和 Mantel-Haenszel 估计的结果，以及二项式比例的估计值及其治疗组之间的差异之前，我们展示了如何对估计的统计量使用归一化变换。这些分析在临床试验中很常见，我们希望本文中介绍的示例将有助于将多重插补应用于分类数据。与常见的单次插补方法相比，多重插补对已退出受试者的未观察到的结果做出不同的假设，并且在某些情况下，可以被认为更合理，和/或偏向于试验组。在 MAR 和MNAR 假设下都可以使用多重插补，一旦数据得到适当的插补，分析和合并方法就相同了。

我们进行的一项小型模拟研究表明，对于与治疗效果相关的假设检验，Rubin （1987）和 Li et al. （1991）的 Wilson-Hilferty 变换和卡方合并程序都可以成功地应用于卡方分布统计，这些统计是通过对多重插补数据执行 MH 检验得出的。这两种混合方法在统计功效和 I 型错误率方面的差异相当小，并且两种方法都将 I 型错误率保持在 5% 的标称水平内。当分类分析涉及大于 2×2 的表时，可以将相同的转换和汇集过程应用于 C1 × C2 表的（分层）CMH 检验。2×2 表的常见比值比也可以使用 MH 方法很好地估计，并在合并阶段进行后续对数转换。

从我们的模拟研究中，我们还观察到，与直接插补二分类终点相比，插补潜在连续终点时的统计功效更高。前一种插补方法也比 MAR 假设下的观察到的案例分析具有更好的功效。我们的模拟结果表明，在没有潜在连续参数并且 MAR 下的 2×2 表只关注比值比的情况下，可以仅使用观察到的案例以无偏的方式进行分析，并且功率损失较小。然而，即使在 MAR 假设下，通常也需要插补来获得其他统计数据的无偏估计，例如，比例及其差异，观察到的病例分析可能会有偏差。

应该注意的是，除了假设正态分布的估计统计量外，Rubin 组合规则还要求插补应该是适当的（即，基于贝叶斯后验预测分布），并且分析模型（应用于多个插补数据集）应与用于生成填充值的插补模型兼容（Rubin， 1987）. 可以通过在分析模型中使用与贝叶斯插补模型相同的似然规范来实现兼容性。对于我们在本文中讨论的一些分析，情况并非如此。例如，我们使用顺序 logistic 回归模型进行插补，但 CMH 和 MH 分析不是基于似然的。然而，文献中的现有证据表明，即使不满足这一要求，多重插补也表现良好（Shafer， 2003;van Buuren， 2007）。

附录：有关模拟设置的其他详细信息

模拟数据集有两个治疗组（P = 安慰剂和 E = 试验），每组 N=100 名受试者。纵向数据是使用多变量正常模型作为基础连续终点生成，基线和 3 次基线后访视，相关结构如下：

在最终基线后访视 Z3 时得出的二分类反应者状态是基于基线减少 50% 创建的，Z3=I{（y3-y0）/y0 <- 0.5}.

对于结果矩阵 Y 的平均结构，我们假设随时间变化的常数方差等于 1.5，并且两个治疗组的基线均值 μ0 =10。假设试验和安慰剂受试者的基线后访视均值从基线到最后一次访视 3 线性减少，并进行校准以确保二分类反应 P（Z3=1|T=“E”）和 P（Z3=1|T=“P”）根据模拟场景规范（见表 10）。为了校准均值，进行了数值积分以求解二分类反应的指定概率的 μ3 方程：如下所示

其中 φ 和 Φ 分别是标准普通 PDF 和 CDF;μ3|0 和 σ 3|0 是条件正态分布 f（ y3|y0）的平均值和标准偏差，ρ 是 y3 和 y0 之间的相关系数。为了获得最后一次基线后访视时所需的反应概率，从（5）中得出以下方法：

在模拟的缺失 MAR 模型下，只有结果恶化一定程度等于或大于某个临界值的受试者才“有资格”在基线后第 2 次或第 3 次访视时退出。一旦受试者达到这种 “dropout condition”，他/她就被假定以 γ 的概率停止。在保持γ=0.5 的情况下，我们校准了退出资格临界值，以确保安慰剂组中的退出达到所需的百分比。

Take home message：

1.就统计功效而言，3 种合并方法之间的差异相当小。随着脱落率增加，MH-CHP 和 MH-WHT 略优于 MHOR-LT。MH-WHT 在二分类尺度进行多重插补时比 MH-CHP 略有优势。
2.Wilson-Hilferty 变换和卡方合并程序在统计功效和 I 型错误率方面的差异相当小，并且两种方法都将 I 型错误率保持在 5% 的标称水平内。
3.与直接插补二分类终点相比，插补潜在连续终点时的统计功效更高。
4. If there are no missing data (i.e., no imputed values in the dataset), 95% CI is obtained using the Clopper-Pearson method based the observed data.
If missing values cannot be imputed since all observed value are identical, 95% CI is obtained using the Clopper-Pearson method basd on the observed data.

5.对于极端概率的CI，可以取下置信区间计算为 m个估算的较低 Clopper-Pearson CIs 中的最小值;置信区间上限计算为 m 个估算的 Clopper-Pearson 置信上限的最大值，点估计还是按照mianalyze的合并结果结算。

6.Crude率差CI，要求各个总体的样本大于等于2。

7.粗的OR的CI，如果分母是0，需要waldmodified法。粗的RR的CI，如果分母是0，需要waldmodified法，如果分子是0， wald法不适用。

参考文献

PharmaSUG 2013 - Paper SP03

Combining Analysis Results from Multiply Imputed Categorical Data

http://mp.weixin.qq.com/s?__biz=MzU3NzY1MzgxOQ==&mid=2247493055&idx=1&sn=23567a864c92574af640e6b8a2460ab0

流行病学与卫生统计学

Pivot数据交流平台，每周分享临床试验研究设计、实施、统计等相关信息。