Muller and Schafer method在East中的模拟解读

2024-08-10 14:00   上海  

Müller Schäfer 2001﴿ 发表的原始方法仅为自适应假设检验中保留 1 类错误的问题提供了解决方案。随后,GaoLiu Mehta 2013﴿ 扩展了方法,以涵盖计算点估计、置信区间和 p 值的相关推理问题。

Müller Schäfer 已经证明,只要试验的其余部分不膨胀条件拒绝概率CRP﴿,即条件拒绝 H0 的条件概率,则所有这些变化都是允许的(包括最大样本量的变化,试验剩余部分的错误消耗率的变化,未来中期观察的数量和间距的变化,甚至改进了招募更多患者参加试验的资格标准)。设 Zj 为任意观察 j Wald 统计量,并假设 zL 是其在look L观察值。然后,用 ε0 表示的 CRP 是给定 zL 的条件概率,即在零假设 H0 下,Zj 将在未来的某个时候越过停止边界。具体说来

CRP 是通过应用ArmitageMcPherson Rowe 1969﴿的递归积分算法计算得出的。

我们希望获得 δ 的置信区间和点估计值,以及假设检验的 p 值,即 δ = 0,并要求这些估计值在试验有适应性变化时在统计上有效。East为这个问题提供了两种方法。

The Repeated Confidence Intervals RCI﴿ Method.

该方法基于对 Jennison Turnbull 2000﴿ 的重复置信区间的推广,此处称为 RCI 方法。RCI 方法利用了置信区间和假设检验之间的二元性,认识到 97.5% 置信界的下限将排除小至 h 的处理效应,当且仅当相应的单侧组序贯假设检验 Hh δ≤h 被拒绝,转而支持δ > h 在水平 α = 0.025 择假设。基于这个想法,置信下限是通过搜索最大的h来获得的,该h不能被有效的水平假设检验所拒绝,该假设检验考虑了适应性。RCI 方法提供了保守的 p 值和置信度区间,对未知δ的保守覆盖率。它不提供δ的点估计。重复置信区间在每次中期分析以及最终分析中都可用。因此,它们对于数据监测委员会审查临时效果数据非常有用。他们保守的事实实际上在中期分析时是有利的,因为它不鼓励过早停止审判。最后,RCIs是一致的。也就是说,在任何分析时间点,且仅当相应的检验统计量越过功效界时,RCI 才会排除δ有关RCI方法的完整技术细节,请参阅MehtaBauerPoschBrannath 2007﴿

The Backward Image Confidence BWCI﴿ Interval.

该方法基于对 TsiatisRosner Mehta 1984﴿ 产生的阶段调整置信区间进行推广。它基于这样一种思想,即适应后的检验统计量的最终值可以映射到原始的、未适应的设计中的相应值。此映射值称为向后图像。一旦计算了倒退图像,就可以通过 TsiatisRosner Mehta1984﴿ 的方法获得相应的置信区间、p 值和点估计。因此,这种方法被称为 BWCI 方法。BWCI区间提供精确的覆盖范围和未知δ的中位数无偏点估计值。然而,与RCI方法不同,它仅在最终分析时可用。与RCI方法一样,BWCI方法与相应的假设一致。有关BWCI方法的完整技术细节,请参阅GaoLiuMehta2013﴿

We begin with a one sided level 0.025, three look, group sequential design, with LD(OF )spending function, for testing the difference of means, δ, in a two arm randomized clinical trial with a normally distributed primary endpoint. The study is designed to have 90% power to detect δ = 15 at σ = 50.

假设进行了第一次观察, n1 = 158 个受试者的数据可用时。此外,假设均值的观测差值为ˆδ1 = 8,观测标准差为 ˆσ1 = 55

t 1=158/473=0.334b 1=3.706z 1=0.914

δ = 8σ = 55,结果为 δ/σ = 0.145。如果试验在不进行任何设计修改的情况下进行,则条件功效为0.311。为了获得条件类型-1 错误或条件拒绝概率﴿,我们在 δ/σ 编辑框中输入值 0,然后按Recalc

条件 type‐1 误差为 ε0 = 0.038

我们现在希望重新设计试验,在 δ = 10 σ = 50 时具有 90% 的功效,具有两个未来look和一个 LDPK) 误差消耗函数。为了实现这种调整,我们对第二阶段的设计进行了更改,如下所示

由于 I 期设计在look 1 结束时,样本量为 158 名患者,因此该自适应设计的两个阶段的累积样本量现在为 1200 名患者。

通过将光标分别放在两个look上,可以查看停止边界

接下来,选择 Integrated Design 单选按钮,查看组合成一个集成设计的 Stage I Stage II 组件。

请注意,第一阶段的总样本量为1200 158来自第一阶段,第二阶段的总样本量为 1042﴿﴿LDPK) 花费函数用于集成设计的look 2 3。我们将使用上标 (c) 来表示集成设计的样本量、停止边界和检验统计量。在符号中,

假设第一阶段 K 1look I 的监测适应性变化生效,L <K 1)。假设适应性变化后获得的所有新数据都通过第二阶段 K 2-look 试验进行监测。可以证明,分别监测主要和次要试验等同于监测由L + K 2)个look组成的单一综合试验。整合试验Look L + j j = 1 2 . . 处的检验统计量的值是

在整合试验的 L + j 处的停止边界的值为

假设在另外 521 名受试者进入研究后对数据进行监测,导致累积样本为 158 + 521 = 679。假设基于 679 名受试者的累积数据的新 δ 估计值为 9.5,对应的标准差为52.759

现在,累积检验统计量的观测值为2.346,超过了相应的功效边界 2.182

East 显示最终统计数据,包括最终 p 值、点估计值和 δ BWCI 置信区间。

上述 p 值、点估计值和 95% 置信区间都已进行了调整,以考虑试验的适应性。观察发现,95%反向调整置信区间BWCI﴿﴾1.193 16.894﴿比中期监测工作表中显示的95%重复置信区间RCI﴿﴿﴾0.6136.699﴿窄。这是因为BWCI方法比GaoLiuMehta2013﴿中讨论的RCI方法更有效。

参考文献: East用户手册

流行病学与卫生统计学
Pivot数据交流平台,每周分享临床试验研究设计、实施、统计等相关信息。
 最新文章