Müller 和 Schäfer ﴾2001﴿ 发表的原始方法仅为自适应假设检验中保留 1 类错误的问题提供了解决方案。随后,Gao、Liu 和 Mehta ﴾2013﴿ 扩展了方法,以涵盖计算点估计、置信区间和 p 值的相关推理问题。
Müller 和 Schäfer 已经证明,只要试验的其余部分不膨胀条件拒绝概率﴾CRP﴿,即条件拒绝 H0 的条件概率,则所有这些变化都是允许的(包括最大样本量的变化,试验剩余部分的错误消耗率的变化,未来中期观察的数量和间距的变化,甚至改进了招募更多患者参加试验的资格标准)。设 Zj 为任意观察 j 的 Wald 统计量,并假设 zL 是其在look L观察值。然后,用 ε0 表示的 CRP 是给定 zL 的条件概率,即在零假设 H0 下,Zj 将在未来的某个时候越过停止边界。具体说来
该 CRP 是通过应用Armitage、McPherson和 Rowe ﴾1969﴿的递归积分算法计算得出的。
我们希望获得 δ 的置信区间和点估计值,以及假设检验的 p 值,即 δ = 0,并要求这些估计值在试验有适应性变化时在统计上有效。East为这个问题提供了两种方法。
The Repeated Confidence Intervals ﴾RCI﴿ Method.
该方法基于对 Jennison 和Turnbull ﴾2000﴿ 的重复置信区间的推广,此处称为 RCI 方法。RCI 方法利用了置信区间和假设检验之间的二元性,认识到 97.5% 置信界的下限将排除小至 h 的处理效应,当且仅当相应的单侧组序贯假设检验 Hh : δ≤h 被拒绝,转而支持δ > h 在水平 α = 0.025 的备择假设。基于这个想法,置信下限是通过搜索最大的h来获得的,该h不能被有效的水平-α假设检验所拒绝,该假设检验考虑了适应性。RCI 方法提供了保守的 p 值和置信度区间,对未知δ的保守覆盖率。它不提供δ的点估计。重复置信区间在每次中期分析以及最终分析中都可用。因此,它们对于数据监测委员会审查临时效果数据非常有用。他们保守的事实实际上在中期分析时是有利的,因为它不鼓励过早停止审判。最后,RCIs是一致的。也就是说,在任何分析时间点,当且仅当相应的检验统计量越过功效边界时,RCI 才会排除δ。有关RCI方法的完整技术细节,请参阅Mehta,Bauer,Posch和Brannath ﴾2007﴿。
The Backward Image Confidence ﴾BWCI﴿ Interval.
该方法基于对 Tsiatis、Rosner和 Mehta ﴾1984﴿ 产生的阶段调整置信区间进行推广。它基于这样一种思想,即适应后的检验统计量的最终值可以映射到原始的、未适应的设计中的相应值。此映射值称为向后图像。一旦计算了倒退图像,就可以通过 Tsiatis、Rosner 和 Mehta﴾1984﴿ 的方法获得相应的置信区间、p 值和点估计。因此,这种方法被称为 BWCI 方法。BWCI区间提供精确的覆盖范围和未知δ的中位数无偏点估计值。然而,与RCI方法不同,它仅在最终分析时可用。与RCI方法一样,BWCI方法与相应的假设一致。有关BWCI方法的完整技术细节,请参阅Gao,Liu和Mehta﴾2013﴿。
We begin with a one sided level 0.025, three look, group sequential design, with LD(OF )spending function, for testing the difference of means, δ, in a two arm randomized clinical trial with a normally distributed primary endpoint. The study is designed to have 90% power to detect δ = 15 at σ = 50.
假设进行了第一次观察,当 n1 = 158 个受试者的数据可用时。此外,假设均值的观测差值为ˆδ1 = 8,观测标准差为 ˆσ1 = 55。
t 1=158/473=0.334,b 1=3.706,z 1=0.914
δ = 8,σ = 55,结果为 δ/σ = 0.145。如果试验在不进行任何设计修改的情况下进行,则条件功效为0.311。为了获得条件类型-1 错误﴾或条件拒绝概率﴿,我们在 δ/σ 编辑框中输入值 0,然后按Recalc。
条件 type‐1 误差为 ε0 = 0.038。
我们现在希望重新设计试验,在 δ = 10 和 σ = 50 时具有 90% 的功效,具有两个未来look和一个 LD(PK) 误差消耗函数。为了实现这种调整,我们对第二阶段的设计进行了更改,如下所示
由于 I 期设计在look 1 结束时,样本量为 158 名患者,因此该自适应设计的两个阶段的累积样本量现在为 1200 名患者。
通过将光标分别放在两个look上,可以查看停止边界
接下来,选择 Integrated Design 单选按钮,查看组合成一个集成设计的 Stage I 和 Stage II 组件。
请注意,第一阶段的总样本量为1200 ﴾158来自第一阶段,第二阶段的总样本量为 1042﴿﴿,LD(PK) 花费函数用于集成设计的look 2 和 3。我们将使用上标 (c) 来表示集成设计的样本量、停止边界和检验统计量。在符号中,
假设第一阶段 K (1) look I 的监测适应性变化生效,L <K (1)。假设适应性变化后获得的所有新数据都通过第二阶段 K (2)-look 试验进行监测。可以证明,分别监测主要和次要试验等同于监测由L + K (2)个look组成的单一综合试验。整合试验Look L + j, j = 1, 2, . . 处的检验统计量的值是
在整合试验的 L + j 处的停止边界的值为
假设在另外 521 名受试者进入研究后对数据进行监测,导致累积样本为 158 + 521 = 679。假设基于 679 名受试者的累积数据的新 δ 估计值为 9.5,对应的标准差为52.759,
现在,累积检验统计量的观测值为2.346,超过了相应的功效边界 2.182。
East 显示最终统计数据,包括最终 p 值、点估计值和 δ 的 BWCI 置信区间。
上述 p 值、点估计值和 95% 置信区间都已进行了调整,以考虑试验的适应性。观察发现,95%反向调整置信区间﴾BWCI﴿﴾1.193, 16.894﴿比中期监测工作表中显示的95%重复置信区间﴾RCI﴿﴿﴾0.613﴾6.699﴿窄。这是因为BWCI方法比Gao、Liu和Mehta﴾2013﴿中讨论的RCI方法更有效。
参考文献: East用户手册