在临床试验的设计阶段,当没有可用的数据时,人们依赖于关于治疗组疗效的初始假设来进行功效计算。然而,一旦试验开始,数据就开始积累,并可用于预测试验的未来进程。这些预测分为两类;按治疗组合并和来自未合并数据的预测。对于试验申办者来说,在试验进行期间,他们必须对结果保持盲态,来自汇总数据的预测是唯一的选择。另一方面,数据监测委员会确实可以访问按治疗组划分的数据,因此能够以非盲法的方式对试验的未来进程进行预测。在本章中,我们只关注来自非盲数据的预测。做出这种预测的一种流行方法是使用条件把握度(CP)。在本章中,我们提出了一种替代的图形预测方法,利用了Evans, Li and Wei﴾2007﴿ and Li, Evans﴾Uno and Wei ﴾2009﴿提出的预测区间图﴾PIPS﴿。这些图通过生成一系列重复的置信区间为未来时间点提供了试验未来可能结果的视觉展示,这些置信区间以当前数据为条件。CP是自动随之产生的,它提供了关于处理效应的大小及其相关不确定性的额外见解。
下面只介绍time to event数据类型的模拟解读,定性和定量的操作与time to event类似。
A clinical trial of non small cell lung cancer was designed for 80% power to detect a hazard ratio of 0.8 at α = 0.05 ﴾two‐sided﴿ with three equally spaced looksusing a Lan‐DeMetsO’Brien‐Fleming type ﴾LD(OF)﴿ spending function. The primary endpoint was overall survival﴾OS﴿. With these inputs, 641 OS events are needed to achieve 80% power. The median OS for the control arm was assumed to be 10 months. Based on 18 months of enrollment and an additional 12 months of follow‐up this 30‐month trial requires 639 events from a sample size of 897 patients.
尽管第一次中期分析计划在 213 个事件之后进行,但由于招募速度快,它发生得更早,只在 119 个事件之后进行,然后import这些数据如下图:
TrtmntID ﴾1=control, 2=experimental﴿;
SRVMON ﴾time since entering the trial in months﴿;
ArrivalTime ﴾time of entry into the trial﴿,
Censor1﴾1=alive; 0=dead, ‐1=lost to follow up﴿;
Censor2 ﴾1=alive, 0=dead or lost to follow up﴿.
请注意存在两个censor变量。Censor1表示带有 -1 的drop out,由生成 PIP 的程序使用。Censor2 表示drop out或管理型删失的患者,被计算 Logrank 检验的分析程序使用。
在执行第一次中期分析之前,我们必须从此中期分析数据集中估计风险比及其标准误差。
在期中监测(IM)板块录入点估计和SE,结果输出如下:
第一次中期分析的结果不是很有希望。当前趋势下的条件功效﴾HR=0.919﴿仅为0.156,预测功效仅为0.403。
预测区间图﴾PIPs﴿可以通过模拟试验的未来过程来提供一些额外的见解,这些试验的条件是已经获得的数据和对两条生存曲线的风险率的假设。
现在,我们可以生成预测区间图。如前所述,这些是基于已观察到的数据和对未来look的风险比估计值的重复置信区间。由于第一次LOOK的时间早于计划,因此仍有三个额外的临时LOOK﴾﴾2、3 或 4﴿ 。
这些未来look的边界已根据指定的error spending 函数重新计算。
假设我们希望为look 4 生成1000 个 PIP,忽略中间look。
为 look 4 生成了 1000 个重复置信区间﴾RCIs﴿,按照其对应的估计风险比的递增顺序进行排序,并相互堆叠。
让我们检查一下生成的 PIP。黑色水平线是当前 ﴾look 1﴿ 的 RCI。请注意,与当前 RCI 相比,look 4 的 RCI 要窄得多。默认情况下,垂直光标位于 X 轴上的 HR=1。在这个位置上,可以看到 19.1% 的 RCI 的上限小于 1,这表明在当前 HR=0.919 的趋势下,该试验在look4 ﴾忽略所有中间look﴿﴿ 处成功结果的概率为 0.191。
可以向右或向左拖动垂直光标,以查看有多少百分比的试验将成功切断除 1 以外的风险比。现在,让我们将垂直光标保留在 HR=1。请注意 Y 轴附近带有彩色条带的粗垂直条。该波段显示模拟生成的风险比分布的分位数。中位数两侧的每种颜色都包含生成的风险比的 5%。因此,例如,柱线上的最低五个波段(以 HR=0.871 结束)代表生成的风险比的 25%。换句话说,风险比的第 25 个下分位数是 0.871。
由于该 PIP 中只有 19.1% 的 RCI 导致了具有统计学意义的结果﴾RCI 上限小于 1﴿,因此人们可能会权衡终止试验的选项是否无效。
然而,上述 PIP 是在风险比为0.919 的假设下生成的,根据外look 1 数据估计,是实际风险比。这一估计存在不确定性。因此,在设计阶段假设基础HR=0.8的情况下,对无效终止采取保守的方法并重新运行PIP,这将是可取的。
在该 PIP 中,73.2% 的 RCI 的上限不包括 HR=1。因此,鉴于 HR 真实价值的不确定性,以无效为由终止该试验还为时过早,试验将继续进行下一次中期分析。
接下来导入第二次期中分析的数据:
接下来,以与look 1 相同的方式对look 2 数据执行 logrank 测试。结果将显示如下图所示。
从这个角度来看,在 258 个事件之后,风险比估计值为 1.019。进入期中监测(IM),Cumulative Events=258,Estimate of delta = ln(1.019),Standard Error of Estimate of
delta = 2/sqrt(258)。
现在,在当前趋势下的条件功效仅为0.014,预测功效仅为0.108。试验成功的可能性很小,以无效为由终止试验似乎是一个合理的选择。然而,在做出最终决定之前,在假设 HR=0.8 仍然正确并且观察值 HR=1.019 是由于数据的可变性的情况下,获得未来试验过程的 PIP 可能是可取的。因此,我们调用 PIP 对话框,输入值 0.8 作为风险比,并模拟试验的其余部分 1000 次。
我们观察到 20% 的 RCI 的上限低于1。这表明,如果试验继续进行,并且真实风险比确实是0.8,则试验成功的几率为0.2。但是,这些成功的结果中有多少被认为具有临床意义?
假设观察到的HR值超过0.85的试验对申办者没有任何兴趣,因为市场上有其他针对该治疗领域的化合物具有较小的风险比。那么问题就变成了,1000 个 RCI 中有多少的上限低于0.85。要回答此问题,请将垂直光标移动到 X 轴上的0.85。这可以通过拖动光标来完成,或者﴾更方便﴿﴿ 通过在 PIP 的 Read-offs面板顶部的编辑框中输入值 0.85。
可以看出,0.2% 的 RCI 的上限低于 0.85,尽管我们在真实 HR=0.8 的乐观假设下生成了 PIP。显然,因无效无功而终止试验是可取的。
这个例子表明,RCI提供的信息比从有条件的功率(CP)计算中获得的信息要多。PIP 可用于确定是否可以排除具有临床意义的治疗效果。
参考文献:East用户手册