在序贯设计中,对新出现的数据进行一次或多次期中分析,以评估是否应继续实验。这样做可能是为了节省资源,或者允许数据监测委员会在长时间内对交错方式进入受试者时评估安全性和有效性。条件功效(一个频率概念)是给定在临时观察之前获得的数据,最终结果将是显着的概率。预测功效(贝叶斯概念)是将条件功效平均于效应大小后验分布的结果。这两种方法都属于随机缩减技术。关于这些方法的理论可以在Jennison和Turnbull(2000),Chow和Chang(2007),Chang(2008),Proschan
et.al(2006)和Dmitrienko
et.al(2005)中找到。
此文章介绍计算使用双样本 z 检验来检验两个比例之间的非劣效性时的情况的条件和预测功效。它还提供指定的条件功效值前提下,样本量的重新估计。
实验的功效表明的是在给定样本量的情况下,研究是否有可能产生有用的结果。低功效意味着该研究是无效的:即使替代假设是正确的,也几乎没有统计学意义的机会。无效的研究不应开始。然而,只有在研究开始后才能确定无效。当这种情况发生时,研究就会停止。
正在进行的研究的无效可以通过计算其条件功效来确定:根据迄今为止获得的数据,计算研究完成时具有统计显着性的概率。
需要注意的是,在收集任何数据之前,研究开始时的条件功效等于无条件功效。因此,即使早期结果是负面的,条件功效也会很高。因此,条件功效很少会在研究的早期导致研究停止。
从 Jennison 和Turnbull (2000) 第 205 页到 208 页,给定观察到的检验统计量 Zk,在研究结束时拒绝关于参数 θ 的零假设的阶段 k的上单侧条件功效计算为
阶段 k 的下单侧条件功率计算为
其中
θ = 假设检验的参数
k = 计算条件功效的期中阶段 (k = 1, ..., K – 1)
K = 研究终止的阶段,并计算出最终检验
Zk = 根据收集到阶段 k 的观测数据计算出的检验统计量
Ik = 阶段 k 的信息水平
IK = 结束时的信息水平研究
Z1−α= I 类错误率为 α 的检验的标准正态值。
设 P1 和 P2 分别为组 1 和组 2 中的人群比例。如果我们定义 δ= P2 − P1,使得 δ0 =P2.0 − P1 是非劣效性差界值,δ1 = P2.1 − P1 是备择假设下的真实总体差,δhatk = p2k− p1k 是与阶段 k 观测数据的估计比例差,则参数 θ 检验 H1 的单侧非劣效性备择假设:H1:δ >δ0(比例越高越好)或 H1:δ<δ0(比例越高越差)和 Chang (2008) 第 70 页和第 71 页中概述的其他条件功率计算部分是
计算条件功效需要设置 P1、P2.0 或 δ0 和 P2.1 或 δ1。它们的值可以来自研究计划期间使用的值、类似研究或根据出现的数据做出的估计。
无效指数为 1 − Pk(θ)|H1。如果该指数高于 0.8 或 0.9(即,如果条件功率低于 0.2 或 0.1),则研究可能会停止。
预测功效(贝叶斯概念)是将条件功效平均于效应大小后验分布的结果。从 Jennison 和 Turnbull (2000) 第210 页到 213 页,阶段 k 的上单侧预测功效由下式给出
阶段 k 的低单侧预测功效由下式给出
所有项都定义为条件功效方程中。
正如Chang(2014)所指出的,在中期分析之后,通常希望使用各种干扰参数(如方差)的更新值来重新计算目标样本量。此过程称为样本数量重新估计。
计算调整后的样本数量估计值的一种方法是搜索导致条件功效预定值的样本数量。PASS以条件功效为标准进行二进制搜索。结果称为目标样本数量。
条件功效实例:
假设已经计划了一项研究,并且将使用单侧非劣效性 z 检验对 δ0 = -0.05 进行分析,而 alpha 为 0.025。参照组比例 (P1) 为0.6,因此 δ0 = -0.05 对应于 P2.0 = P1 + δ0 = 0.6 + (-0.05) =0.55的非劣效性比例。目标样本量为每组 60 人。
计划在收集一半数据后进行中期分析。数据监察委员会希望计算 δ1 = 0 和 z 值 1、1.5、2、2.5、3 和 3.5的条件功效。
第一步:参数录入
第二部:结果输出
下图显示了条件功效与Zk之间的关系。
我们将手动验证示例 1 的第三种情况 (Zk = 2) 的计算。
样本量重估实例:
假设一项研究已经开始,并且将使用单侧非劣效性 z 检验对 δ0 = -0.05 进行分析,α 为0.025。参照组比例 (P1) 为 0.6,因此 δ0 = -0.05 的对应于 P2.0 = P1 + δ0 = 0.6 + (-0.05) =0.55 的非劣效性比例。最初的目标样本量为每组 60 人。
在收集到一半的数据后进行中期分析。该分析得出的 z 检验值为 2.12.
发现 P1 的值(参考组的比例)为0.643。
数据监测委员会希望重新估计样本数量,以实际差值 δ1 = 0 (P2.1 = P1 + δ1 = 0.6 + 0.6) 和条件功效为 0.8。
第一步:参数录入
第二部:结果输出
请注意,目标样本数量已从每组 60 个 (N = 120) 增加到每组 1162 个 (N = 2324)。
Take home message:
1.以下两句话很重要,不明白可以重新看一下文中的公式:
Conditional Power The probability of rejecting a false null hypothesis at the end of the study given the data that have emerged so far.
Predictive Power The result of averaging the conditional power over the posterior distribution of the effect size.
2.自己做项目的时候,除了用不同软件验证外,公式法手动验证是最推荐的方式。
3.参考文献都是PASS公司提供的,通过help-more help topics-reference-search“author”,可以找到文章全名,然后去SCI-Hub和必应搜索,大部分文章都可以查到。
4.定量和time to event的条件功效计算和定性类似,无非是noise的来源,定量是直给,定性来自于率本身,time to event来自于入组和随访时间或者事件发生率。
参考文献:
Jennison, C., and Turnbull, B.W. 2000. Group Sequential Methods with Applications to Clinical Trials. Chapman &Hall/CRC. New York.
Proschan, M., Lan, K.K.G., Wittes, J.T. 2006. Statistical Monitoring of Clinical Trials. Springer. New York.
Chang, Mark. 2008. Classical and Adaptive Clinical Trial Designs. John Wiley & Sons. Hoboken, New Jersey.
Chang, Mark. 2014. Adaptive Design Theory and Implementation Using SAS and R. CRC Press. New York.
Dmitrienko,A., Molenberghs,G., Churang-Stein, C., Offen, W. 2005. Analysis of Clinical Trials Using SAS: A Practical Guide. SAS Institute Inc. Cary, NC.
Chow, S.C. and Chang, M. 2007. Adaptive Design Methods in Clinical Trials. Chapman & Hall/CRC. Boca Raton, Florida.