Introduction
临床试验通常旨在检验两个生存分布的差异性。在这种情况下,双样本 t 检验并不适用,因为事件发生时间数据通常不呈正态分布,许多个体在研究结束后仍然存活,从而导致观察结果被删失。相反,对数秩检验用于比较两个生存分布,因为它易于应用,并且通常比仅基于比例的分析更有效。它比较整个时间范围内的生存率,而不仅仅是一两个点,并且考虑了删失。
在分析事件发生时间数据并计算功效和样本量时,当研究中的个体死于与感兴趣的风险因素不直接相关的风险因素时,就会出现复杂情况。例如,研究人员可能希望确定与标准治疗相比,某种疾病的新药是否能延长患者的生存时间。因此,研究人员会想知道每个患者在死于该疾病之前能活多久。然而,在研究过程中,患者还可能死于其他风险,如心肌梗塞、糖尿病,甚至意外。当患者死于这些其他风险因素之一时,则无法观察到主要关注事件,因此永远无法确定该患者疾病的真实事件发生时间。在这个例子中,主要关注事件将是直接归因于疾病的死亡。所有其他类型的死亡被称为竞争风险。
当已知时,应调整功效和样本量计算以考虑竞争风险。如果结果不调整,则为主事件的logrank 检验计算的Power可能被严重高估,这取决于竞争风险的发生率(见例3e)。
本文基于Pintilie(2006)和Machin等人(2009)中提出的公式,它们都是基于原始论文Pintilie(2002)。本模块中的功效和样本数量计算使用,假设涉及事件的时间和竞争风险失败的时间是独立的,并且呈指数分布。该模块还假定受试者均匀入组。
Definitions
Cumulative Incidence
累积发生率定义为特定事件(例如发生特定的疾病,将发生在固定的时间点T0之前。它也可以被认为是在时间点 T0 之前经历事件(例如,失败或死亡)的个体。累积发病率函数将在下面的公式和讨论中指定为 F(T0)。
Survival Proportion
存活率表示存活超过固定时间点 T0 的个体比例。它可以也被认为是一个人在时间点 T0 之后存活的概率。生存给定时间点的比例通常使用非参数 Kaplan-Meier 曲线进行估计。这
生存函数将在下面的公式和讨论中指定为 S(T0)。
Event of Interest
感兴趣的事件是指试验或实验中主要关注的风险因素。例如在一项关于癌症生存的研究中,感兴趣的主要事件是直接归因于癌症的死亡。这感兴趣的事件将在下面的公式和讨论中用下标 EV 表示。
Competing Risks
竞争风险是指可能导致主体在感兴趣的事件发生之前失败的所有其他风险因素被观察。例如,在一项癌症生存研究中,还有许多其他原因可能导致患者的死亡,例如事故、心脏病或糖尿病。这些其他原因称为竞争风险。竞争风险将在随后的公式和讨论中用下标 cr 表示。
Assumptions
logrank tests中的功效和样本数量计算基于以下内容假设:
1. 相关事件和竞争风险的失败时间是独立的。
2. 失败时间呈指数分布。
3. 受试者均匀入组试验。
The Cumulative Incidence Function
在没有竞争风险的情况下,在指数假设下,累积发生率函数对于时间 T0 时组 i 中感兴趣的事件,给出为
其中 HEV,I 是第 I 组中感兴趣事件的危险率。请注意,在没有竞争的情况下风险
其中 Sev,i(T0) 是累积生存函数,定义如下。在存在竞争风险的情况下,时间 T0 时组 i 中感兴趣事件的累积发生率函数为
其中 HCR,I 是第 i 组中竞争风险的风险率。竞争的累积发生率函数时间 T0 时组 i 的风险为
通过求解这个方程组,第 I 组的危险率由累积发生率计算为
The Cumulative Survival Function
在指数分布假设下,感兴趣事件的累积生存函数在时间 T0 时,第 i 组的竞争风险为
其中 HEV,i 是 I 组中感兴趣事件的危险率,HCR 是竞争性事件的危险率第 I 组的风险。累积生存函数通常使用 Kaplan Meier 进行非参数估计曲线。
第 i 组中感兴趣事件和竞争风险的风险率由累积生存函数为
Hazard Ratio
功率计算中使用的风险比是根据感兴趣事件的危险率计算得出的,为
治疗组的危险率除以对照组的危险率。危险率可以使用上述累积生存率或累积发生率进行计算。
Probability of Event
对于感兴趣e事件和竞争风险的风险率,在组 i 中观察到主题感兴趣事件的概率,Prev,i 给出为
其中 T 是总时间,R 是入组时间。随访时间由T和R计算为:
在两组研究期间观察到感兴趣事件的总体概率如下
其中 p1 是第 1 组(对照组)中受试者的比例。
Number of Events
在处理事件发生时间数据时,它是观察到的事件数量,而不是受试者的总数
这对于实现指定的功率很重要。所需的事件总数(对于interest)、E 由总样本量 N 计算得出,Prev 为
i组事件的数量计算为
其中ni是第i组的样本量。
Logrank Test Statistic
下面给出的功效和样本数量公式是 logrank 检验统计量,由下式给出
其中 E 是感兴趣类型的事件数,Yij是第I组第J次观测事件,Ik is 是一个二元变量,指示感兴趣类型的第 k 个事件是否来自组 1。L 服从标准正态分布。
Power Calculations
假设一个指数模型和感兴趣事件和竞争事件的失败时间的独立性,Pintilie(2006)给出了以下与E和power相关的方程:
此功效公式表明,对于实现 logrank 检验所需的功效至关重要的是观察到的事件总数,而不是受试者的数量。
Sample Size
可以重新排列power公式以求解 E,即所需的事件总数。公式为
总样本量可以从 E 和 Prev 计算为
各个组的样本数量计算为
其中 p1 是第 1 组(对照组)中受试者的比例。
Loss to Follow-Up
对于大多数研究,为研究招募的一定比例的个体将退出,并且将失去后续随访。这些人永远不会为研究贡献事件,并且必须被视为审查,就像那些在没有经历过事件的情况下完成研究的人一样。必须调整样本量以考虑这些人,以便计算研究的正确功效。调整后的样本量公式由下式给出
其中 W 是失访比例。求解功效或最大效应大小时,此调整将应用于在计算功效之前输入的样本数量。因此,实际用于计算功效或效应量的样本量为
求解样本数量时,此调整是在计算所需样本数量后进行的,因此实际返回的样本数量为 Nadjusted,它大于在后续研究中没有丢失个体时所需的样本数量。当没有失访时,则 W = 0,Nadjusted =N,Nused= Nentered 。
Example 1 – Finding the Power
A group of researchers is planning a clinical trial using a parallel, two-group, equal sample allocation designto compare the survivability from a new treatment for a particular disease with that of the current treatment. They have information about the cumulative incidences for the disease and competing risk factors. The cumulative incidence for the disease under the current treatment is 0.10 after 3 years. They want to find the power for a logrank test if the cumulative incidence is reduced by 50% under the new treatment, so the treatment cumulative incidence is 0.05 after 3 years. The cumulative incidence from competing risks is 0.65 after 3 years for both groups.
The trial will include a recruitment period of 4 years, after which participants will be followed for an additional 3 years. The researchers estimate a loss to follow-up rate of 10% over the entire study.
The researchers decide to investigate sample sizes between 100 and 900 at a significance level of 0.05.
Setup
Numeric Reports
Example 2 – Finding the Sample Size
继续前面的示例,研究人员希望研究在 0.05 显著性水平下实现 0.4 和 0.8 之间风险比的90% 功效所需的样本量。随访时间为2年、3年、5年。所有其他参数将保持不变。
Setup
Output
Example 3a – Validation 1 using Pintilie (2006)
Pintilie (2006) 第 122-124 页提供了一系列与计算功效相关的示例,用于测试一种预计对缺氧癌细胞具有选择性毒性的新药物。这种新药很重要,因为以前的研究表明,缺氧性肿瘤患者比肿瘤不缺氧的患者更容易出现衰竭。将使用两组随机研究来测试新药。他们希望检测出 0.5 的风险比。(书中特别指出,他们希望检测的风险比为2,但他们将HR定义为hev1/hev2。PASS 将风险比定义为 HR = hev2/hev1,因此我们将使用 HR 的值1/2 = 0.5。该测试将在 0.05 的显着性水平下进行,感兴趣的主要事件的对照生存率在 3 年时为 0.5,竞争风险在 3 年时为 0.4。入组时间为3年,随访时间为2年。样本量为 150 人,因为他们预计在应计期内每年招募 50 人。他们报告说,此计算的功效为 0.6162274。
Setup
PASS 计算的 0.6162274 值与 Pintilie(2006) 报告的功率值完全相同。
Example 3b – Validation 2 using Pintilie (2006)
存比例。对照组感兴趣事件的累积发生率值在 3 年时为 0.345,对照组竞争风险在 3 年时为 0.455。所有其他参数保持不变。他们报告说,此计算的功效为 0.6168332。
Setup
Output
PASS 计算的 0.6168332 值与 Pintilie(2006) 报告的功率值完全相同。
Example 3c – Validation 3 using Pintilie (2006)
根据前面的验证示例,Pintilie(2006)提出了在相同情况下计算功效的结果,除了预期治疗将对竞争风险产生影响。治疗组感兴趣事件的生存率在3年时为0.706,治疗组竞争风险的生存率为0.3。所有其他参数与示例3a中的参数相同。
他们报告说,此计算的power为 0.5924636。
Setup
Output
PASS 计算的 0.5924636 值与 Pintilie(2006) 报告的功率值完全相同。
Example 3d – Validation 4 using Pintilie (2006)
根据前面的验证示例,Pintilie(2006)提出了在相同情况下计算功效的结果,并期望该处理将对竞争风险产生影响。他们现在使用累积发病率而不是生存比例。治疗组感兴趣事件3 年的累积发生率为 0.177,治疗组竞争风险的累积发生率为 0.61。所有其他参数与示例 3b 中的参数相同。他们报告说,此计算的功效为 0.5958667。
Setup
Output
PASS 计算的 0.5958667 值与 Pintilie 报告的功率值完全相同(2006)。
Example 3e – Validation 5 using Pintilie (2006) – Ignoring Competing Risks
在第124页,Pintilie(2006)提出了一个与示例3c相同条件下的示例,除了它们
现在说明忽略竞争风险的影响。要忽略竞争风险的影响,只需将竞争风险的生存比例为一个,这意味着没有人会因竞争风险而失败。所有其他参数保持不变。
他们报告说,此计算的功效为 0.7969974。
Setup
Output
PASS 计算的值0.7969974 与 Pintilie 报告的功率值完全相同(2006). 将该值与例 3c 中计算的0.5924636 的power值进行比较,
在不忽视竞争风险的情况下,我们可以看到,如果忽略竞争风险,power可能会被严重高估。
Example 4 – Validation using Machin et al. (2009) and Pintilie (2002)
Machin et al. (2009) 提出了一个最初用于 Pintilie (2002) 的示例,该示例计算了
一项旨在确定乳腺癌中心肌梗死 (MI) 发生率的实验幸存者受到切向放射治疗的影响,已知这些放射治疗会在以下情况下照射心脏给予左乳房,但给予右乳房时不给予。该患者竞争风险的发生率人口很大,因为只有一小部分人活得足够长,可以经历心肌梗死,这是感兴趣的事件。右侧治疗的患者(对照组)在 10 年 MI 的预期发病率为1.5%, 左侧治疗的患者(治疗)为3%。
两组在10年时的竞争风险发生率为68%。入组定为9年,随访10年。对于显著性水平为0.05 的双侧检验,需要什么样本量才能达到 80% 的功效?
Machin et al. (2009) 和 Pintilie (2002) 报告了以下结果:
Setup
output
PASS 计算的样本量 2355 与 Machin et al. (2009) 和 Pintilie (2002) 计算的2519 值略有不同。差异是由于四舍五入造成的。在计算样本量之前,两者都将风险比四舍五入为 0.5(在 PASS 中为 2)。实际风险比为0.49(即 2.04089 in PASS),这导致PASS 中的样本量不同。PASS计算出的危害率和事件概率与作者计算的完全一致。
Machin 等人(2009 年)报告说,当风险比未四舍五入到 0.5 时,第二个样本量为 2367。
这与PASS计算的样本量略有不同。这里的差异是由于Machin在计算样本数量之前将计算出的事件数四舍五入为62,而PASS使用61.7来计算样本数量。
您可以加载设置文件示例 4b 以获得以下结果,求解功率。
大小。此外,在样本数量为 2367 时,所需的事件数量为 62,这是 Machin 用于得出其计算样本数量的值。在计算样本数量之前,PASS 不会对事件数进行四舍五入。
Take home message:
1. 如果忽略竞争风险,power可能会被严重高估。
2. 四舍五入的精度问题,运用不同tool,可能power和sample size会有差异。
References
Machin, D., Campbell, M.J., Tan, S.B., Tan, S.H. 2009. Sample Size Tables for Clinical Studies, Third Edition.Wiley-Blackwell, Chichester, United Kingdom.
Pintilie, M., 2006. Competing Risks: A Practical Perspective. John Wiley & Sons, Chichester, United Kingdom.
Pintilie, M., 2002. 'Dealing with Competing Risks: Testing Covariates and Calculating Sample Size'. Statistics inMedicine, Volume 21, pages 3317-3324.