某些情况下,比较新治疗方法与标准治疗的目标并非找到一种更有效的方法,而是寻找具有其他优势的治疗方式,例如更低的成本、较少的不良反应或更高的便利性,同时其疗效至少应与标准治疗相当。在具有这些其他优势的情况下,疗效与标准治疗相近的治疗方法可能在临床实践中或对某些患者而言更为理想。非劣效性试验的目的就是通过严格的评估,验证新治疗方法与已接受且有效的治疗方法相比,疗效至少几乎相当(即不劣于标准治疗)。
Salminen等学者曾描述了一项多中心非劣效性试验的结果,研究对象为530名通过CT确诊的急性阑尾炎成人患者,这些患者被随机分为早期阑尾切除术组(标准治疗)或仅接受抗生素治疗组(潜在负担较轻的实验治疗)。
为什么要进行非劣效性试验?
在传统的临床试验中,新治疗方法通常与标准治疗或安慰剂进行比较,目的是证明新治疗方法具有更好的疗效。这类试验的H0假设是两种治疗方法具有相同的效果。拒绝此假设意味着效果存在差异,通常通过具有统计学显著性的p值或排除“无效应”的双侧置信区间来显示这一点。新治疗方法可能优于或劣于标准治疗,但经典的临床试验的目的是证明新治疗方法的优越性,称为优效性试验。由于优效性试验能够识别出新疗法相对于对照(即当前疗法)的有害或有益效果,因此可以使用双向95%置信区间来表示与观察数据一致的治疗效果差异的上限和下限。如果置信区间不包括表示无效果的结果(例如,风险比为1或风险差为0),则拒绝H0,表明新疗法与对照疗法不同。这相当于具有统计显著性的p值。
尽管优效性试验可以证明新疗法的优越性或劣势,但一般来说,不能简单地得出在优效性试验中没有显著差异即证明两种疗法效果相同的结论。证据没有差异并不意味着确实不存在差异。为了判断新干预措施(例如,毒性更低或成本更低)是否在疗效上不亚于当前的治疗方法,必须进行非劣效性试验。非劣效性试验使用已知有效的治疗方法作为对照,这是因为证明新疗法不亚于安慰剂治疗几乎没有意义。
非劣效性试验的目的是证明所评估的干预措施在预先设定的可接受的非劣效界限内达到与标准治疗方法接近的疗效。这一界限的大小取决于临床上重要的差异、预期的事件发生率以及可能的监管要求。其他影响非劣效性界限的因素包括标准治疗与安慰剂相比的已知效果、疾病的严重程度、标准治疗的毒性、不便或成本,以及主要终点。如果所研究的疾病较为严重或主要终点是死亡,则应设定较小的非劣效界限。
为了可靠地证明非劣效性,所需的样本量取决于非劣效性界限的选择以及预期两种治疗方法差异的大小。非劣效性试验通常比优效性试验需要更大的样本量,因为非劣效性研究中的非劣效性界限通常比优效性试验中所寻找的差异要小;同样重要的是试验治疗方法相对于对照治疗方法疗效的预期效果。假定效果可能是实验治疗比对照差,但差距小于非劣效性界限;两者效果相同;甚至试验治疗效果更好。这三种情况对应的样本量需求分别较大、中等和较小,以达到相同的试验效能——即证明非劣效性的可能性,这是因为它们假定试验治疗的疗效逐步提高。
由于非劣效性试验的目标仅仅是证明非劣效性,而不是区分非劣效性与优效性,因此通常使用单侧置信区间或假设检验进行分析。通常会构造一个单侧95%或97.5%置信区间(-L至∞;负值代表实验治疗的劣势),并将下限-L与非劣效性界限进行比较。如果置信区间下限位于非劣效性界限的右侧,则证明存在非劣效性。
非劣效性试验的两种可能结果
在上面的例子中(Noninferiority not demonstrated),置信区间的下限位于非劣效性界值的左侧,这表明结果与非劣效性界值所允许的范围相比,表现出更大的劣效性(疗效更差)。因此,新疗法可能劣效,且未证明非劣效性。
在下面的例子中(Noninferiority demonstrated),置信区间的下限位于非劣效性界值的右侧,这表明新疗法相对于活性对照疗法具有非劣效性。试验的总体结果由单侧置信区间的下限决定,而非由治疗效应的点估计值决定,因此未显示点估计值。
非劣效性试验的局限性是什么?
阴性的非劣效性试验结果通常不能证明试验治疗的劣效性,正如阴性的优效性试验结果不能证明两种治疗方法的等效性一样。
非劣效性试验与等效性试验相似,两者的目标都是证明干预措施在预设的范围内与既定疗法的疗效用相当。然而,非劣效性试验的目标仅仅是证明试验治疗并不明显劣于标准治疗,而等效性试验的目标则是证明试验治疗既不比优于、也不劣于标准治疗。
为什么在上述案例中要进行非劣效性试验?
自McBurney证明阑尾切除术能够减少盆腔感染的发病率以来,急性阑尾炎的标准治疗一直是手术。而手术治疗需要全身麻醉,会增加成本,并可能出现术后并发症,如伤口感染和粘连。因此,许多患者和医生可能会更倾向于选择一种侵入性较小、但疗效相似的治疗方法。最近的一项Cochrane分析总结了三项随机试验,表明使用抗生素单独治疗阑尾炎是否能成功与手术治疗尚存在等效性疑问。由于阑尾切除术是标准治疗,因此在设计这项临床试验时,Salminen等学者将其作为对照,并将侵入性更小的试验性抗生素治疗与之对比。
为了设计该临床试验,Salminen等学者基于临床考虑,假设手术治疗的成功率为99%,并预先设定了一个非劣效性界限为-24%。这相当于说,如果能够证明抗生素单独治疗的成功率不比手术成功率差24%以上,那么抗生素单独治疗策略在临床上就可以被认为是非劣效的。正如这项研究所示,非劣效性界限的选择往往是主观的,而不是基于特定标准。
结果显示,在273名随机分配至手术组的患者中,除1人外,其余患者均成功接受了阑尾切除术,治疗成功率为99.6%。在抗生素治疗组中,256名可随访患者中有186名成功接受了治疗,成功率为72.7%;256名患者中有70人在首次就诊后1年内仍然接受了手术治疗。因此,抗生素单独治疗的成功率差异估计值为-27.0%,与之相关的单侧95%置信区间为-31.6%至无穷大。由于该置信区间包含了劣于非劣效性界限-24%的疗效值,无法证明非劣效性。
审视非劣效性试验时需要考虑的注意事项
非劣效性对照试验通常需要比安慰剂对照试验更大的样本量,部分原因是所选择的非劣效性界限通常较小。非劣效性试验所需的样本量高度依赖于非劣效性界限以及新治疗方法的预期效果;这一效果必须明确说明并且切合实际。
优效性试验的主要分析原则上应基于意向性分析(intention-to-treat, ITT),这是因为在患者不完全遵守治疗方案的情况下,该方法通常更为可靠。然而,如果在非劣效性试验中采用意向性分析,可能会由于患者依从性差,导致两种治疗方法的效果都不佳,从而使无法体现劣效治疗方法的劣效性。因此,在分析非劣效性试验时,应同时进行ITT和PP(per-protocol, PP)分析。当两种方法都能证明非劣效性时,结果才具有意义。
非劣效性试验无法区分两种治疗方法的非劣效性、等效性或优效性。
翻译:郭宇
译者简介
郭宇,博士,复旦大学附属华山医院虹桥院区ICU医师。博士期间师从毛颖教授,主要从事神经外科围手术期并发症相关研究。