柳叶刀临床研究基本概念 | 第19章 随机试验中的多重性:终点及治疗
文摘
2024-10-31 13:17
上海
重温经典,今天继续分享本人阅读《柳叶刀临床研究基本概念》第2版的读书笔记,今天分享第十九章读书笔记,请大家指正。临床研究中的多重性问题是指在一项完整的研究中,需要经过不止一次统计推断(多重检验)对研究结论做出决策的相关问题。这些问题通常体现在多个终点、多组间比较、亚组分析、期中分析、纵向数据不同时间点的分析等方面。对于确证性临床试验,控制总I类错误率(FWER)是统计学的基本准则,而多重性问题可能导致FWER膨胀。- 隐藏部分分析结果: 这可能导致读者无法全面理解研究结果,并做出错误的判断。例如,研究者可能只报道对新型治疗方法有利的结果,而隐藏对标准治疗方法更有利的结果。这种做法可能会导致医生过度使用新型治疗方法,而忽视了标准治疗方法的优势。
- 多重性校正的必要性: 当进行多次检验时,至少出现一次假阳性的概率会显著提高,这需要研究者进行多重性校正来控制 I 类错误率。然而,研究者不清楚是否需要进行校正以及读者期望看到校正结果,这导致了争议的产生。例如,一些研究者认为,只要结果具有临床意义,即使没有进行多重性校正,也可以接受。而另一些研究者则认为,多重性校正对于确保研究结果的可靠性至关重要。
- 预先设定主要研究终点或研究假设: 这可以帮助研究者避免数据挖掘,确保研究结果的客观性和可靠性。例如,研究者可以预先设定血压下降幅度作为主要终点事件,并在研究方案中写明。
- 关注具有临床意义的终点事件: 例如,对于治疗高血压的药物,血压下降幅度和心血管事件发生率都是重要的终点事件。研究者应该选择对临床决策有重要意义的终点事件进行检验。
- 限制对主要终点的检验次数: 例如,研究者可以将血压下降幅度作为主要终点,并将心血管事件发生率作为次要终点,从而减少检验次数。这样可以降低多重性问题的严重程度。
- 报道所有已做过的比较: 这可以帮助读者全面了解研究结果,并做出正确的判断。例如,研究者应该报道所有剂量组的血压下降幅度和心血管事件发生率,而不仅仅是报道有显著意义的结果。
- 为原始显著性水平,d 为比较次数。例如,当进行 10 次检验时,每次检验的显著性水平将调整为 0.005。
- 缺点: 过于保守,会显著降低检验效能。例如,当进行 10 次检验时,即使有 9 次检验的结果是真实的,也有可能被错误地认为是无效的。
- 假设: 存在一个通用的无效假设,这在医学研究中往往是一个无关紧要的问题。例如,对于治疗高血压的药物,我们真正关心的是该药物是否能有效降低血压,而不是该药物对所有高血压患者都无效。
- Holm 校正: 与 Bonferroni 校正类似,但更加灵活,可以根据 P 值的排序进行调整。
- Step-up 校正: 根据事先设定的比较次序进行检验,如果前面的检验没有显著意义,则后面的检验不再进行。
- Step-down 校正: 根据事先设定的比较次序进行检验,如果后面的检验没有显著意义,则前面的检验结果不再可靠。
- 模拟试验: 通过模拟试验评估不同校正策略对 I 类错误和把握度的影响,从而选择最合适的校正方法。
- 数据挖掘: 研究者可能只报道有利的结果,隐藏不利的结果,导致结果解释失真。例如,研究者可能只报道对新型治疗方法有利的结果,而隐藏对标准治疗方法更有利的结果。这种做法可能会导致医生过度使用新型治疗方法,而忽视了标准治疗方法的优势。
- 多重性校正的影响: 多重性校正可能影响结果解释,例如将具有生物学关联的终点事件分开检验,导致结果解读缺乏逻辑性。例如,研究者可能将血压下降幅度和心血管事件发生率作为两个独立的终点事件进行检验,即使两个终点事件之间存在正相关关系,多重性校正也可能导致结果解释缺乏逻辑性。例如,即使血压下降幅度没有显著意义,但如果心血管事件发生率显著下降,那么新型治疗方法仍然可能具有临床价值。
- 限制对主要终点的检验次数: 例如,研究者可以将血压下降幅度作为主要终点,并将心血管事件发生率作为次要终点,从而减少检验次数。这样可以降低多重性问题的严重程度。
- 报道所有终点的检验结果: 这可以帮助读者全面了解研究结果,并做出正确的判断。例如,研究者应该报道所有剂量组的血压下降幅度和心血管事件发生率,而不仅仅是报道有显著意义的结果。
- 说明附加终点事件是加强还是减弱了核心发现: 例如,研究者可以说明血压下降幅度和心血管事件发生率之间的相关性,以及它们对治疗决策的影响。例如,如果血压下降幅度和心血管事件发生率之间存在正相关关系,那么血压下降幅度可以作为心血管事件发生率的一个预测指标。
- 减缓多重性问题: 复合终点将多个相关事件合并为一个终点事件,避免了多重比较问题。例如,将心肌梗死、中风和心血管死亡合并为心血管事件复合终点,可以避免对每个事件单独进行检验。
- 增加事件发生率: 复合终点通常包含多个事件,导致事件发生率更高,从而提高检验把握度或减少所需样本量。例如,将心肌梗死、中风和心血管死亡合并为心血管事件复合终点,可以显著提高事件发生率,从而提高检验把握度或减少所需样本量。
- 结果解释困难: 复合终点中某些组分事件发生率的改变可能对临床决策没有意义。例如,对于治疗高血压的药物,即使复合终点中的心血管事件发生率显著下降,但如果死亡率没有下降,那么该药物的治疗价值可能有限。
- 缺乏临床相关性: 复合终点可能包含一些对临床决策没有意义的事件。例如,对于治疗高血压的药物,将头痛作为复合终点的一部分可能没有临床意义。
- 理论上可能产生大量比较,但实际中研究者较少有机会进行数据挖掘并报告不充分的结果。例如,一个三臂临床试验可能产生 7 个比较,但实际上研究者可能只报告部分比较的结果。这可能会导致读者无法全面了解研究结果,并做出错误的判断。
- 总体显著性检验: 可以对所有治疗进行比较的总体显著性检验,例如使用卡方检验比较不同治疗组之间的事件发生率。这种方法可以避免多重比较问题,但可能会降低检验效能。
- 剂量反应关系模型: 可以使用剂量反应关系模型评估不同剂量治疗方法的疗效,从而避免多次检验。这种方法可以提供更全面的信息,但可能更复杂。
- 事先计划比较组别: 研究者应事先计划比较组别,并在方案中写明,例如比较新型治疗方法与标准治疗方法,以及比较新型治疗方法的不同剂量。这可以帮助读者理解研究设计,并评估研究结果的可信度。
- 无关的比较组: 对于无关的比较组,不需要校正。例如,比较新型治疗方法与标准治疗方法,以及比较新型治疗方法的不同剂量,这两个比较组之间是无关的,因此不需要校正。
- 相关联的比较组: 对于相关联的比较组,需要校正,但 Bonferroni 校正过于保守。例如,比较新型治疗方法的不同剂量,这些比较组之间是相关联的,因此需要进行校正,但 Bonferroni 校正会显著降低检验效能。
- 决策标准: 在某些情况下,例如临床决策手段是分析两个独立试验时,可以不进行校正。例如,如果研究者将新型治疗方法与标准治疗方法进行比较,并将新型治疗方法的不同剂量进行比较,那么可以将这两个试验视为独立的试验,并进行独立的分析,而不需要进行校正。
- 逐步检验法: 多臂试验中研究者通常采用事先设定的比较次序,并主张不校正多重性。例如,研究者可以决定将与新型治疗方法与标准方法的比较作为首项试验,只有当该项比较有显著意义时,才能进入到新型治疗方法不同剂量的比较中。这种方法可以避免多重比较问题,但可能会降低检验效能。
- 使用决策标准向审批机构申报药物上市: 当多个终点事件中任意一个有显著意义时,宣布治疗有效。例如,如果新型治疗方法能够显著降低心血管事件发生率,那么可以申报药物上市。
- 研究者准备公布的有效性是基于多个终点事件中的任意一个的阳性结果: 例如,如果研究者计划根据血压下降幅度或心血管事件发生率的结果公布新型治疗方法的有效性,那么需要进行多重性校正。
- 无目的地进行扫射式分析: 这会导致 I 类错误率显著提高,需要进行校正来控制 I 类错误率。例如,如果研究者对新型治疗方法进行多次检验,但没有明确的研究假设,那么需要进行多重性校正。
- 仅能部分挽回试验结果的可信度: 多重性校正可以降低 I 类错误率,但不能完全消除 I 类错误。例如,即使进行了多重性校正,仍然有可能出现假阳性结果。
- 难以进行: Bonferroni 校正操作简便但可能不适用,其他校正方法可能更复杂,需要进行模拟试验评估其有效性。例如,Holm 校正和 Step-up 校正比 Bonferroni 校正更复杂,需要进行更复杂的计算。
- 期望研究者报道所有分析过的终点事件和比较过的治疗组的结果: 这可以帮助读者全面了解研究结果,并做出正确的判断。例如,研究者应该报道所有剂量组的血压下降幅度和心血管事件发生率,而不仅仅是报道有显著意义的结果。
- 研究者应说明主要终点事件和特殊终点事件,并标明其他分析为探索性分析: 这可以帮助读者理解研究结果的重要性。例如,研究者应该明确说明血压下降幅度是主要终点事件,心血管事件发生率是次要终点事件。
- 研究者应说明比较次数,并进行解释: 这可以帮助读者理解多重性问题的严重程度。例如,研究者应该说明进行了多少次剂量比较,并解释为什么进行这些比较。
- 研究者应说明结果的一致性,并透明地报道所有比较及其结果: 这可以帮助读者评估研究结果的可信度。例如,研究者应该说明不同剂量组的血压下降幅度和心血管事件发生率之间是否存在相关性。
- 复合终点的组成成分应具有已知的病理生理学基础,并作为二级终点事件进行报道: 这可以帮助读者理解复合终点的意义。例如,研究者应该说明心肌梗死、中风和心血管死亡之间的病理生理学联系,并解释为什么将它们合并为心血管事件复合终点。
- 读者应关注研究者是否进行了多重性校正,并理解其局限性。
- 读者应仔细阅读研究方案,以了解研究设计和分析方法。
- 读者应批判性地评估研究结果,并考虑多重性问题的潜在影响。
为了更好地理解多重性问题的实际应用,我们可以举一个具体的案例进行分析。- 一项随机对照试验比较了两种药物治疗高血压的效果。主要终点事件为血压下降幅度,次要终点事件为心血管事件发生率。研究者预先设定了血压下降幅度作为主要终点事件,并在研究方案中写明。研究结果表明,新型治疗方法的血压下降幅度显著高于标准治疗方法,但心血管事件发生率没有显著差异。
- 多重性问题: 由于进行了两次检验,即主要终点事件和次要终点事件的检验,因此存在多重性问题。
- 多重性校正: 由于心血管事件发生率没有显著差异,因此不需要进行多重性校正。
- 结果解释: 新型治疗方法能够显著降低血压,但对其心血管事件发生率的影响尚不清楚。研究者可以进一步研究新型治疗方法对心血管事件发生率的影响,或者将心血管事件发生率作为主要终点事件进行进一步的研究。
- 多个终点:如主要终点和关键次要终点,可能需要采用不同的统计假设策略。
- 多组间比较:如三臂设计、剂量-反应关系研究等,需要控制FWER。
- 纵向数据不同时间点的分析:可能需要考虑时间点之间的比较。
- 亚组分析:用于说明试验药物在特定亚组人群中的疗效或疗效的一致性。
- 期中分析:在研究过程中进行多次决策时,FWER的控制尤为重要。
- 复杂设计:如篮式设计、伞式设计、平台设计等,可能涉及多重决策问题。
为了解决多重性问题,可以采用多种策略和方法,包括但不限于:- Bonferroni法:通过分配各个检验的名义水准来控制FWER。
- 多重性调整:采用恰当的决策策略和分析方法来控制FWER。
- α消耗函数:在分阶段进行整体决策时,每个阶段消耗一定的α。
通过这个案例,我们可以看到多重性问题的实际应用,以及如何处理多重性问题。研究者应该仔细考虑多重性问题,并选择合适的统计学方法来控制 I 类错误率。读者应该批判性地评估研究结果,并考虑多重性问题的潜在影响。临床研究基本概念(第2版)/ (美)肯尼思. F. 舒尔茨 (Kennel:h F. Schulz) 原著; 王吉耀 主译. 北京:人民卫生出版社,2020