柳叶刀临床研究基本概念 | 第11章 随机试验样本量的计算:强制性和神秘性

文摘   2024-10-23 12:56   上海  

重温经典,今天继续分享本人阅读《柳叶刀临床研究基本概念》第2版的读书笔记,今天分享第十一章读书笔记,请大家指正。

本章思维导图如下:

1. 样本量计算的必要性

伦理责任: 研究者有责任确保试验结果可靠,避免对受试者造成不必要的风险。试验样本量过小,可能导致结果不可靠,甚至得出错误的结论,从而误导临床实践,损害患者利益。例如,一项旨在评估某种新药疗效的试验,如果样本量过小,可能无法发现该药的真实效果,导致该药被错误地认为无效,从而失去了潜在的治疗机会。
资源利用: 样本量计算可以帮助研究者合理利用有限的资源,避免浪费。如果样本量过大,不仅会增加研究成本,还可能增加受试者的风险。例如,一项需要长期随访的试验,如果样本量过大,可能会导致随访困难,甚至中断试验。
结果解释: 样本量计算可以帮助研究者解释试验结果,并评估结果的统计学显著性和临床意义。例如,一项试验结果显示两组之间存在统计学差异,但如果样本量过小,则这种差异可能不具有临床意义。

2. 样本量计算的组成成分

α 错误和 β 错误: 这两种错误代表了研究者在进行假设检验时可能犯的错误。
  • α 错误 (Type I Error): 也称为 I 类错误,是指错误地拒绝了真实的零假设,即认为两种治疗方法存在差异,而实际上它们没有差别。α 错误的发生概率通常设定为 0.05,这意味着在 100 次试验中,平均会有 5 次出现假阳性结果。
  • β 错误 (Type II Error): 也称为 II 类错误,是指错误地接受了错误的零假设,即认为两种治疗方法没有差异,而实际上它们是有差别的。β 错误的发生概率通常设定为 0.20,这意味着在 100 次试验中,平均会有 20 次出现假阴性结果。
把握度 (Power): 把握度是避免犯 β 错误的概率,它反映了试验发现真实差异的能力。把握度越高,试验结果越可靠。例如,把握度为 80% 的试验,意味着在真实存在差异的情况下,有 80% 的机会能够检测到这种差异。
对照组事件发生率 (Event Rate in Control Group): 对照组事件发生率是指对照组发生特定事件的比例,它是计算样本量的基础。例如,在一项评估某种新药预防心脏病的试验中,对照组事件发生率是指没有接受新药的受试者发生心脏病事件的比例。
治疗效果 (Treatment Effect): 治疗效果是指治疗组相对于对照组事件发生率的差异,可以是绝对差异或相对差异。治疗效果的大小决定了样本量的大小。例如,如果研究者认为新药能够将心脏病事件发生率降低 20%,则治疗效果就是 20%。
分配比例 (Treatment Allocation Ratio): 分配比例是指分配到治疗组和对照组的受试者比例。通常情况下,研究者会选择 1:1 的分配比例,但也可以根据研究目的进行调整。例如,如果研究者认为某种治疗方法的风险较高,则可以选择较小的分配比例,以减少风险。

3. 选择不同的 α 错误和把握度
  • α 错误的选择: 研究者应根据研究目的和实际情况选择合适的 α 错误。例如:
    • 发现新的治疗方法: 选择较低的 α 错误 (如 0.01 或 0.001),以降低假阳性结论的可能性,确保新药的安全性。
    • 验证已知的治疗方法: 选择较高的 α 错误 (如 0.10),以增加检验效力,更容易发现治疗效果。
  • 把握度的选择: 研究者应根据研究目的和资源情况选择合适的把握度。例如:
    • 资源有限: 选择较低的把握度 (如 0.70 或 0.80),以降低样本量需求,节省成本。
    • 希望发现重要治疗效果: 选择较高的把握度 (如 0.90 或 0.95),以提高试验发现真实差异的能力。

4. 人群参数的估计
  • 对照组事件发生率的估计: 研究者可以从以下途径估计对照组事件发生率:
    • 文献资料: 查阅相关文献,了解既往研究中对照组事件发生率的估计值。例如,研究者可以通过 PubMed 搜索相关关键词,找到类似研究的文献,并从中获取对照组事件发生率的估计值。
    • 临床经验: 结合临床经验和专业知识,对对照组事件发生率进行判断。例如,研究者可以根据自己对疾病的了解,以及对现有治疗方法的掌握,对对照组事件发生率进行估计。
    • 预试验: 进行预试验,收集数据并估计对照组事件发生率。例如,研究者可以招募少量受试者进行预试验,观察事件发生情况,并据此估计对照组事件发生率。
  • 治疗效果的估计: 研究者可以从以下途径估计治疗效果:
    • 文献资料: 查阅相关文献,了解既往研究中治疗效果的估计值。例如,研究者可以通过 PubMed 搜索相关关键词,找到类似研究的文献,并从中获取治疗效果的估计值。
    • 临床经验: 结合临床经验和专业知识,对治疗效果进行判断。例如,研究者可以根据自己对疾病的了解,以及对新治疗方法的预期,对治疗效果进行估计。
    • 专家咨询: 咨询相关领域的专家,获取对治疗效果的估计。例如,研究者可以咨询相关领域的专家,了解他们对新治疗方法的看法,并据此估计治疗效果。
5. 可纳入受试者有限的低把握度
  • 低把握度试验的伦理问题: 低把握度试验更容易产生不确定的结果,这可能会误导临床决策,并浪费有限的资源。例如,一项旨在评估某种新药疗效的试验,如果把握度过低,则可能无法发现该药的真实效果,导致该药被错误地认为无效,从而失去了潜在的治疗机会。
  • 接受低把握度试验的条件:
    • 方法学严谨: 试验设计应合理,并采取有效的措施消除偏倚,以保证结果的可靠性。例如,研究者应确保随机化过程的公正性,避免选择偏倚和测量偏倚。
    • 充分报道: 研究者应详细报道研究方法和结果,避免误解和误导。例如,研究者应明确说明样本量计算方法,并报告结果的不确定性。
    • 完整发表: 无论结果如何都必须发表,避免发表偏倚,以便其他研究者进行综合分析。例如,即使试验结果为阴性,研究者也应将其发表,以便其他研究者了解该治疗方法的有效性。
6. 样本量调整
  • 调整时机: 样本量调整应在试验开始前进行规划,并在试验过程中根据实际情况进行调整。例如,研究者可以在试验方案中预先设定样本量调整的条件和流程。
  • 调整方法: 样本量调整可以通过以下方式进行:
    • 增加样本量: 当样本量不足时,可以通过增加样本量来提高把握度。例如,研究者可以根据试验进展情况,评估是否需要增加样本量。
    • 改变分配比例: 当样本量不足时,可以通过改变分配比例来提高把握度。例如,研究者可以增加治疗组受试者的比例,以增加事件数量。
    • 改变终点: 当样本量不足时,可以通过改变终点来提高把握度。例如,研究者可以选择更敏感的终点,以更容易发现治疗效果。
    • 改变治疗效果: 当样本量不足时,可以通过改变治疗效果来提高把握度。例如,研究者可以降低治疗效果的预期,以更容易发现差异。
7. 无效的“试验后把握度计算”
  • 原因: 试验后把握度计算是基于观察到的结果进行计算的,而观察到的结果本身就受到样本量的影响。因此,试验后把握度计算无法反映试验的真实把握度。例如,一项试验结果为阴性,即使进行试验后把握度计算,也无法证明该治疗方法无效,因为试验可能由于样本量不足而无法发现真实效果。
  • 后果: 试验后把握度计算可能会误导研究者,使其错误地认为试验具有足够的把握度。这可能会导致研究者对阴性结果做出错误的解释,并忽视其他可能的原因,例如治疗方法无效或试验设计不合理。
8. 如何看待样本量计算
  • 样本量计算的意义: 样本量计算可以帮助研究者评估试验结果的可靠性和有效性,并帮助读者理解试验结果。例如,研究者可以根据样本量计算结果,评估试验结果是否具有统计学意义,以及是否具有临床意义。
  • 样本量计算的限制: 样本量计算是基于假设进行的,因此存在一定的局限性。例如,样本量计算无法保证试验结果的阳性结果。即使样本量足够,也可能由于其他原因导致试验结果为阴性,例如治疗方法无效或试验设计不合理。
  • 读者的角色: 读者应仔细阅读样本量计算结果,并评估样本量计算背后的假设是否合理。例如,读者应关注对照组事件发生率和治疗效果的估计值是否合理,以及 α 错误和把握度的选择是否合理。
9. 结论
  • 把握度的重要性: 把握度是评估试验结果可靠性的重要指标,但不应成为伦理学风向标的地位。低把握度的试验仍然具有价值,前提是方法学严谨、充分报道和完整发表。
  • 低把握度试验的接受性: 低把握度的试验可以被接受,前提是方法学严谨、充分报道和完整发表。低把握度试验可以为未来的研究提供重要的信息,并为临床决策提供参考。
  • 方法学质量的关注: 研究者应关注试验的方法学质量,以减少偏倚,并提高试验结果的可靠性。例如,研究者应确保随机化过程的公正性,避免选择偏倚和测量偏倚。
  • 无偏倚试验的价值: 结果不精确的无偏倚试验胜过一点结果也没有。即使试验结果为阴性,只要试验方法学质量高,仍然可以为临床决策提供重要的信息。
其他重要内容:
  • 样本量桑巴舞: 研究者有时会根据可纳入的受试者数量调整样本量计算,以实现足够的把握度。这种做法被称为“样本量桑巴舞”。样本量桑巴舞可能会影响试验结果的可靠性,并导致发表偏倚。
  • 样本量调整: 由于额外的受试者和资源的灵活性,研究者可以考虑样本量调整策略,以解决初始样本量估算不准确的问题。样本量调整应根据预先设定的规则进行,以避免偏倚。
  • 无效的“试验后把握度计算”: 一些研究者会在试验结束后,利用观察到的结果进行把握度计算。这种做法是无效的,因为它会重复得出低把握度的结论,并忽视已经回答的问题。
10. 参考文献
临床研究基本概念(第2版)/ (美)肯尼思. F. 舒尔茨 (Kennel:h F. Schulz) 原著; 王吉耀 主译. 北京:人民卫生出版社,2020

临床研究与医学统计
传播和普及临床试验与医学统计方法学知识
 最新文章