重温经典,今天继续分享本人阅读《柳叶刀临床研究基本概念》第2版的读书笔记,今天分享第十一章读书笔记,请大家指正。
本章思维导图如下:
1. 样本量计算的必要性
2. 样本量计算的组成成分
α 错误 (Type I Error): 也称为 I 类错误,是指错误地拒绝了真实的零假设,即认为两种治疗方法存在差异,而实际上它们没有差别。α 错误的发生概率通常设定为 0.05,这意味着在 100 次试验中,平均会有 5 次出现假阳性结果。 β 错误 (Type II Error): 也称为 II 类错误,是指错误地接受了错误的零假设,即认为两种治疗方法没有差异,而实际上它们是有差别的。β 错误的发生概率通常设定为 0.20,这意味着在 100 次试验中,平均会有 20 次出现假阴性结果。
α 错误的选择: 研究者应根据研究目的和实际情况选择合适的 α 错误。例如: 发现新的治疗方法: 选择较低的 α 错误 (如 0.01 或 0.001),以降低假阳性结论的可能性,确保新药的安全性。 验证已知的治疗方法: 选择较高的 α 错误 (如 0.10),以增加检验效力,更容易发现治疗效果。 把握度的选择: 研究者应根据研究目的和资源情况选择合适的把握度。例如: 资源有限: 选择较低的把握度 (如 0.70 或 0.80),以降低样本量需求,节省成本。 希望发现重要治疗效果: 选择较高的把握度 (如 0.90 或 0.95),以提高试验发现真实差异的能力。
对照组事件发生率的估计: 研究者可以从以下途径估计对照组事件发生率: 文献资料: 查阅相关文献,了解既往研究中对照组事件发生率的估计值。例如,研究者可以通过 PubMed 搜索相关关键词,找到类似研究的文献,并从中获取对照组事件发生率的估计值。 临床经验: 结合临床经验和专业知识,对对照组事件发生率进行判断。例如,研究者可以根据自己对疾病的了解,以及对现有治疗方法的掌握,对对照组事件发生率进行估计。 预试验: 进行预试验,收集数据并估计对照组事件发生率。例如,研究者可以招募少量受试者进行预试验,观察事件发生情况,并据此估计对照组事件发生率。 治疗效果的估计: 研究者可以从以下途径估计治疗效果: 文献资料: 查阅相关文献,了解既往研究中治疗效果的估计值。例如,研究者可以通过 PubMed 搜索相关关键词,找到类似研究的文献,并从中获取治疗效果的估计值。 临床经验: 结合临床经验和专业知识,对治疗效果进行判断。例如,研究者可以根据自己对疾病的了解,以及对新治疗方法的预期,对治疗效果进行估计。 专家咨询: 咨询相关领域的专家,获取对治疗效果的估计。例如,研究者可以咨询相关领域的专家,了解他们对新治疗方法的看法,并据此估计治疗效果。
低把握度试验的伦理问题: 低把握度试验更容易产生不确定的结果,这可能会误导临床决策,并浪费有限的资源。例如,一项旨在评估某种新药疗效的试验,如果把握度过低,则可能无法发现该药的真实效果,导致该药被错误地认为无效,从而失去了潜在的治疗机会。 接受低把握度试验的条件: 方法学严谨: 试验设计应合理,并采取有效的措施消除偏倚,以保证结果的可靠性。例如,研究者应确保随机化过程的公正性,避免选择偏倚和测量偏倚。 充分报道: 研究者应详细报道研究方法和结果,避免误解和误导。例如,研究者应明确说明样本量计算方法,并报告结果的不确定性。 完整发表: 无论结果如何都必须发表,避免发表偏倚,以便其他研究者进行综合分析。例如,即使试验结果为阴性,研究者也应将其发表,以便其他研究者了解该治疗方法的有效性。
调整时机: 样本量调整应在试验开始前进行规划,并在试验过程中根据实际情况进行调整。例如,研究者可以在试验方案中预先设定样本量调整的条件和流程。 调整方法: 样本量调整可以通过以下方式进行: 增加样本量: 当样本量不足时,可以通过增加样本量来提高把握度。例如,研究者可以根据试验进展情况,评估是否需要增加样本量。 改变分配比例: 当样本量不足时,可以通过改变分配比例来提高把握度。例如,研究者可以增加治疗组受试者的比例,以增加事件数量。 改变终点: 当样本量不足时,可以通过改变终点来提高把握度。例如,研究者可以选择更敏感的终点,以更容易发现治疗效果。 改变治疗效果: 当样本量不足时,可以通过改变治疗效果来提高把握度。例如,研究者可以降低治疗效果的预期,以更容易发现差异。
原因: 试验后把握度计算是基于观察到的结果进行计算的,而观察到的结果本身就受到样本量的影响。因此,试验后把握度计算无法反映试验的真实把握度。例如,一项试验结果为阴性,即使进行试验后把握度计算,也无法证明该治疗方法无效,因为试验可能由于样本量不足而无法发现真实效果。 后果: 试验后把握度计算可能会误导研究者,使其错误地认为试验具有足够的把握度。这可能会导致研究者对阴性结果做出错误的解释,并忽视其他可能的原因,例如治疗方法无效或试验设计不合理。
样本量计算的意义: 样本量计算可以帮助研究者评估试验结果的可靠性和有效性,并帮助读者理解试验结果。例如,研究者可以根据样本量计算结果,评估试验结果是否具有统计学意义,以及是否具有临床意义。 样本量计算的限制: 样本量计算是基于假设进行的,因此存在一定的局限性。例如,样本量计算无法保证试验结果的阳性结果。即使样本量足够,也可能由于其他原因导致试验结果为阴性,例如治疗方法无效或试验设计不合理。 读者的角色: 读者应仔细阅读样本量计算结果,并评估样本量计算背后的假设是否合理。例如,读者应关注对照组事件发生率和治疗效果的估计值是否合理,以及 α 错误和把握度的选择是否合理。
把握度的重要性: 把握度是评估试验结果可靠性的重要指标,但不应成为伦理学风向标的地位。低把握度的试验仍然具有价值,前提是方法学严谨、充分报道和完整发表。 低把握度试验的接受性: 低把握度的试验可以被接受,前提是方法学严谨、充分报道和完整发表。低把握度试验可以为未来的研究提供重要的信息,并为临床决策提供参考。 方法学质量的关注: 研究者应关注试验的方法学质量,以减少偏倚,并提高试验结果的可靠性。例如,研究者应确保随机化过程的公正性,避免选择偏倚和测量偏倚。 无偏倚试验的价值: 结果不精确的无偏倚试验胜过一点结果也没有。即使试验结果为阴性,只要试验方法学质量高,仍然可以为临床决策提供重要的信息。
样本量桑巴舞: 研究者有时会根据可纳入的受试者数量调整样本量计算,以实现足够的把握度。这种做法被称为“样本量桑巴舞”。样本量桑巴舞可能会影响试验结果的可靠性,并导致发表偏倚。 样本量调整: 由于额外的受试者和资源的灵活性,研究者可以考虑样本量调整策略,以解决初始样本量估算不准确的问题。样本量调整应根据预先设定的规则进行,以避免偏倚。 无效的“试验后把握度计算”: 一些研究者会在试验结束后,利用观察到的结果进行把握度计算。这种做法是无效的,因为它会重复得出低把握度的结论,并忽视已经回答的问题。