柳叶刀临床研究基本概念 | 第7章 流行病学观察性研究的局限性
文摘
2024-10-17 10:47
上海
重温经典,今天继续分享本人阅读《柳叶刀临床研究基本概念》第2版的读书笔记,今天分享第七章读书笔记,请大家指正。
本文将详细总结 Grimes 和 Schulz 发表的论文《流行病学观察性研究的局限性》,该论文探讨了观察性研究在医学研究中的局限性,并提出了改进建议。作为临床研究者,了解这些局限性对于设计、实施和解读观察性研究至关重要。观察性研究的结果容易受到偏倚的影响,导致错误或夸大的结果。即使观察性研究中发现的关联是真实的,其强度也往往被夸大。偏倚是指研究过程中存在的系统误差,它会影响研究结果的准确性。观察性研究中常见的偏倚类型包括:- 选择偏倚 (Selection bias): 由于研究对象的选择过程存在偏差,导致研究结果无法代表整个人群。例如,纳入偏倚、存活偏倚、发表偏倚和时间趋势偏倚等。
- 纳入偏倚 (Inclusion bias): 研究对象的纳入标准可能过于严格或宽松,导致研究对象的选择存在偏差。例如,一项关于减肥药物的研究可能只纳入了能够坚持服用药物的患者,导致研究结果无法代表所有服用该药物的患者。
- 存活偏倚 (Survival bias): 研究对象在研究期间死亡或失访,导致研究结果无法代表整个研究人群。例如,一项关于癌症治疗效果的研究可能只纳入了存活下来的患者,导致研究结果无法代表所有癌症患者。
- 发表偏倚 (Publication bias): 只有阳性结果的研究才被发表,导致研究结果偏向于支持研究假设。例如,一项关于某种药物疗效的研究可能只有显示该药物有效的结果被发表,而显示该药物无效或有害的结果被隐藏。
- 时间趋势偏倚 (Time trend bias): 研究结果可能受到时间趋势的影响,例如新的治疗方法的出现、生活方式的改变等。例如,一项关于吸烟与肺癌关系的研究可能发现吸烟与肺癌风险之间的关联随着时间的推移而减弱,这可能是由于吸烟率的下降,而非吸烟本身的风险降低。
- 信息偏倚 (Information bias): 数据收集过程可能存在偏差,导致研究结果不准确。例如,回忆偏倚、测量工具偏倚、诊断偏倚和观察者偏倚等。
- 回忆偏倚 (Recall bias): 研究对象对过去事件的回忆可能存在偏差,导致结果不准确。例如,一项关于吸烟与心脏病关系的研究可能发现吸烟者更容易忘记他们过去吸烟的情况,导致吸烟与心脏病风险之间的关联被低估。
- 测量工具偏倚 (Instrumentation bias): 测量工具的选择或使用可能存在偏差,导致结果不准确。例如,一项关于血压水平的研究可能使用不同的血压计测量血压,导致血压水平的结果不一致。
- 诊断偏倚 (Diagnostic bias): 诊断标准或方法可能存在偏差,导致结果不准确。例如,一项关于抑郁症诊断的研究可能使用不同的诊断标准,导致抑郁症的诊断结果不一致。
- 观察者偏倚 (Observer bias): 观察者可能根据研究假设或预期结果对数据进行解释,导致结果不准确。例如,一项关于治疗效果的研究可能发现,观察者认为治疗效果好的患者,其症状改善的情况更好,而观察者认为治疗效果差的患者,其症状改善的情况更差。
- 混杂偏倚 (Confounding bias): 其他因素可能影响暴露和结局之间的关系,导致结果被夸大或低估。例如,已知混杂因素、未知混杂因素和适应性混杂等。
- 已知混杂因素:研究者可以识别和控制已知的混杂因素,例如年龄、性别、社会经济状况、疾病史等。然而,控制混杂因素的方法可能存在缺陷,例如分层分析可能无法完全控制混杂因素的影响。
- 未知混杂因素:研究者无法识别和控制未知的混杂因素,例如基因、环境因素等。这些未知混杂因素可能对研究结果产生重大影响,导致结果不准确。
- 适应性混杂 (Adaptive bias): 研究者可能根据研究结果调整研究方法,例如选择性地纳入或排除某些研究对象、改变统计分析方法等,导致结果被夸大。例如,一项关于某种药物疗效的研究可能发现,研究者选择性地纳入了治疗效果好的患者,导致该药物疗效的结果被夸大。
- 吸烟与自杀风险增加:研究发现吸烟者更容易患有精神疾病,而精神疾病患者自杀风险更高。因此,吸烟与自杀风险增加的关联可能是由于吸烟导致精神疾病,而非吸烟直接导致自杀。然而,这项研究没有控制其他可能影响自杀风险的因素,例如家庭暴力、经济压力等。因此,吸烟与自杀风险增加的关联可能是由于这些未知混杂因素的影响。
- β-胡萝卜素降低肺癌风险:研究发现摄入β-胡萝卜素可以降低肺癌风险。然而,这项研究没有控制吸烟这一重要混杂因素。事实上,吸烟是导致肺癌的主要危险因素。因此,β-胡萝卜素与肺癌风险降低的关联可能是由于吸烟者摄入β-胡萝卜素较少,而非β-胡萝卜素具有预防肺癌的作用。此外,这项研究也没有控制其他可能影响肺癌风险的因素,例如职业暴露、环境污染等。因此,β-胡萝卜素与肺癌风险降低的关联可能是由于这些未知混杂因素的影响。
- 绝经期雌激素治疗降低冠心病风险:研究发现绝经期使用雌激素治疗可以降低冠心病风险。然而,这项研究没有控制其他可能影响冠心病风险的因素,例如年龄、生活方式等。事实上,绝经期使用雌激素治疗会增加乳腺癌风险,而乳腺癌患者冠心病风险较低。因此,绝经期雌激素治疗与冠心病风险降低的关联可能是由于乳腺癌患者使用雌激素治疗较少,而非雌激素治疗具有预防冠心病的作用。此外,这项研究也没有控制其他可能影响冠心病风险的因素,例如家族史、遗传因素等。因此,绝经期雌激素治疗与冠心病风险降低的关联可能是由于这些未知混杂因素的影响。
偏倚会影响观察性研究结果的准确性和可靠性,导致错误或夸大的结果。例如,一项观察性研究发现,长期服用阿司匹林可以降低心血管疾病的风险。然而,这项研究没有控制其他可能影响心血管疾病风险的因素,例如年龄、性别、吸烟史和家族史等。因此,阿司匹林与心血管疾病风险降低的关联可能是由于这些混杂因素的影响,而非阿司匹林本身具有预防心血管疾病的作用。观察性研究容易产生弱关联,例如相对危险度 (RR) 在 0.5-2.0 之间。弱关联可能仅反映了偏倚,而非因果关系。例如,一项观察性研究发现,每天喝一杯咖啡可以降低患抑郁症的风险。然而,这项研究没有控制其他可能影响抑郁症的因素,例如睡眠质量、生活压力等。因此,喝咖啡与抑郁症之间的关联可能只是巧合,并非因果关系。研究者需要谨慎解读观察性研究结果,并提供警告说明研究发现的关联可能存在错误,并无临床相关性。例如,在解读观察性研究结果时,研究者应该考虑以下因素:- 一致性:多项研究结果的相似性越高,因果关系的可能性越大。
- 生物学合理性:关联是否符合生物学机制,因果关系的可能性越大。
- 时间顺序:暴露是否在结局之前发生,因果关系的可能性越大。
- 剂量-反应关系:暴露剂量与结局发生率之间的关系,因果关系的可能性越大。
- 偏倚的可能性:研究设计和方法是否能够有效控制偏倚,因果关系的可能性越大。
- 肺癌的吸烟和死亡:吸烟与肺癌死亡的相对风险在 8-32 之间,具体数值取决于吸烟量。吸烟与肺癌死亡之间存在明显的剂量-反应关系,且符合生物学机制,因此吸烟与肺癌死亡之间的因果关系较为明确。
- 饮用受污染的水引起的霍乱:饮用受污染的水引起的霍乱相对风险为 14。饮用受污染的水与霍乱发病之间存在明显的因果关系,且符合生物学机制,因此饮用受污染的水与霍乱发病之间的因果关系较为明确。
二、非专业人员的工作 (amateurs at work)与医学实践相比,医学研究缺乏正规培训体系。大多数研究人员没有接受过研究方法的正规培训,导致研究设计和报告质量差。医学研究人员的培训通常采用学徒制,即年轻的研究人员在年长的同事指导下学习工作。然而,这种培训方式存在缺陷,导致研究人员缺乏研究方法的系统知识。例如,许多研究人员不了解如何控制混杂偏倚、如何进行统计分析、如何撰写研究报告等。- 未提及局限性:许多研究报告没有提及该项研究的局限性,导致读者无法全面了解研究结果的真实性。
- 对混杂偏倚的控制描述不足:即使在知名的医学期刊上,对混杂偏倚的控制描述也仍然很少,导致读者无法判断研究结果是否可靠。
- 统计错误:统计错误包括多个计划外比较以试图发现具有统计学意义的某变量进行 P 值操纵 (P hacking)、缺失数据的单一归因、忽略趋均值回归效应,以及在观察性研究中把统计关联推断为因果关系等。
- 讨论部分混乱:论文讨论部分通常与结果无关,缺乏对研究局限性的深入讨论。
- 接受正规的研究方法培训:研究人员应该接受正规的研究方法培训,例如统计学、流行病学和生物统计学等。
- 遵循观察性研究的报告指南:例如,STROBE 声明和 Equator Network 网站,以提高方法的透明度。
- 使用证据质量评级方法:例如,GRADE 系统评估证据的质量,并根据该证据提出强推荐或弱推荐。
三、管理数据库 (administrative databases)管理数据库,如保险数据库、医疗保健数据库、生命统计数据库等,为医学研究提供了大量的数据资源。然而,管理数据库也存在一些局限性,导致研究结果不可靠。管理数据库中的诊断通常是编码,例如国际疾病分类代码 (ICD 编码)。这些编码的准确性取决于医生的诊断和编码员的编码技能。例如,一项研究发现,美国医疗保险数据库中关于糖尿病的诊断编码的准确性只有 50% 左右。管理数据库通常缺少有关潜在混杂因素的信息,例如社会经济状况、生活方式、遗传因素等。这些混杂因素可能对研究结果产生重大影响,但无法在管理数据库研究中得到控制。由于样本量较大,几乎所有弱关联 (真实的或虚假的) 都具有统计学意义。然而,这些弱关联可能缺乏临床意义,无法指导临床实践。- 验证诊断的准确性:研究者应该通过查阅病历或其他资料来验证诊断的准确性。
- 收集更多混杂因素的信息:研究者应该收集更多混杂因素的信息,例如通过问卷调查或访谈等方式。
- 谨慎解读研究结果:研究者应该谨慎解读研究结果,并提供警告说明研究结果可能存在错误,并无临床相关性。
四、弱关联 (weak association): 大小问题许多研究人员并未意识到研究的局限性。所有的观察性研究 (以及做得不好的随机对照试验) 都容易产生偏倚。即使在试图使选择偏倚相信息偏倚最小化之后,并且在控制了已知的潜在福杂因素之后,偏倚仍然经常存在。这些偏倚很容易导致弱关联 (在已发表的研究中屡见不鲜),对这种弱关联必须小心谨慎地解读。弱关联通常定义为相对危险度 (RR) 在 0.5-2.0 之间。在病例对照研究中,弱关联可以定义为比值比 (OR) 在 0.33-3.0 之间。弱关联可能仅反映了偏倚,而非因果关系。例如,一项观察性研究发现,每天喝一杯咖啡可以降低患抑郁症的风险。然而,这项研究没有控制其他可能影响抑郁症的因素,例如睡眠质量、生活压力等。因此,喝咖啡与抑郁症之间的关联可能只是巧合,并非因果关系。关联的强度是判断因果关系需要考虑的最重要因素之一。一般来说,RR 值大则关联是由于偏倚导致的可能性较小。然而,该准则也不是绝对的。较大的偏倚也可能产生较大 RR。例如,一项英国队列研究发现,与 IUD 相关的盆腔炎的 RR 为 11。随后对该群体进行的重新分析,纠正了几种偏倚后,与医用 IUD 相关的风险不再具有统计学显著性。医学文献中散布着谬妄无蓓的警告和假流行性 (见框 7.1)。文献中充斥着关于弱关联的报道,甚至可以说被弱关联的报道所主导。在观察性研究中,无法区分偏倚和因果关系,因为这根本超出了观察性研究对固有偏倚的识别能力。即使是最高级的统计方法也无法消除偏倚,尤其是不可预知的混杂。对存在缺陷的观察研究进行 meta 分析,无法提供任何补救措施。五、漏洞百出的同行评审 (peer review)对投稿论文的学术评审是生物医学出版的基石。然而,同行评审系统存在一些缺陷,导致其难以保证稿件质量。同行评审的质量差异很大。年轻学者可能会比资深学者投入更多的时间和精力来完成这项徒劳无益的工作,因为年轻学者还没有被各种同行评审的要求所淹没,还没有贮到精疲力竭。一些作者 (未经允许) 感谢审稿人对稿件的 (不存在的) 贡献,从而使得审稿人违背了批判性评审的初衷。提交稿件时,有些期刊要求提供 3 位潜在审稿人的姓名和联系方式。不言而喻,作者常常会把朋友 (或欠作者人情者) 作为潜在的审稿人。有些作者甚至捏造潜在审稿人的姓名和电子邮件地址然后将审阅邀请转移回到作者自己的邮箱。开放获取期刊存在很大问题。为了证明评审过程的谬误百出,《科学》杂志曾伪造了一篇有明显缺陷的假论文,并将其投给 300 多个开放获取期刊,其中绝大多数期刊接受了这篇伪造论文。- 培训编辑、作者和审稿人:编辑、作者和审稿人应该接受研究方法学培训,以提高他们的评审能力。
- 给予审稿人适当的奖励:例如,提供继续医学教育学分或给予经济补偿,以鼓励审稿人投入更多的时间和精力。
- 建立公开透明的同行评审系统:例如,公开审稿人的姓名和评审意见,以提高同行评审的透明度。
学术欺诈,包括捏造、伪造和剽窃,对医学研究构成了越来越大的威胁。- 捏造 (Fabrication): 投稿者并未开展研究,而是通过猜测或复制了其他研究者的数据和结果。
- 伪造 (Falsification): 投稿者篡改数据或结果,以使其符合研究假设。
- 剽窃 (Plagiarism): 投稿者未经允许使用他人的研究成果或文字。
学术欺诈不仅损害了研究者的声誉,还可能导致错误的治疗方案被采用,从而对患者造成伤害。- 加强研究诚信教育:研究人员应该了解学术欺诈的危害,并掌握避免学术欺诈的方法。
- 建立严格的学术规范:例如,要求研究人员提供原始数据、进行重复实验等。
- 加强对学术不端行为的惩罚:例如,撤销论文、取消科研经费等。
观察性研究在医学研究中具有重要价值,但同时也存在局限性。研究者需要认识到这些局限性,并采取相应的措施来提高研究质量和结果的可靠性。临床研究基本概念(第2版)/ (美)肯尼思. F. 舒尔茨 (Kennel:h F. Schulz) 原著; 王吉耀 主译. 北京:人民卫生出版社,2020