【MR使用必看】如何从大量误导性2SMR论文中挽救孟德尔随机化法【附“优质”MR论文标准】

文摘   科学   2024-09-12 21:01   北京  


2024年9月7日,孟德尔随机化法鼻祖George Davey Smith等人在Lipids in Health and Disease杂志上发表文章“Reclaiming Mendelian randomization from the deluge of papers and misleading findings”,再次强调了净化孟德尔随机化科研环境的必要性。他们呼吁停止滥用和误用MR方法,并强调科学界应拒绝不具贡献性的MR论文,严格审查新的MR论文,以重新确立该技术的科学价值。

孟德尔随机化(Mendelian randomization,简称MR)是一种用于因果推断的强大流行病学方法。然而,其近年来的普及引发了两个令人担忧的趋势。首先,基因组关联研究的摘要结果的公开可用性,导致了大量低质量双样本孟德尔随机化(Two-sample MR,简称2SMR)研究的爆炸性增长。这些研究不少出自于论文工厂,很少增加新的价值,甚至没有增加任何价值,并使审稿人和期刊负担过重

其次,如英国生物银行等拥有个体水平基因型数据的大型数据库的可用性,促进了新型MR方法的开发和使用。然而,一些方法的应用并未经过适当测试,导致误导性结果(最近关于维生素D的错误发现及其撤回或更正的例子便是明证,详见:【慎用非线性MR】柳叶刀子刊维生素D相关NLMR文章撤稿,当前NLMR法恐存在漏洞

作者建议编辑直接拒稿仅报告2SMR结果但没有其他支持证据的论文。审稿人应要求对新方法进行严格测试,包括在应用前使用正负对照。

博主在此也再次重申对于“优质”MR研究的标准【最低要求】:将MR结果作为支持性证据,附在单样本回归分析/队列分析的主结果之后,以满足三角验证(Triangulation,详见:【原创MR实践指南】用三角验证法(Triangulation)增强孟德尔随机化结果的有效性(论文链接点左下角“阅读原文”)

以下为全文译文:

孟德尔随机化是一种流行病学方法,利用基因变异来推断可修改暴露因素对结果的因果效应。该方法依赖于使用与感兴趣的暴露相关的基因变异作为该暴露的代理变量。如果与暴露相关的基因变异可以与结果稳健地关联,则增强了该暴露因素在该结果中起因果作用的证据。这种推断基于基因变异较不易受到混杂因素的影响且不受逆因果关系影响的事实——这些是传统流行病学研究难以完全解决的误差来源。

孟德尔随机化的一项显著成功是在确认和反驳各种循环生物标志物与动脉粥样硬化之间的因果关系。MR研究准确地复现了降低低密度脂蛋白胆固醇(LDL-C)的药物(如他汀类和PCSK9抑制剂)的效果,并正确预测了维生素D和高密度脂蛋白胆固醇(HDL-C)等其他靶点的无效性。

随着方法论的成功记录,孟德尔随机化工具箱也得到了扩展。其中的众多方法之一是双样本MR(2SMR),其中暴露和结果来自两个独立研究的摘要结果。双样本MR最早在2003年首次详细阐述孟德尔随机化时得到应用。自此方法诞生以来,数千个全基因组关联研究(GWAS)的摘要结果的公开共享极大地促进了其应用。这些数据被整合到易于访问的数据库中,允许在线通过几次鼠标点击即可进行2SMR分析(例如:https://app.mrbase.org/)。此外,这些数据可以通过用户友好的R包轻松导入和分析,如TwoSampleMR和MendelianRandomization。总之,2SMR普及化了MR的使用,使得这一方法能够被更广泛的群体,包括非专家,所接触。

然而,这种易于获取的特性导致了2SMR研究数量的激增,这些研究通常质量较低且缺乏科学严谨性,这种情况在早年已有预测。有些研究被论文工厂(papermill-like factories)批量生产,显然是为了学生毕业和职业晋升目的而生成的。

现如今,大量低质量的双样本孟德尔随机化(2SMR)研究的问题已显著暴露出来。十年前,每年发表的MR论文大约只有100篇。但到了2023年,这个数字已超过3,000篇,预计到2024年将接近5,000篇(见图1)。其中大部分是2SMR研究。这种激增让同行评审者、编辑和期刊都感到不堪重负。例如,Lipids in Health and Disease每月就接收约60篇2SMR研究,而本评论的作者每周接到的此类研究的同行评审请求超过30次。

图1、PubMed中MR论文每年发表数量变化

那么,编辑和同行评审者该如何应对这种2SMR研究的洪流呢?我们建议编辑直接拒绝只报告2SMR且没有其他支持数据的提交论文。背后的一个理由是,基于IEU openGWAS (https://gwas.mrcieu.ac.uk/) 数据库中可用的数据,所有暴露和结果的组合都可以在epigraphDB.org网站上在线浏览。换言之,这些结果实际上已经发表了。在科学论文中再次报道这些结果对于可以在几分钟内在线查阅的信息并没有增加任何价值。对于收到此类2SMR论文的同行评审者,我们建议使用模板评审来快速处理它们。例如:

“关于此类双样本孟德尔随机化(2SMR)研究的一般评论是,由于公开可用的GWAS结果和现成的R包,它们变得非常容易执行。
结果就是一大批2SMR研究被生产出来并提交发表。其中许多源自研究论文工厂,这些工厂使用相同的方法和分析流程批量生产论文,只是在每篇论文中更换暴露和结果。
这些论文对科学价值的增加甚微,且给期刊、编辑和同行评审者带来了巨大负担。我建议【插入期刊名称】的编辑将来拒绝这些论文,不再送审。”

读者当然可以使用或修改此模板,或其部分内容,以供其未来对低质量2SMR论文的评审之用。这对期刊在提醒编辑这一问题方面可能有所帮助,尽管许多2SMR论文发表在掠夺性或接近掠夺性的期刊中,这削弱了这种做法的成功可能性。

从大型人口研究中获取的个体基因型数据的广泛可用性,尤其是英国生物银行(UKB),正引发第二波论文热潮,这些论文原则上可以探讨比单独的双样本孟德尔随机化(2SMR)研究更有趣的假设。这促使新方法不断涌现,用于扩展孟德尔随机化分析,这些方法可能成为人群生物学中因果推断的宝贵工具。每种方法都需要额外的假设,超出了常规MR中已经很好描述的那些。在推广使用之前,应该对这些方法进行彻底测试,包括尽可能使用阴性和阳性对照。

对于使用未经充分测试的复杂方法的MR研究(如非线性MR法),其问题与论文工厂生产的2SMR研究截然不同,因为很少有评审者能够真正评估它们。简单应用阴性对照本可以对该方法的可靠性提出严重疑问——将其应用于UKB表明维生素D对参与者的年龄和染色体性别有因果效应,这显然是荒谬的。另一篇误导性的非线性MR论文的主题——体质指数——在应用非线性MR方法时显示出类似荒谬的表面因果效应。这种方法测试应该在它被推出之前进行。评审者应对扩展MR到新领域的论文提出深入问题,并考虑在实施前是否已进行足够的方法学工作。

不幸的是,MR已经偏离了轨道。本质上是一个强大且优雅的科学方法,用于在流行病学中评估因果关系,现在被用于大规模生产低质量研究,并且还报道了误导性发现,包括一些错误地驳斥早期真实的MR研究的非常有价值的发现。拒绝不具贡献性的2SMR论文并对新方法实施严格审查是科学界重拾MR的当务之急。

遗传社科研究
本公众号主要关注新兴自然科学与社会科学交叉领域——遗传社会科学研究进展,由中国农业大学经济管理学院朱晨教授维护,相关书籍《遗传经济学原理》已出版上市。【注意】本公众号不答疑,有问题请发邮箱,zhuchen@cau.edu.cn
 最新文章