不懂代码也能玩转孟德尔随机化分析?试试MR-Base吧!

文摘   2024-08-07 18:04   上海  

文章前言 | INTRODICTION

     Hello大家好!在上一篇文章中,我们深入探讨了孟德尔随机化(Mendelian Randomization,MR)的基本原理及其在因果推断中的应用。

     孟德尔随机化利用基因变异来探究暴露因素与结局之间的因果关系,通过我们的保姆级教程:一文读懂并复现孟德尔随机化,不知道大家是否对这种方法有了更深入的了解?

     上期公众号发表之后,很多读者私信咨询如果没有代码基础是否也能完成一定的分析工作?纽科生物应广大读者要求,本次就为大家提供一种零代码轻松实现孟德尔随机化分析,即便没有代码基础,也能玩转孟德尔随机化。

图1. 孟德尔随机化

     在MR分析中,获取暴露和结局的GWAS数据无疑是最困难最繁琐的部分,且对于很多没有编程背景的朋友来说,操作孟德尔随机化的分析工具可能会有些挑战。那么,有没有一种更加便捷的方法来进行MR分析呢?答案是肯定的。这次,我将向大家介绍一个在线平台——MR-Base。它集成了大量GWAS数据,只需通过简单的鼠标点击选择,即可轻松完成孟德尔随机化的分析。接下来,让我们一起看看MR-Base是如何让孟德尔随机化分析变得如此简单高效的吧!

Part.01


什么是MR-Base


     当前公开的GWAS数据数量众多,每年还有大量GWAS新数据涌现,为了简化和加速MR分析,科学家们开发了MR-Basehttp://app.MR-Base.org/)在线平台。

    MR-Base的核心功能之一是其广泛的数据覆盖。截至2018年5月,MR-Base数据库包含来自1673个GWAS的超过110亿个SNP数据。这些数据覆盖了各种复杂性状和疾病,极大地扩展了研究者可以分析的范围。此外,MR-Base通过其应用编程接口(API)、用户友好的网页界面和R软件包(如TwoSampleMR),自动化了2样本孟德尔随机化(2SMR)分析。研究者可以通过API和网页应用轻松访问MR-Base和查询数据库,极大地提高了分析效率。

图2. MR-Base

Part.02

如何使用MR-Base

      MR-Base分析MR分为3个步骤:选择暴露因素Choose exposures)、选择结局变量Choose outcomes)和运行MR分析Run MR)。

图3. MR-Base网页面板

选择暴露因素

CHOOSE EXPOSURES

     点击Choose exposures,选择暴露数据的来源。SNP数据可以自行上传或者使用MR-Base数据库中的数据。

图4. 选择暴露数据工具变量

     自行上传数据(以telomere_length.txt为例):

     文件必须为TXT文件,以逗号Comma)、空格Space)或Tab进行分割。文件中必须包含SNPbetaseeffect_allele信息列,可以包含other_allele和eaf等其他有效信息列。(注意:pval不是MR分析中的必须列,但它是MR分析数据预处理必须的信息列,可以先去除p值大于5 × 10−8的SNP再导入文件。)


图5.MR-Base上传本地数据

     选择MR-Base数据库中的SNP:

     NHGRI-EBI GWAS catalog:来自国家人类基因组研究所(NHGRI)和欧洲生物信息学研究所(EMBL-EBI)的GWAS数据;

     MR Base GWAS catalog:由其他数据库(主要来自IEU OpenGWAS)等汇总而成;

     Gene expression/ Protein/ Metabolite/ Methylation levels QTLs:在基因表达、蛋白质、代谢和DNA甲基化水平上进行的定量性状位点(Quantitative trait loci,QTL)研究。

图6.MR-Base数据库的数据类型

     在这里,我们选择MR Base GWAS catalog,以LDL胆固醇作为暴露因素,探究其与冠心病之间的因果关系。

     首先在搜索框内输入暴露因素的关键词:low density lipoprotein cholesterol,这时候会弹出和关键词相关的一系列GWAS数据集。我们可以选择其中一个或多个数据集作为暴露数据进行后续分析(选中的数据集会变蓝)。同时,我们可以通过参数板对数据集中的SNP进行过滤。

图7. MR Base GWAS catalog

选择结局变量

CHOOSE OUTCOMES

     在搜索框中输入冠心病的关键词:coronary heart disease,同样,选择一个或多个数据集作为结局变量进行后续分析。在这里我们选择ieu-a-7数据集。

图8. 选择结局变量数据集

运行MR

RUN MR

     在运行MR分析前,需要进行以下4步预处理:

     1) LD clumping

     为了确保SNP的独立性,我们需要去除连锁不平衡(Linkage Disequilibrium,LD)。可以选择“不检查SNPs之间的连锁不平衡”或者“使用clumping去除互相关联(处于LD)的SNP”。

     2) LD proxies

     当暴露因素的SNP(目标SNP)不存在于结局SNP时,可以使用代理SNP。基于遗传变异与目标SNP之间的LD关系,用于确定与目标SNP高度相关的代理SNP。这意味着目标SNP发生变异时,代理SNP也很可能会发生变异。LD代理查找由MR-Base自动提供。

     3) Allele harmonization

     为了整合暴露和结局的SNP,对于每个SNP,我们需要确保效应等位的一致性。MR-Base利用效应等位基因,必要时还利用效应等位基因频率,自动协调暴露和结果数据集。MR-Base提供了3种处理参考等位基因的方法:所有效应等位基因都在正链上、对回文SNPs进行校准、去除回文SNPs。

     4) Select methods for analysis

     当前有很多方法适用于2SMR分析,我们可以在框内勾选一种或多种统计方法。

     选择好了以上4步预处理后,点击“Perform MR analysis”开始分析。

图9. Run MR

Part.03


MR-Base分析结果




     分析完成后,左侧面板中会出现“MR Results”,点击“MR Results”将会出现以下页面:

图10. MR Results
     左侧展示了暴露和结局的详细信息,可以下载MR分析汇总报告表格结果。右侧上方分别是MR结果异质性检验因果方向检验水平多样性检验的结果。右侧下方展示了森林图散点图留一图漏斗图,可以点击下载pdf图片到本地。

网站引用

CITATIONS

     如果您使用了该网站的分析结果并完成了文章的撰写,一定记得对该网站进行正确的引用哦。在您的文章中一定要提供该网站的网址(https://app.mrbase.org/),并根据网站中的说明在reference列表中引用相关文献:   

图11. 引用


文章结语 | SUMMARY

     MR-Base作为一个在线平台,不仅整合了丰富的GWAS数据资源,还通过用户友好的界面和自动化的分析流程,极大地降低了分析的复杂性和门槛。通过本次介绍,希望大家能对MR-Base有更加清晰的了解。如果你对孟德尔随机化感兴趣,或是正在寻找简化分析流程的工具,不妨现在就访问MR-Base,体验一下它带来的高效和便捷吧! 

     如果你在使用MR-Base过程中遇到任何问题,或者想了解更多关于孟德尔随机化的信息,欢迎在评论区与我们互动。纽科将为您将带来更多前沿的科研工具和技术分享,下期再见!


参考文献:

Hemani, G., Zheng, J., Elsworth, B., Wade, K. H., Haberland, V., Baird, D., ... & Haycock, P. C. (2018). The MR-Base platform supports systematic causal inference across the human phenome. elife, 7, e34408.

Elsworth, B., Lyon, M., Alexander, T., Liu, Y., Matthews, P., Hallett, J., ... & Hemani, G. (2020). The MRC IEU OpenGWAS data infrastructure. BioRxiv, 2020-08.


关于我们


纽科生物提供专业的生物信息学数据分析和高通量测序服务。目前,公司已经和四川大学、复旦大学、上海交通大学、中山医院、华中科技大学等多所医院、高校的研究团队建立了长期良好的合作关系,提供高品质的数据分析和测序服务,帮助客户在European Heart Journal、Circulation Research、Nature Communications等多个著名杂志期刊上发表高水平科研文章,欢迎各位老师前来咨询。

纽科生物
提供优质的高通量测序和生物信息学个性化数据分析服务,http://www.RNAstar.com
 最新文章