R语言实操：使用TwoSampleMR包进行孟德尔随机化分析

科技 2024-09-11 21:50 河南

大家好，我是邓飞。

前几天一直学习孟德尔随机化的理论知识，写了几篇博客，迷迷糊糊感觉入门了，今天跑代码试了试，看着结果和图表，感觉理解更深入了。果然，看书百遍，不如一练，今天分享一下实操代码。

前几天的博客：

孟德尔随机化的术语理解

孟德尔随机化：工具变量三大假设

从一篇孟德尔随机化文章看MR常见结果形式

示例数据使用官网的数据，进行了一点补充，对结果进行了可视化。（https://mrcieu.github.io/TwoSampleMR/articles/introduction.html）

整个步骤：

步骤1：提取暴露数据的GWAS

> ## 1, 安装TwoSampleMR，如果已安装，可以忽略> > # library(remotes)> # install_github("MRCIEU/TwoSampleMR")> > ## 2， 载入TwoSampleMR包> library(TwoSampleMR)> > ## 3，从数据库中提取暴露的GWAS summary数据> exposure_dat = extract_instruments("ieu-a-2")> dim(exposure_dat)[1] 79 15

共有79行15列的暴露数据结果。

步骤2：提取结局数据的GWAS

> ## 4，从数据库中提取结局变量的的GWAS summary数据，SNP用暴露数据的结果> # Get effects of instruments on outcome> outcome_dat = extract_outcome_data(snps=exposure_dat$SNP, outcomes = "ieu-a-7")Extracting data for 79 SNP(s) from 1 GWAS(s)> dim(outcome_dat)[1] 79 16

共79行15列的结局数据，注意，这里直接使用暴露数据质控后的SNP，提取结局数据得到的结果，所以位点数是一样的。

步骤3：合并暴露数据和结局数据

> ## 5，将暴露数据和结局数据合并> # Harmonise the exposure and outcome data> dat = harmonise_data(exposure_dat, outcome_dat)Harmonising Body mass index || id:ieu-a-2 (ieu-a-2) and Coronary heart disease || id:ieu-a-7 (ieu-a-7)> dim(dat)[1] 79 36

合并的数据，共79行，36列，这些数据可以用于孟德尔随机化的分析。

步骤4：孟德尔随机化分析及结果可视化

> ## 6，进行孟德尔随机化分析> res = mr(dat)Analysing 'ieu-a-2' on 'ieu-a-7'> ## 7，异质化分析> mr_heterogeneity(dat)  id.exposure id.outcome                              outcome                      exposure                    method        Q1     ieu-a-2    ieu-a-7 Coronary heart disease || id:ieu-a-7 Body mass index || id:ieu-a-2                  MR Egger 143.30462     ieu-a-2    ieu-a-7 Coronary heart disease || id:ieu-a-7 Body mass index || id:ieu-a-2 Inverse variance weighted 143.6508  Q_df       Q_pval1   77 6.841585e-062   78 8.728420e-06> ## 8，水平多效性分析> mr_pleiotropy_test(dat)  id.exposure id.outcome                              outcome                      exposure egger_intercept          se      pval1     ieu-a-2    ieu-a-7 Coronary heart disease || id:ieu-a-7 Body mass index || id:ieu-a-2    -0.001719304 0.003985962 0.6674266> ## 9，留一法分析> res_loo = mr_leaveoneout(dat)> mr_leaveoneout_plot(res_loo)$`ieu-a-2.ieu-a-7`
attr(,"split_type")[1] "data.frame"attr(,"split_labels")  id.exposure id.outcome1     ieu-a-2    ieu-a-7> ## 10，散点图> > p1 = mr_scatter_plot(res, dat)> p1$`ieu-a-2.ieu-a-7`
attr(,"split_type")[1] "data.frame"attr(,"split_labels")  id.exposure id.outcome1     ieu-a-2    ieu-a-7> > ## 11，森林图> res_single = mr_singlesnp(dat)> mr_forest_plot(res_single)$`ieu-a-2.ieu-a-7`
attr(,"split_type")[1] "data.frame"attr(,"split_labels")  id.exposure id.outcome1     ieu-a-2    ieu-a-7Warning messages:1: Removed 1 row containing missing values or values outside the scale range (`geom_errorbarh()`). 2: Removed 1 row containing missing values or values outside the scale range (`geom_point()`). > > ## 12，漏斗图> mr_funnel_plot(res_single)$`ieu-a-2.ieu-a-7`
attr(,"split_type")[1] "data.frame"attr(,"split_labels")  id.exposure id.outcome1     ieu-a-2    ieu-a-7

下图是留一法的森林图：

下图是孟德尔随机化的森林图：

下图是孟德尔随机化的散点图：

下图是孟德尔随机化的漏斗图：

还有哪些需要研究的？

如何读取自己的GWAS summary结果，并将格式整理为TwoSampleMR的格式？

如何对暴露数据GWAS结果进行质控，包括LD质控，F值质控，R2质控等？

怎么对已发表的文章进行结果图标的复现？

这些都是细枝末节，等我后续一一完成博客的文章，欢迎继续关注。

上面分析完整的代码汇总：

## 1, 安装TwoSampleMR，如果已安装，可以忽略
# library(remotes)# install_github("MRCIEU/TwoSampleMR")
## 2， 载入TwoSampleMR包library(TwoSampleMR)
## 3，从数据库中提取暴露的GWAS summary数据exposure_dat = extract_instruments("ieu-a-2")dim(exposure_dat)
## 4，从数据库中提取结局变量的的GWAS summary数据，SNP用暴露数据的结果# Get effects of instruments on outcomeoutcome_dat = extract_outcome_data(snps=exposure_dat$SNP, outcomes = "ieu-a-7")dim(outcome_dat)
## 5，将暴露数据和结局数据合并# Harmonise the exposure and outcome datadat = harmonise_data(exposure_dat, outcome_dat)dim(dat)
## 6，进行孟德尔随机化分析res = mr(dat)
## 7，异质化分析mr_heterogeneity(dat)

## 8，水平多效性分析mr_pleiotropy_test(dat)

## 9，留一法分析res_loo = mr_leaveoneout(dat)mr_leaveoneout_plot(res_loo)

## 10，散点图
p1 = mr_scatter_plot(res, dat)p1
## 11，森林图res_single = mr_singlesnp(dat)mr_forest_plot(res_single)
## 12，漏斗图mr_funnel_plot(res_single)

想要更好的学习和交流，快来加入飞哥的知识星球，这是一个生物统计+数量遗传学+GWAS+GS的社区，在这里你可以向飞哥提问、帮你制定学习计划、跟着飞哥一起做实战项目，冲冲冲。点击这里加入吧：飞哥的学习圈子

http://mp.weixin.qq.com/s?__biz=MzI0MTIzNjYwNQ==&mid=2247496018&idx=1&sn=749f7bcc476a1cc5ed3fe6abaf39daf8

育种数据分析之放飞自我

本公众号主要介绍动植物育种数据分析中的相关问题, 算法及程序代码.

最新文章

GWAS分析中曼哈顿图如何添加基因信息

GWAS分析神器：GAPIT3.5安装教程

GWAS分析先做后学

基因组学再创新高，农业领域迎来颠覆性进展，解决育种历史科研难题

孟德尔随机化分析直接上手！

《Genome-Wide Association Studies》第六章：GWAS中多年多点表型数据处理

《Genome-Wide Association Studies》第五章：GWAS结果解读

多性状或者多个模型的QQ和曼哈顿重叠图

基因型数据进行PCA分组

R语言免费电子书，一看就会一用就废不看白不看系列

对统计学“又爱又怕”，到底如何学统计？

两天搞定育种中常用的遗传评估和GS

《Genome-Wide Association Studies》第四章：GWAS中的统计模型

GWAS的曼哈顿图和QQ图diamante

多基因平分（PRS）与全基因组关联分析（GWAS）有什么关系？

一行代码对100个性状进行gwas分析

GWAS分析QQ图挺好，曼哈顿图没有显著性，如何调整阈值

孟德尔随机化R包TwoSampleMR安装教程并设置token

孟德尔随机化分析：代码实战

GWAS分析效果好坏重点是看QQ图

遗传力计算 | 随机区组RCBD计算广义遗传力

基因型数据的聚类分析和PCA分析

十一在家把GWAS分析学会吧！

GWAS分析中PCA分层不明显怎么办？你秀什么优越感？

GWAS分析中显著位点如何注释基因：excel？？？

数量遗传学：加性效应、显性效应、替换效应和GWAS的effect效应值

一文搞定R语言箱线图添加显著性的方法

R语言导出数据和统计结果三线表到Word文档中（一文搞定）

从入门到出家：单倍型Haploview分析（万字详解）

中秋推荐书：《动物育种和遗传学》翻译纸质版

撞脸：为何两个路人会长得一样？

配合力和育种值BLUP为啥为负值，几个意思？

孟德尔随机化分析和GWAS分析有什么区别？

R语言实操：使用TwoSampleMR包进行孟德尔随机化分析

从一篇孟德尔随机化文章看MR常见结果形式

孟德尔随机化：工具变量三大假设

IBS和IBD的区别和计算方法介绍

孟德尔随机化的术语理解

GWAS中的分析模型介绍和注意要点

真心建议数据人冲一冲新兴领域，收入还在涨！

GWAS检测的显著性SNP哪个分型是优势基因型？哪个SNP影响大？

obsidian使用初体验

关于遗传力常见的误解

再见了，手机搜索引擎，再见了百度

《Genome-Wide Association Studies》第三章：基因分型平台介绍

一文解决R语言安装包报错的问题

《Genome-Wide Association Studies》第二章：表型数据的准备和管理

《Genome-Wide Association Studies》第一章：GWAS分析的主要步骤和关键要点

用BLUE值作表型进行GWAS分析

plink对100个性状进行gwas分析

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉