一行代码对100个性状进行gwas分析

科技科学 2024-10-16 21:01 河南

大家好，我是邓飞。

GWAS分析时，3~5个性状是正常操作，要分析100个性状呢，手动修改参数，工作量是够了，但是程序员的修养体现在哪里了？？？

如果还是按照每个性状一个文件夹，每个文件夹中一个脚本，不断地修改脚本，一点也不高端，所以，遇到这种情况，批量处理就派上用场了。

之所以之前一直不用，因为10个性状一下，没有必要，费心思想还不如直接动手操作了，但是100个性状真的吓到我了，不满足才能有进步。就看了一下参数说明，然后五分钟搞定了。虽然五分钟搞定的事情，但是写博客20分钟记录一下还是有必要的，独乐乐不如众乐乐。

核心代码：

for i in {1..100};do echo "nohup plink --file b --allow-no-sex --pheno mphe.txt --linear --out y_${i}_result --mpheno $i "|bash;done

下面开始详细介绍。

plink中其实没有多性状模型的参数，但是它有一个--mpheno，指定性状所在的列，我们可以借用。

数据来源，GWAS Cookbook的GWAS-dat2（领取方法：快来领取 | 飞哥的GWAS分析教程），用下面代码生成表型数据：

library(data.table)

dd = fread("phe.txt")
head(dd)

set.seed(123)
xx = rnorm(150000)
nn = matrix(xx,1500,100) %>% as.data.frame()
nn[1:10,1:10]


dd1 = cbind(dd,nn)
dd1[1:10,1:10]

fwrite(dd1,"mphe.txt",col.names = F,quote = F,sep = " ")

1. 表型数据

表型数据：模拟100个性状，整理为txt，第一列FID，第二列ID，第三列以后为性状

2. 基因型数据

3. 单个性状建模

用linear模型（GLM）：

plink --file b --pheno mphe.txt --linear --allow-no-sex --out re1

结果文件：

$ ls re1*
re1.assoc.linear  re1.log  re1.nosex

GWAS分析结果：

注意，上面基因型没有质控，所以有P值为NA的情况，正常质控的数据不会存在这种情况。

4. plink批量分析多性状gwas

for i in {1..100};do echo "nohup plink --file b  --allow-no-sex --pheno mphe.txt --linear --out y_${i}_result --mpheno $i "|bash;done

上面代码就是多性状gwas分析，代码解析：

for 循环，1~100，表示100个性状，分别运行
正常进行gwas分析
--mpheno 后面参数$i，是分别运行100次gwas分析
--out 结果文件中，分别保存100个性状的gwas分析
|bash;done，是用管道符的形式运行nohup

运行过程：

运行的结果：

随便找一个性状结果：

完全没问题。搞定！！！

上面的批量运行程序，不但可以是plink，也可以是gemma，gcta，GAPIT等软件，都可以按照这种写法，非常666！

拓展：

GCTA、GEMMA也是可以批量处理100个性状的GWAS分析的，然后批量绘制GWAS结果，批量对显著性位点基因注释，批量绘制LDblock图，批量导出结果……

推荐阅读：

1，快来领取 | 飞哥的GWAS分析教程

2，飞哥汇总 | 入门数据分析资源推荐

3，数量遗传学，分享几本书的电子版

4，GWAS进阶分析为何要推荐Linux系统

http://mp.weixin.qq.com/s?__biz=MzI0MTIzNjYwNQ==&mid=2247496398&idx=1&sn=ab61b999f3fad42e90f02e7ed801efdf

育种数据分析之放飞自我

本公众号主要介绍动植物育种数据分析中的相关问题, 算法及程序代码.

最新文章

GWAS分析中曼哈顿图如何添加基因信息

GWAS分析神器：GAPIT3.5安装教程

GWAS分析先做后学

基因组学再创新高，农业领域迎来颠覆性进展，解决育种历史科研难题

孟德尔随机化分析直接上手！

《Genome-Wide Association Studies》第六章：GWAS中多年多点表型数据处理

《Genome-Wide Association Studies》第五章：GWAS结果解读

多性状或者多个模型的QQ和曼哈顿重叠图

基因型数据进行PCA分组

R语言免费电子书，一看就会一用就废不看白不看系列

对统计学“又爱又怕”，到底如何学统计？

两天搞定育种中常用的遗传评估和GS

《Genome-Wide Association Studies》第四章：GWAS中的统计模型

GWAS的曼哈顿图和QQ图diamante

多基因平分（PRS）与全基因组关联分析（GWAS）有什么关系？

一行代码对100个性状进行gwas分析

GWAS分析QQ图挺好，曼哈顿图没有显著性，如何调整阈值

孟德尔随机化R包TwoSampleMR安装教程并设置token

孟德尔随机化分析：代码实战

GWAS分析效果好坏重点是看QQ图

遗传力计算 | 随机区组RCBD计算广义遗传力

基因型数据的聚类分析和PCA分析

十一在家把GWAS分析学会吧！

GWAS分析中PCA分层不明显怎么办？你秀什么优越感？

GWAS分析中显著位点如何注释基因：excel？？？

数量遗传学：加性效应、显性效应、替换效应和GWAS的effect效应值

一文搞定R语言箱线图添加显著性的方法

R语言导出数据和统计结果三线表到Word文档中（一文搞定）

从入门到出家：单倍型Haploview分析（万字详解）

中秋推荐书：《动物育种和遗传学》翻译纸质版

撞脸：为何两个路人会长得一样？

配合力和育种值BLUP为啥为负值，几个意思？

孟德尔随机化分析和GWAS分析有什么区别？

R语言实操：使用TwoSampleMR包进行孟德尔随机化分析

从一篇孟德尔随机化文章看MR常见结果形式

孟德尔随机化：工具变量三大假设

IBS和IBD的区别和计算方法介绍

孟德尔随机化的术语理解

GWAS中的分析模型介绍和注意要点

真心建议数据人冲一冲新兴领域，收入还在涨！

GWAS检测的显著性SNP哪个分型是优势基因型？哪个SNP影响大？

obsidian使用初体验

关于遗传力常见的误解

再见了，手机搜索引擎，再见了百度

《Genome-Wide Association Studies》第三章：基因分型平台介绍

一文解决R语言安装包报错的问题

《Genome-Wide Association Studies》第二章：表型数据的准备和管理

《Genome-Wide Association Studies》第一章：GWAS分析的主要步骤和关键要点

用BLUE值作表型进行GWAS分析

plink对100个性状进行gwas分析

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉