大家好,我是邓飞。
在GWAS项目分析时,QQ图和曼哈顿图是我们最常见的两个图,QQ图可以判断模型是否理想(GWAS分析效果好坏重点是看QQ图),曼哈顿图可以看是否有显著性位点(R语言如何绘制GWAS的曼哈顿图和QQ图)
下面是QQ图和曼哈顿图的结果,右边是QQ图,左边是曼哈顿图,每一个曼哈顿图都有一个阈值线,超过阈值线的位点就是显著性位点,这些显著性位点可以进一步注释基因(GWAS分析中显著位点如何注释基因:excel???,显著SNP的基因注释教程!,批量对显著性SNP进行注释:bedtools)
问题是,如果QQ图显示比较理想,而曼哈顿图没有显著位点,确实很忧伤,比如星球的小伙伴的结果:
他的结果如下:
上图中,用的是CMLM模型的GWAS分析,QQ图很理想,1-3基本在一条直线上,而4以后翘起来了,符合我们对QQ图的理想预期(GWAS分析效果好坏重点是看QQ图),但是曼哈顿图就没有显著性位点,这里阈值是5,可以看到都没有显著性。其实单独看位点的话,3号染色体、6号染色体和10号染色体还是有潜在显著性为点的,这种情况下,可以调整一下阈值,往下降一点,这样GWAS分析就有显著性位点,就可以进行后续的基因注释了。
问题是,调整阈值,需要科学的依据,不是人为想调整就调整的。
我们首先,介绍一下现在GWAS分析中,阈值是如何确定。确定阈值分为了不同的流派。
第一种方法,Bonferroni矫正
这种方法应用最多,一般是N表示参与分析的SNP的个数,阈值可以是:
* 1/N
* 0.05/N
* 0.01/N
文章中前两种用得较多,这种方法比较严格,有时候1/N也没有显著性位点,这时候,可以考虑降低N的个数。
第二种方法,降低N的个数
由于SNP之间有连锁,可以通过LD筛选,用剩余SNP作为N,从而达到降低阈值的目的,比如使用plink命令 --indep-pairwise 50 10 0.2筛选LD,用剩余的位点作为N,来计算阈值。
第三种方法,置换检验(permutation)
该方法通过置换检验,比如1000次置换检验,然后将最小值排序,选择5%的值作为阈值,该方法从数学角度应该是更合理的方法,具体操作:
a1 正常进行GWAS分析,得到P值结果
a2 将表型数据随机排列,比如排列1000次,得到1000个数据集
a3 对1000个数据集进行gwas分析,得到P值
a4 对P值提取最小的值,得到1000个值,选择5%的值作为阈值
所以,可以通过第二种解决问题,也是比较简单的方法。
注意:上面的这些方法,不会改变原始P值的排名,如果你是要挖掘数据,直接根据原始的P值筛选,进行后面的验证也可以,但是没有显著性的话,可靠性较差。
想要更好的学习和交流,快来加入飞哥的知识星球,这是一个生物统计+数量遗传学+GWAS+GS的社区,在这里你可以向飞哥提问、帮你制定学习计划、跟着飞哥一起做实战项目,冲冲冲。点击这里加入吧:飞哥的学习圈子
分割线
大家好,我是邓飞,一个持续分享的农业数据分析师,这里我将自己公众号的干货内容挑重点罗列一下,方便大家阅读和使用。
1,GWAS学习教程(快来领取 | 飞哥的GWAS分析教程更新啦),这个pdf是我将公众号的内容进行了汇总,更方便从头学习GWAS分析,里面配套了数据、代码和讲解,属于干货推荐的Number 1。
2,农学人如何入门数据分析资料汇总(飞哥汇总 | 入门数据分析资源推荐),里面推荐了免费的教程,包括编程、统计和专业书籍。
3,数量遗传学电子书下载(数量遗传学,分享几本书的电子版)
4,R语言电子书线上书籍推荐(学习R语言这几本电子书就够了!)