GWAS中的分析模型介绍和注意要点

科技   2024-09-04 20:47   河南  

大家好,我是邓飞。

今天介绍一下GWAS常见的模型,总结来源于书籍《Genome-Wide Association Studies》(GWAS书籍:《Genome-Wide Association Studies》,电子版pdf),2022年出版的,内容比较前沿。电子版书籍获得方法,公众号后台回复:book1,获得pdf链接。

已经介绍过的内容:

第一章:GWAS分析的主要步骤和关键要点

第二章:表型数据的准备和管理

第三章:基因分型平台介绍

这本书整体的目录如下:

GWAS模型可以分为单位点检验和多位点检验(Single Locus Models and Multilocus Models)以及贝叶斯GWAS(GWAS Using Bayesian Models)和机器学习GWAS(GWAS Using Machine Learning)四大类,其中单位点GWAS用的最多。

1,单位点GWAS,就是单点扫描进行统计计算显著性,比如我们plink中的--linear,GLM模型,还有混合线性模型(MLM),比如GAPIT和GCTA,还有MLM改良模型比如CMLM、ECMLM、EMMA、FaST-LMM、Fast-LMM-Select、SUPER等。

2,多位点GWAS模型,单位点GWAS主要缺点是无法估计多个位点的联合效应,而且矫正后的P值,阈值偏高,过于保守,功效比较低。多位点GWAS模型代表的方法多位点混合线性模型(MLMM),FarmCPU,BLINK,BOLT-LMM模型,比较常用的事FarmCPU和BLINK两种方法,特别是样本量少时,有时候比MLM效果更好。

3,贝叶斯GWAS模型,相关方法包括Bayes系列的GWAS,比如BayesA GWAS、BayesB GWAS、LASSO GWAS等方法。

4,机器学习GWAS,包括RF GWAS、ANN GWAS、SVM GWAS等方法。

下面两个图,是四类GWAS方法的比较,分别从检测功效、计算时间、QTN的数量进行比较。整体而言,贝叶斯和机器学习类的计算时间较长,机器学习和多位点GWAS统计检测功效较高。

飞哥总结:

1,单位点GWAS,推荐软件:plink、GCTA、GEMMA,比如GLM模型、MLM模型、Logistic模型等

2,多位点GWAS,推荐软件:GAPIT的BLINK和FarmCPU模型,BLINK的二进制版本、rMVP包的FarmCPU。

3,贝叶斯和机器学习类的,基本上能做GS的都可以做GWAS,推荐的方法有:Bayes B GWAS和神经网络GWAS(ANN GWAS)

下一篇,介绍第五章,《GWAS分析结果解读》,欢迎继续关注。

想要更好的学习和交流,快来加入飞哥的知识星球,这是一个生物统计+数量遗传学+GWAS+GS的社区,在这里你可以向飞哥提问、帮你制定学习计划、跟着飞哥一起做实战项目,冲冲冲。点击这里加入吧:飞哥的学习圈子


育种数据分析之放飞自我
本公众号主要介绍动植物育种数据分析中的相关问题, 算法及程序代码.
 最新文章