《Genome-Wide Association Studies》第四章:GWAS中的统计模型

科技   2024-10-23 22:07   河南  

大家好,我是邓飞,之前推荐过这本《Genome-Wide Association Studies》的书籍(GWAS书籍:《Genome-Wide Association Studies》,电子版pdf),2022年出版的,内容比较前沿。电子版书籍获得方法,公众号后台回复:book1,获得pdf链接。

已经介绍过的内容:

第一章:GWAS分析的主要步骤和关键要点

第二章:表型数据的准备和管理

第三章:基因分型平台介绍

今天介绍第四章:《GWAS中的统计模型》

这本书整体的目录如下:

常用的GWAS模型方法有:单位点GWAS、多位点GWAS、贝叶斯和机器学习。

GWAS分析结果关注的要点有:统计能力、计算效率、缺失数据的处理、稀有变异和遗传结构变异。

影响GWAS分析的要点有:

  • 异常值和非正态数据,增加一类错误,降低统计功效

  • 遗传力影响

  • 基因与环境互作影响

  • 群体大小

  • 群体结构

  • LD衰减

  • 标记密度

  • MAF次等位基因频率

  • 显著性阈值

  • 统计模型,比如K矩阵和Q矩阵


单位点检测的GWAS模型:

1,GLM模型:GLM进行单位点检测,无需确定遗传算法,可以考虑群体结构(PCA)降低过度拟合的错误率,不能考虑基因型之间的不平等相关性(亲缘关系)

2,MLM模型:在GLM的基础山,考虑了亲缘关系,这个问题导致了基于混合线性模型 (MLM) 的新 GWAS 方法的开发,该模型在分析中同时纳入了种群结构和亲属关系 。在MLM模型中,群体结构或主成分(PC)被认为是固定效应,亲属关系被拟合为基因型之间的随机方差-协方差结构。

3,CMLM:压缩MLM,为了提高QTL检测的统计能力并减少MLM的计算时间,开发了两种MLM相关模型,即压缩MLM(CMLM)和富集CMLM(ECMLM)模型。CMLM 能够使用算术平均的未加权配对组 (UPGMA) 作为最常见的聚类方法之一将基因型聚类到不同的相关组中 。考虑到将基因型聚类到不同的组中,检测相关QTL的统计功效显着增加。CMLM 采用不同的参数,例如群体结构、随机遗传效应、比率或方差、聚类以及基因分型组的数量。

4,ECMLLM,CMLM基础上开发,ECMLM 方法建立在带有附加参数的 CMLM 之上,该方法研究了测量不同基因型组之间亲缘关系的替代方案,作为成对个体亲缘关系的平均值 。在 ECMLM 中,计算时间很大程度上取决于优化总体参数 [43,44]。然而,ECLMM 通过检测聚类算法、亲缘关系和压缩水平的最佳组合,具有巨大的潜力,可以提高检测与感兴趣性状相关的 QTL 的统计能力 。基于MLM的模型的主要问题之一是需要大量的计算时间来分析大量基因型,并通过多次迭代来计算未知方差分量和“三次函数”或同时处理不同的参数。

其它单位点GWAS模型包括:FaST-LMM,Fast-LMM-Select,SUPER等。

多位点检测GWAS模型:

单位点的主要缺点,是处理复杂表型时效率低下,在单基因模型中,每个标记都是单独测试,这无法估计多个等位基因的联合效应。由于P值矫正,会导致阈值过高,过于保守,有些位点会检测不到,功效比较低。

大p小n的挑战,p是snp标记,n是样本数。由于LD的存在,snp的数目必须小于样本的数目,这就意味着同时分析snp的个数不能太多,不能超过样本的个数。一种解决思路:通过逐步回归,选择子集。缺点是计算量大,无法解决群体结构。

1,MLM多位点混合模型

2,FarmCPU模型,在MLMM的基础上,分为固定效应模型和随机效应模型,迭代。

3,BLINK,克服FarmCPU方法中随机效应不足,计算量大的问题。

4,BOLT-LMM,更快的模型,可以分析大于5000个样本的大模型,可以考虑群体结构。

贝叶斯做GWAS的方法:

贝叶斯惩罚回归和贝叶斯变量选择等贝叶斯模型通常用于研究多个遗传标记的联合效应。这些模型通过同时考虑比基因型数量更多的遗传标记,为解决“大 p,小 n”问题铺平了道路。由于贝叶斯模型不存在多重测试问题,因此它们对影响较小的遗传标记敏感。几项研究报告称,贝叶斯变量选择方法在检测与感兴趣性状相关的更相关的 QTL 方面比其他 GWAS 单基因座模型更高效。在大多数 GWAS 模型中,可以通过限制最终计算中出现一个或多个假阳性结果(基因组错误率)的概率来调整假阳性率。这种技术在处理小数据集时可能很有用;然而,从大型数据集中的最终结果中消除假阳性结果(其中会产生更多假阳性结果)可能会降低 GWAS 模型的统计能力。

机器学习做GWAS的方法:

农业科学的最新趋势之一是使用多种机器学习(ML)算法来解决回归和分类问题。简而言之,由于自动分析算法的构建,机器学习算法可以从数据中学习,而无需显式编程。ML 算法的使用已在表型组学、基因组学 、代谢组学、基因工程 和蛋白质组学 领域得到广泛研究。在基因组学中,机器学习算法能够解释大型基因组数据集并注释不同的基因组序列因素。在 GWAS 中,ML 算法可以优先考虑并检测效应量较小的遗传标记,从而提高检测与感兴趣性状相关的相关 QTL 的效率。在整个机器学习分析过程中,数据将被分为训练、验证和测试子集。训练数据集通常用于使用观察到的数据来训练机器学习算法。验证数据集的实现是为了调整测试的 ML 算法中的超参数。测试数据集用于评估最佳机器学习算法性能。或者,当数据集很小并且不可能将基本数据集分成三个子集时,可以使用交叉验证技术。交叉验证将数据集分为训练数据集和测试数据集,然后训练子集分为两个不同的子集,一个用于训练算法,另一个用于调整超参数。应多次执行基础数据集的分区,以最大限度地减少过度拟合和变异率[116]。在 GWAS 分析中,由于遗传标记之间存在相互作用,基础数据集的划分会很复杂。为了解决这个问题,Piette 和 Moore提出了一种交叉验证的替代技术,可以保持数据的原始结构。

GWAS分析模型方法结论:

识别与植物重要性状相关的基因组区域是优良品种可持续发展的一种有前途的方法。考虑到 GWAS 对表征定量特征的变革性影响,可以通过利用更合适和更强大的计算程序来提高该方法的统计能力。一般来说,无论使用哪种GWAS方法,遗传标记的完整性、遗传算法的选择、群体结构、隐性相关性和显着性阈值的确定对于准确有效地识别控制感兴趣性状的基因组区域起着关键作用。与单基因座模型不同,多基因座模型的开发是为了估计多个等位基因的联合效应;然而,主要障碍是处理“大p,小n”数据集。尽管贝叶斯方法可以处理具有大量遗传标记的数据集,并且不需要 Bonferroni 校正,但它们复杂且耗时。机器学习算法提供了广泛的解决方案来解决与传统 GWAS 方法相关的局限性,但它们仍处于 GWAS 分析的早期阶段。毫无疑问,开发新分析模型的进展将有助于加速和改进分析程序,但值得注意的是,GWAS 是一项共同努力,其结果直接取决于关联小组的组装、实验设计、基因分型以及基因组覆盖、表型分析、分析模型以及分析后解释和验证。

想要更好的学习和交流,快来加入飞哥的知识星球,这是一个生物统计+数量遗传学+GWAS+GS的社区,在这里你可以向飞哥提问、帮你定学习计划、跟着飞哥一起做实战项目,冲冲冲。点击这里加入吧:飞哥的学习圈子


分割线



大家好,我是邓飞,一个持续分享的农业数据分析师,这里我将自己公众号的干货内容挑重点罗列一下,方便大家阅读和使用。


1,GWAS学习教程(快来领取 | 飞哥的GWAS分析教程更新啦),这个pdf是我将公众号的内容进行了汇总,更方便从头学习GWAS分析,里面配套了数据、代码和讲解,属于干货推荐的Number 1。


2,农学人如何入门数据分析资料汇总(飞哥汇总 | 入门数据分析资源推荐),里面推荐了免费的教程,包括编程、统计和专业书籍。


3,数量遗传学电子书下载(数量遗传学,分享几本书的电子版


4,R语言电子书线上书籍推荐(学习R语言这几本电子书就够了!

育种数据分析之放飞自我
本公众号主要介绍动植物育种数据分析中的相关问题, 算法及程序代码.
 最新文章