利用基因组最佳线性无偏预测(gBLUP)估算育种值

文摘   2024-11-11 07:30   中国  

这是2013年Samuel A Clark和Julius van der Werf发表在methods in molecular biology上的一篇介绍gBLUP的方法性文章。作者先后介绍了RR-BLUP和gBLUP模型,然后说明了二者的等价性,并列举了三种构建基因组关系矩阵(GRM)的方法,最后介绍了gBLUP预测育种值的原理。

具体内容如下:

1RR-BLUP

RR-BLUP的模型为:

  • 是n×1的表型值向量。
  • 是全为1的向量。
  • 是表型均值,是标量。
  • 是n×m的基因型关联矩阵,n是个体数,m是标记数。
  • 是每个SNP的效应值。
  • 是n×1的随机残差向量。
矩阵首先被编码为0、1、2,分别表示主等位基因纯合体、杂合体、次等位基因纯合体,然后每一列减去进行中心化(是位点j的最小等位基因频率)。 
该模型是混合线性模型,是每个SNP的效应,同时也是该模型的随机效应。假设每个SNP效应的方差相等,则遗传方差可分解为SNP效应方差和残差,二者均为方差-协方差矩阵,且模型假定二者独立,则表型值向量y的方差-协方差矩阵即为。也可以先假设SNP效应的先验分布,然后估计每个SNP的方差。
2gBLUP

gBLUP的模型为:

  • 是n×1的表型值向量。
  • 是n×p的固定效应设计矩阵。

  • 是p×1的固定效应系数向量,p表示固定因子的个数。

  • 是n×n的随机效应设计矩阵,是对角线为1的单位矩阵。

  • 是n×1的随机效应向量,表示个体的加性遗传效应。

  • 是n×1的随机残差向量。

该模型也是混合线性模型,是固定效应,没有方差;是随机效应,中的每一个元素表示个体的加性遗传效应,是随机的。的方差为是基因组关系矩阵,是加性遗传方差。值得注意的是,向量中可以同时包含具有表型值和缺乏表型值的个体,前者作为训练群体或参考群体,而后者是测试群体或一组要预测的个体。

3构建基因组关系矩阵(GRM)的方法

文章中介绍了三种方法,其中VanRaden提出的方法最具代表性,因此这里只介绍VanRaden方法,过程如下: 
  1. 构建一个n×m的映射矩阵M,n是个体数,m是标记数。 

  2. 将主等位基因纯合体编码为-1、杂合体编码为0、次等位基因纯合体编码为1。

  3. 构建一个与M相同大小的矩阵,每一列的元素为是位点的最小等位基因频率。

  4. 减去得到(在VanRaden的原文中为),矩阵即为RR-BLUP中的基因型关联矩阵。 

  5. 计算基因组关系矩阵

4RR-BLUPgBLUP的等价性

gBLUP有三个重要的特性,这些特性使得它比RR-BLUP更值得使用。(1)混合线性模型方程中,随机效应的方差维度从RR-BLUP中的m×m(其中m是标记数)降低到n×n(其中n是个体数)。(2)可以用传统BLUP中的亲缘关系矩阵A替代基因组关系矩阵G,进而计算个体基因组估计育种值(GEBV)。(3)gBLUP中的基因组信息可以通过单步法与谱系信息结合。实际上,gBLUP和RR-BLUP某些情况下是等价的模型。

实际上,gBLUP和RR-BLUP某些情况下是等价的模型。当gBLUP中没有固定效应时,该模型为:,模型的表型方差为

相应的RR-BLUP的模型为:,该模型的表型方差(假设每个SNP效应的方差相等)。

仅有系数之差,当时二者等价。

5、使用gBLUP预测育种值

首先需要构建基因组关系矩阵GRM,其中部分个体有表型值,同时也存在没有表型值的个体。混合线性模型构建如下:

是GRM的四部分:表示有表型值个体间的基因组关系,表示有表型值个体与没有表型值个体之间的基因组关系,表示没有表型值个体间的基因组关系。

是有表型值个体的育种值,是没有表型值个体的育种值。无表型个体的估计育种值为:

这是先用gBLUP得到有表型个体的估计育种值,然后利用进行基因组回归预测。

作物功能表型研究
记录分享作物功能表型领域研究动态~
 最新文章