为何?要用BLUE值作表型进行GWAS分析
1. 为何要计算BLUE值?
一年多点或者多年多点的植物数据中,一个基因型(品种)往往有多个表型数据,但只有一个基因型,在GWAS关联分析中,就需要一个基因型对应一个表型数据。
之所以有多个表型数据的原因:
或者是多个重复 或者是多个地点的数据 或者是多个年份的数据
问题:如何计算得到一个表型数据呢?
解答:可以使用多个表型值的平均值,作为品种的表型值,现在有更好的方法:BLUE值。
2. 为何使用BLUE值?
一般,有两个选择,BLUE值或者BLUP值,在GWAS中大都使用的BLUE值。
BLUE和BLUP的区别:
BLUE值是混合线性模型中固定因子的估计效应值 BLUP值是混合线性模型中随机因子的估计效应值
BLUE和BLUP的代表:
BLUE值着重在于评估品种现在的表现 BLUP值着重在于预测品种将来的表现
BLUE和BLUP的方差变化
BLUE只是对表型值根据地点,年份进行矫正,得到的数据和原来数据尺度一样 BLUP值会对表型数据进行压缩
一年多点的数据,如何更好的计算BLUE值进行GWAS分析?
常规的方法,是将品种作为固定因子,将地点作为随机因子,计算品种的BLUE值,然后将其作为表型数据进行GWAS分析。这样是有作用的,起码比平均值要准确。
其实,还有更高级的模型,比如一年多点的数据,如果地点有重复(区组),可以将品种与地点互作考虑到模型中,这样计算出的BLUE值是排除基因与环境互作后的,更能代表品种的真值。
最后,还有更高级的玩法,比如一年多点的数据,默认的是方差齐次,如果不齐次就不能进行联合方差分析,这时候可以将设置残差异质,包括基因与环境互作的异质,这样通过不同模型的比较,选择最优模型,这时候计算的BLUE值才是最优的。
后面几章,会系统介绍一下一年多点数据如何计算BLUE值,分别是:
* 一年多点数据,没有重复时,如何计算BLUE值?
* 一年多点的数据,有重复时,进行联合方差分析计算BLUE值
* 一年多点的数据,有重复时,通过设置残差异质以及互作异质,比较最优模型,计算BLUE值。
本篇,主要介绍为何要用BLUE值作为表型值,进行GWAS的分析。
相关博文: