这本书的目录:
今天介绍第二章:表型数据的准备和管理
主要内容:
表型数据异常值处理。 表型数据,使用原始数据,blup值,平均值,还是blue值对结果的影响。 异常值不清理,会造成假阳性,特别是频率比较低的位点,对异常值更敏感。 稀有位点有效,以及假阳性的影响,这是需要权衡的。 使用空间分析校正表型,提升狭义遗传力,增加GWAS中显著性位点的power。 选择合适的统计模型,同时考虑假阳性和假阴性的影响。
GWAS分析流程:
表型数据的误差来源:
1. 图片噪音,由于图片数字化时产生的噪音。
2. 技术问题导致的误差。
3. 人为误差,采集数据时没有布置好,而导致的误差。
表型数据的清洗方式对GWAS结果影响很大:
如何正确对待异常值?
尽可能的检查和消除异常值,最大化的捕获表型方差
清洗标准,可以根据群体结构和分析目的,综合考虑每种方法的优缺点
另外,建议可以识别异常值,但是不能删除,异常值也是有价值的信息,可以分别测试不同的结果
注意:表型值的准确性才是最重要的,再好的模型弥补不了数据的缺陷。表型数据不好,一切都是白搭。
为何植物多环境数据(MET)要使用BLUE值或者BLUP值,不用平均值?
BLUE和BLUP重叠更多,平均值结果不太好。blup和blue重复了32个,blue和平均值重复了26个,blup和平均值重复了20个。之前写过博客:用BLUE值作表型进行GWAS分析。
结论:
1. 异常值识别方法是 GWAS 分析的一个重要标准。因此,一种或另一种方法的选择取决于标准的优化和遗传分析的战略决策。
2. 缺乏对数据清理的关注,会直接影响检测到的QTL的数量和效果,并可能导致最终结论模糊。
3. 数据集的组织和存储方式应便于重新分析。这要求对检测到的异常值进行识别,但不从信息系统中删除,并且将异常值检测规则保留为GWAS分析的元数据。
4. GWAS 分析的基因型平均值必须通过考虑实验空间变化的稳健模型(例如混合模型)来估计。
5. 使用考虑空间趋势的混合模型增加了显着QTL的数量,这可能是由于性状的狭义遗传力和GWAS的统计能力增加的结果。
6. 估计基因型平均值的方法的选择会影响GWAS的统计功效。因此,所选方法的后果可以通过选择更高(或更低)的GWAS分析阈值来抵消。
飞哥总结:
异常值一定要处理,不正确的数据一定要删掉
多环境数据,推荐使用混合线性模型的空间分析进行矫正表型,这样结果更可靠。使用的软件:asreml、sommer等包。
对于不确定的异常值,可以放到模型中跑一下,去掉跑一下。另外,样本比较小的群体,多试试GWAS模型,比如MLM、BLINK、Farmcpu等方法。
下一篇,介绍《基因型分型平台选择》,欢迎继续关注。