著作解读|GWAS第二章:表型数据的准备和管理

文摘   2024-08-30 08:53   广东  
大家好,我是邓飞。之前推荐过这本《Genome-Wide Association Studies》的书籍,2022年出版的,内容比较前沿。电子版书籍获得方法,公众号后台回复:book1,获得pdf链接。
昨天介绍的第一章:GWAS分析的主要步骤和关键要点,今天介绍第二章。

这本书的目录:

今天介绍第二章:表型数据的准备和管理

主要内容:

  • 表型数据异常值处理。
  • 表型数据,使用原始数据,blup值,平均值,还是blue值对结果的影响。
  • 异常值不清理,会造成假阳性,特别是频率比较低的位点,对异常值更敏感。
  • 稀有位点有效,以及假阳性的影响,这是需要权衡的。
  • 使用空间分析校正表型,提升狭义遗传力,增加GWAS中显著性位点的power。
  • 选择合适的统计模型,同时考虑假阳性和假阴性的影响。

GWAS分析流程:

表型数据的误差来源:

1. 图片噪音,由于图片数字化时产生的噪音。

2. 技术问题导致的误差。

3. 人为误差,采集数据时没有布置好,而导致的误差。

计算矫正值之前,需要将这些误差值删除。

表型数据的清洗方式对GWAS结果影响很大:

上面是数据是否清洗的检测结果,可以看到,第10条染色体在数据清洗后,没有了显著性位点,这些位点可能是假阳性。

如何正确对待异常值?

  • 尽可能的检查和消除异常值,最大化的捕获表型方差

  • 清洗标准,可以根据群体结构和分析目的,综合考虑每种方法的优缺点

  • 另外,建议可以识别异常值,但是不能删除,异常值也是有价值的信息,可以分别测试不同的结果

注意:表型值的准确性才是最重要的,再好的模型弥补不了数据的缺陷。表型数据不好,一切都是白搭。

为何植物多环境数据(MET)要使用BLUE值或者BLUP值,不用平均值?

BLUE和BLUP重叠更多,平均值结果不太好。blup和blue重复了32个,blue和平均值重复了26个,blup和平均值重复了20个。之前写过博客:用BLUE值作表型进行GWAS分析

结论:

1. 异常值识别方法是 GWAS 分析的一个重要标准。因此,一种或另一种方法的选择取决于标准的优化和遗传分析的战略决策。

2. 缺乏对数据清理的关注,会直接影响检测到的QTL的数量和效果,并可能导致最终结论模糊。

3. 数据集的组织和存储方式应便于重新分析。这要求对检测到的异常值进行识别,但不从信息系统中删除,并且将异常值检测规则保留为GWAS分析的元数据。

4. GWAS 分析的基因型平均值必须通过考虑实验空间变化的稳健模型(例如混合模型)来估计。

5. 使用考虑空间趋势的混合模型增加了显着QTL的数量,这可能是由于性状的狭义遗传力和GWAS的统计能力增加的结果。

6. 估计基因型平均值的方法的选择会影响GWAS的统计功效。因此,所选方法的后果可以通过选择更高(或更低)的GWAS分析阈值来抵消。

飞哥总结:

  • 异常值一定要处理,不正确的数据一定要删掉

  • 多环境数据,推荐使用混合线性模型的空间分析进行矫正表型,这样结果更可靠。使用的软件:asreml、sommer等包。

  • 对于不确定的异常值,可以放到模型中跑一下,去掉跑一下。另外,样本比较小的群体,多试试GWAS模型,比如MLM、BLINK、Farmcpu等方法。

下一篇,介绍《基因型分型平台选择》,欢迎继续关注。

植信矿工
专注于分享植物方向的最新学术成果、前沿知识和技术进步,以及实践优化过的生信软件、脚本和流程。
 最新文章