《Genome-Wide Association Studies》第二章：表型数据的准备和管理

科技 2024-08-13 21:25 河南

大家好，我是邓飞，之前推荐过这本《Genome-Wide Association Studies》的书籍（GWAS书籍：《Genome-Wide Association Studies》，电子版pdf），2022年出版的，内容比较前沿。电子版书籍获得方法，公众号后台回复：book1，获得pdf链接。

昨天介绍的第一章：《Genome-Wide Association Studies》第一章：GWAS分析的主要步骤和关键要点，今天介绍第二章。

这本书的目录：

今天介绍第二章：《表型数据的准备和管理》：

主要内容：

1，表型数据异常值处理
2，表型数据，使用原始数据，blup值，平均值，还是blue值对结果的影响
3，异常值不清理，会造成假阳性，特别是频率比较低的位点，对异常值更敏感。
4，稀有位点有效，以及假阳性的影响，这是需要权衡的。
5，使用空间分析校正表型，提升狭义遗传力，增加GWAS中显著性位点的power
6，选择合适的统计模型，同时考虑假阳性和假阴性的影响

GWAS分析流程：

表型数据的误差来源：计算矫正值之前，需要将这些误差值删除。

1，图片噪音，由于图片数字化时产生的噪音

2，技术问题，导致的误差

3，人为误差，采集数据时没有布置好，导致的误差

表型数据的清洗方式对GWAS结果影响很大：

上面是数据是否清洗，检测的结果，可以看到，第10条染色体在数据清洗后，没有了显著性位点，这些位点可能是假阳性。

如何正确对待异常值？

1，尽可能的检查和消除异常值，最大化的捕获表型方差

2，清洗标准，可以根据群体结构和分析目的，综合考虑每种方法的优缺点

3，另外，建议可以识别异常值，但是不能删除，异常值也是有价值的信息，可以分别测试不同的结果

注意：表型值的准确性才是最重要的，再好的模型弥补不了数据的缺陷。表型数据不好，一切都是白搭

为何植物多环境数据（MET）要使用BLUE值或者BLUP值，不用平均值？

BLUE和BLUP重叠更多，平均值结果不太好。blup和blue重复了32个，blue和平均值重复了26个，blup和平均值重复了20个。之前写过博客：用BLUE值作表型进行GWAS分析

结论：

1，异常值识别方法是 GWAS 分析的一个重要标准。因此，一种或另一种方法的选择取决于标准的优化和遗传分析的战略决策。

2，缺乏对数据清理的关注会直接影响检测到的 QTL 的数量和效果，并可能导致最终结论模糊。

3，数据集的组织和存储方式应便于重新分析。这要求对检测到的异常值进行识别，但不从信息系统中删除，并且将异常值检测规则保留为 GWAS 分析的元数据。

4，GWAS 分析的基因型平均值必须通过考虑实验空间变化的稳健模型（例如混合模型）来估计。

5，使用考虑空间趋势的混合模型增加了显着QTL的数量，这可能是由于性状的狭义遗传力和GWAS的统计能力增加的结果。

6，估计基因型平均值的方法的选择会影响 GWAS 的统计功效。因此，所选方法的后果可以通过选择更高（或更低）的 GWAS 分析阈值来抵消。

飞哥总结：

1，异常值一定要处理，不正确的数据一定要删掉

2，多环境数据，推荐使用混合线性模型的空间分析进行矫正表型，这样结果更可靠。使用的软件：asreml、sommer等包。

3，对于不确定的异常值，可以放到模型中跑一下，去掉跑一下。另外，样本比较小的群体，多试试GWAS模型，比如MLM、BLINK、Farmcpu等方法。

下一篇，介绍《基因型分型平台选择》，欢迎继续关注。

想要更好的学习和交流，快来加入飞哥的知识星球，这是一个生物统计+数量遗传学+GWAS+GS的社区，在这里你可以向飞哥提问、帮你制定学习计划、跟着飞哥一起做实战项目，冲冲冲。点击这里加入吧：飞哥的学习圈子

《Genome-Wide Association Studies》第一章：GWAS分析的主要步骤和关键要点

http://mp.weixin.qq.com/s?__biz=MzI0MTIzNjYwNQ==&mid=2247495889&idx=1&sn=86b04fc90e5b4d9f74ffcfceb1a978eb