大家好,我是邓飞,之前推荐过这本《Genome-Wide Association Studies》的书籍(GWAS书籍:《Genome-Wide Association Studies》,电子版pdf),2022年出版的,内容比较前沿。电子版书籍获得方法,公众号后台回复:book1,获得pdf链接。
昨天介绍的第一章:《Genome-Wide Association Studies》第一章:GWAS分析的主要步骤和关键要点,今天介绍第二章。
这本书的目录:
今天介绍第二章:《表型数据的准备和管理》:
主要内容:
1,表型数据异常值处理
2,表型数据,使用原始数据,blup值,平均值,还是blue值对结果的影响
3,异常值不清理,会造成假阳性,特别是频率比较低的位点,对异常值更敏感。
4,稀有位点有效,以及假阳性的影响,这是需要权衡的。
5,使用空间分析校正表型,提升狭义遗传力,增加GWAS中显著性位点的power
6,选择合适的统计模型,同时考虑假阳性和假阴性的影响
GWAS分析流程:
表型数据的误差来源:计算矫正值之前,需要将这些误差值删除。
1,图片噪音,由于图片数字化时产生的噪音
2,技术问题,导致的误差
3,人为误差,采集数据时没有布置好,导致的误差
表型数据的清洗方式对GWAS结果影响很大:
上面是数据是否清洗,检测的结果,可以看到,第10条染色体在数据清洗后,没有了显著性位点,这些位点可能是假阳性。
如何正确对待异常值?
1,尽可能的检查和消除异常值,最大化的捕获表型方差
2,清洗标准,可以根据群体结构和分析目的,综合考虑每种方法的优缺点
3,另外,建议可以识别异常值,但是不能删除,异常值也是有价值的信息,可以分别测试不同的结果
注意:表型值的准确性才是最重要的,再好的模型弥补不了数据的缺陷。表型数据不好,一切都是白搭
为何植物多环境数据(MET)要使用BLUE值或者BLUP值,不用平均值?
BLUE和BLUP重叠更多,平均值结果不太好。blup和blue重复了32个,blue和平均值重复了26个,blup和平均值重复了20个。之前写过博客:用BLUE值作表型进行GWAS分析
结论:
1,异常值识别方法是 GWAS 分析的一个重要标准。因此,一种或另一种方法的选择取决于标准的优化和遗传分析的战略决策。
2,缺乏对数据清理的关注会直接影响检测到的 QTL 的数量和效果,并可能导致最终结论模糊。
3,数据集的组织和存储方式应便于重新分析。这要求对检测到的异常值进行识别,但不从信息系统中删除,并且将异常值检测规则保留为 GWAS 分析的元数据。
4,GWAS 分析的基因型平均值必须通过考虑实验空间变化的稳健模型(例如混合模型)来估计。
5,使用考虑空间趋势的混合模型增加了显着QTL的数量,这可能是由于性状的狭义遗传力和GWAS的统计能力增加的结果。
6,估计基因型平均值的方法的选择会影响 GWAS 的统计功效。因此,所选方法的后果可以通过选择更高(或更低)的 GWAS 分析阈值来抵消。
飞哥总结:
1,异常值一定要处理,不正确的数据一定要删掉
2,多环境数据,推荐使用混合线性模型的空间分析进行矫正表型,这样结果更可靠。使用的软件:asreml、sommer等包。
3,对于不确定的异常值,可以放到模型中跑一下,去掉跑一下。另外,样本比较小的群体,多试试GWAS模型,比如MLM、BLINK、Farmcpu等方法。
下一篇,介绍《基因型分型平台选择》,欢迎继续关注。
想要更好的学习和交流,快来加入飞哥的知识星球,这是一个生物统计+数量遗传学+GWAS+GS的社区,在这里你可以向飞哥提问、帮你制定学习计划、跟着飞哥一起做实战项目,冲冲冲。点击这里加入吧:飞哥的学习圈子
推荐阅读
GWAS书籍:《Genome-Wide Association Studies》,电子版pdf
《Genome-Wide Association Studies》第一章:GWAS分析的主要步骤和关键要点