大家好,我是邓飞,之前推荐过这本《Genome-Wide Association Studies》,2022年出版的,内容比较前沿。电子版书籍获得方法,公众号后台回复:book1,获得pdf链接。
整个来说,这一章节没有什么代码或者模型的介绍,都是基因分型平台的介绍,常见的基因分型平台有:
基因芯片
GBS
TGBS
全基因组重测序
最近在用obsidian整理自己的笔记,发现读书的时候,如果有些知识之前有所了解,就把他连接一下,发现关联到一起之后,理解更清晰了,下面两个是阅读的时候两个关联笔记,红色的问题,蓝色的是我的理解。
GWAS是群体的数据分析,SNP的数量取决于群体LD衰减的情况,之前写过博客介绍snp数量的计算:计算群体GWAS分析所需要的最少SNP个数。LD越高,所需要的位点数越低,因为比较少的位点就可以保证覆盖度,确保性状控制的QTL至少有一个标记处于LD状态,代表性有了,结果就可靠。
具体到染色体水平,有些染色体衰退得快,就需要更多的标记。有些染色体保守,就需要较少的标记,一般是看整体的LD水平,大致评估一个最小的snp个数。
可以根据LD,去掉高连锁的位点,比如LD大于0.95的删除,如果位点很多,也可以删除很多位点,这些位点删除不影响分析的结果,会降低计算量。
如果还有很多位点,可以进一步删除,比如去掉LD大于0.5的位点,这时候找到的显著性位点,可以提取附近上下游的位点,计算单倍型,然后依据单倍型进行重新分析,也是一种降低工作量的方法。