大家好,我是邓飞,之前推荐过这本《Genome-Wide Association Studies》的书籍(GWAS书籍:《Genome-Wide Association Studies》,电子版pdf),2022年出版的,内容比较前沿。电子版书籍获得方法,公众号后台回复:book1,获得pdf链接。
已经介绍过的内容:
今天介绍第三章:《基因分型平台》
这本书整体的目录如下:
整个来说,这一章节没有什么代码或者模型的介绍,都是基因分型平台的介绍,常见的基因分型平台有:
* 基因芯片
* GBS
* TGBS
* 全基因组重测序
飞哥注:
芯片(固态芯片和液相芯片)和重测序最为常见,GWAS分析也多采用这两种检测方法的其中一种。
最近在用obsidian整理自己的笔记,发现读书的时候,如果有些知识之前有所了解,就把他连接一下,发现关联到一起之后,理解更清晰了,下面两个是阅读的时候两个关联笔记,红色的问题,蓝色的是我的理解。
GWAS分析与SNP标记数量的关系:
GWAS是群体的数据分析,SNP的数量取决于群体LD衰减的情况,之前写过博客介绍snp数量的计算:计算群体GWAS分析所需要的最少SNP个数。LD越高,所需要的位点数越低,因为比较少的位点就可以保证覆盖度,确保性状控制的QTL至少有一个标记处于LD状态,代表性有了,结果就可靠。
具体到染色体水平,有些染色体衰退得快,就需要更多的标记。有些染色体保守,就需要较少的标记,一般是看整体的LD水平,大致评估一个最小的snp个数。
如果SNP数量很多,如何去掉SNP降低分析难度又不影响分析结果?
1,可以根据LD,去掉高连锁的位点,比如LD大于0.95的删除,如果位点很多,也可以删除很多位点,这些位点删除不影响分析的结果,会降低计算量。
2,如果还有很多位点,可以进一步删除,比如去掉LD大于0.5的位点,这时候找到的显著性位点,可以提取附近上下游的位点,计算单倍型,然后依据单倍型进行重新分析,也是一种降低工作量的方法。