大家好,我是邓飞。
今天星球小伙伴问了一个问题,直击灵魂:
飞哥 pca图群体分层不是特别明显 原因是啥呢 这个结果图可用吗?
为何会有这个问题呢,因为很多GWAS分析中都会给出PCA结果,有时候PCA分得很开,有时候还用不同颜色分组,类似:
分得很开,好像才算正常的结果!
PC1和PC2解释百分比很高,好像才算正常的结果!
不是这样的,PCA分得很开,说明群体有分层,不适合统一放在一起进行GWAS分析,因为不是一个整体。
但是,因为样本量很小,勉强将这些群体放在一起,但是这些分层的群体,分层之间的效应一定要去除,这和试验设计中设置区组,然后分解出区组效应是一样一样的,都是为了降低外在因素的影响,降低系统性误差!
回到最初的问题,GWAS分析中,PCA结果没有分开,怎么办?
太好了,说明群体没有分层,理论上不用将PCA放到模型中进行矫正了,如果你不放心,也可以把pca放进去做协变量,对结果影响不大。
如果你的群体分层严重,但是你没有考虑PCA,没有将PCA放到模型中,那就惨啦,模型结果不靠谱,你看到的显著性位点大都是假阳性,都是由于群体分层导致的,考虑PCA效果会好一点。
讲真,GWAS分析中,群体结构分层明显的群体,真不如没有分层的群体,毕竟,好好的群体本来就在一起,不是挺好吗。
一个牛人说过:所有的模型都是错误的,但有些是有用的。
All models are wrong, but some are useful.)这句话出自统计学家George E. P. Box的口中,简洁地概括了数学建模的本质。
套用到GWAS分析中:群体分层的群体,做GWAS是不太合适的,但是经过PCA矫正之后,是有用的。没有群体分层的群体,你秀什么优越感?
推荐阅读:
想要更好的学习和交流,快来加入飞哥的知识星球,这是一个生物统计+数量遗传学+GWAS+GS的社区,在这里你可以向飞哥提问、帮你指定学习计划、跟着飞哥一起做实战项目,冲冲冲。点击这里加入吧:飞哥的学习圈子