大家好,我是邓飞。
今天继续学习孟德尔随机化的概念。上一次博客(孟德尔随机化的术语理解)介绍了变量工具、暴露因素、结局变量和混杂因素,对应的统计术语就是GWAS显著性位点SNP变量、x变量、y变量、协变量。
工具变量SNP,有三大假设,只有满足,才能进行孟德尔随机化分析,或者分析结果才有保证,分别是:
1,关联性假设
2,独立性假设
3,排他性假设
孟德尔随机化分析流程图:
1,满足关联性假设。从数据库中下载暴露因素x的GWAS分析结果,找到显著性SNP位点,这个位点就是工具变量,它是暴露因素x的显著性位点,SNP和暴露因素是有关联的。这个就是关联性假设,这个假设确保了选择的工具变量能够解释暴露的变异。如果 SNP 与暴露之间的关联不显著,分析将没有足够的统计功效去估计暴露对结果的因果影响。检验的方法是选择p值较小且效应值较大的SNP位点。
2,独立性假设。工具变量与混杂因素X变量之间必须是独立的。换句话说,工具变量仅仅影响结果是通过其对暴露的影响,而不通过任何其他途径。这个假设确保了没有其他因素影响工具变量和结果之间的关系。如果工具变量受到混杂因素的影响,可能导致偏倚的因果推断。如何检验呢?通常需要观察研究设计,例如在随机对照试验或前瞻性队列研究中,通过控制可能的混杂因素来检验独立性假设。此外,进行灵敏度分析有助于评估独立性假设的有效性。
3,排他性假设。工具变量对结果的影响必须完全通过暴露来实现,而不通过其他路径。如果工具变量通过非暴露途径(例如直接影响结果)影响结果,那么因果推断可能是错误的。只有当工具变量能够在暴露和结果之间充当中介时,这个假设才能成立。如何检验呢?通常很难直接检验排他性假设,但研究者需要通过已有的文献、已知的生物学机制和敏感性分析等方法,推测是否存在其他潜在的路径影响结果。
如何收集孟德尔随机化分析数据?
数据集1:从现有的全基因组关联研究(GWAS)或其他遗传研究中获取与暴露相关的单核苷酸多态性(SNP)作为工具变量。通常是GWAS的summary结果,包括SNP、染色体、物理位置、p值、se值、effect值等信息。
数据集2:结局变量Y的GWAS summary结果,包括SNP、染色体、物理位置、p值、se值、effect值等信息。
如何对孟德尔随机化数据进行处理?
筛选工具变量:通常选择p值小于某个阈值(如5e-08)的SNP作为工具变量,以确保其与暴露因素之间的强相关性。去除连锁不平衡(LD)的SNP,以确保工具变量之间的独立性。
合并数据:将工具变量的GWAS结果与结局变量的GWAS结果合并,以便进行后续分析。
孟德尔随机化分析有哪些方法?
常用的 MR 方法包括:
逆方差加权(IVW)
MR-Egger 回归
加权中位数法
MR-PRESSO
分析流程确定了,基本步骤也清晰了,下面就是下载数据,进行实际分析了,欢迎继续关注。
想要更好的学习和交流,快来加入飞哥的知识星球,这是一个生物统计+数量遗传学+GWAS+GS的社区,在这里你可以向飞哥提问、帮你制定学习计划、跟着飞哥一起做实战项目,冲冲冲。点击这里加入吧:飞哥的学习圈子