多基因平分(PRS)与全基因组关联分析(GWAS)有什么关系?

科技   科学   2024-10-17 20:17   河南  
eff大家好,我是邓飞,多基因平分PRS是GWAS分析之后的一种预测方法,和孟德尔随机化(MR)一样也是GWAS分析之后的进一步分析方法,之前介绍过孟德尔随机化和GWAS的关系(孟德尔随机化分析和GWAS分析有什么区别?

PRS(多基因风险评分)
  • PRS主要用于医学领域,特别是在复杂疾病的遗传学研究中。它通过汇总多个遗传变异(通常是单核苷酸多态性,SNPs)与特定疾病或表型的关系,来评估个体对某一复杂疾病的风险。这些遗传变异通常是通过全基因组关联研究(GWAS)发现的,每个变异对疾病风险的影响较小,但累积起来可以提供对个体疾病风险的预测
  • PRS的构建需要考虑多个因素,包括GWAS发现阶段的样本量、选择纳入计算的SNPs以及如何施加权重等。它还可以通过不同的方法来计算,例如p值clumping + thresholding法或beta缩减法
  • PRS的一个挑战是其在不同族裔间的泛用性,因为不同族裔之间可能存在不同的遗传结构和连锁不平衡模式,影响PRS的预测准确性

GWAS分析:

    GWAS是一种用于识别与复杂性状(如疾病、性状等)相关的遗传变异的方法。通过对大规模人群进行基因组扫描,GWAS可以发现单核苷酸多态性(SNP)与某一性状的关联。这些关联通常体现在统计学上的显著性水平。

PRS(多基因风险评分)和GWAS的关系

可以看到,PRS用的是GWAS分析后的结果,挑选显著性位点,进行质控,然后根据候选群(target)的数据进行预测。

最朴素的理解PRS:

GWAS分析结果中,有每个SNP的beta值、P值,根据P值筛选SNP的beta值,将另外一个群体的SNP变为0-1-2编码,将beta值乘以SNP分性值,求和就是PRS了。下面用数据介绍一下。

  • 基础群体:

        比如:GWAS分析中,显著的SNP效应值(effect或者beta值):

        SNP1: 0.3 

        SNP2: 0.2 

        SNP3: -0.1

  • 目标群体:

        对于target data(目标群体),检测了3个个体,3个SNP的分型分别为(已经编码为0-1-2了):

        ID1 0 0 1 

        ID2 1 0 2 

        ID3 2 2 1

  • 预测PRS得分:effect*SNP,然后求和

        那么个体1的多基因评分为:0*0.3 + 0*0.2 + 1*-0.1 = -0.1

        个体2的多基因评分为:0.3 + 0 + -0.1 = 0.2

        个体3的多基因评分为:0.6 + 0.4 + -0.1 = 0.9

        用数学公式表示:

      • beta是效应值
      • G是0-1-2的编码
      • m是m个SNP

实际项目的PRS计算

实际中的项目,考虑的因素比较多,比如:

  • 数据质控
  • 群体结构
  • LD值(clumping)
  • beta矫正值
  • 通过P值筛选最优组合

相关软件实现PRS分析

在这里插入图片描述
  • plink
  • biqsnpr,一个R包
  • PRSice,应用最广泛,通过C+T的策略
  • LDpred,通过贝叶斯收缩的模型
  • PRS-CS
  • JAMPred
  • Lassosum

之前写过PRS的操作流程,可以作为参考:

多基因风险预测模型1--先立Flag


多基因风险预测模型2--相关概念和软件


不会安装使用PRSice-2软件就太不讲究了


开局一张图 | 介绍PRS的计算步骤


如何计算连续性状的PRS得分


如何使用plink进行二分类性状的GWAS分析并计算PRS得分



想要迅速掌握PRS的计算,下面有实操演练:


十一在家把GWAS分析学会吧!

育种数据分析之放飞自我
本公众号主要介绍动植物育种数据分析中的相关问题, 算法及程序代码.
 最新文章