PRS主要用于医学领域,特别是在复杂疾病的遗传学研究中。它通过汇总多个遗传变异(通常是单核苷酸多态性,SNPs)与特定疾病或表型的关系,来评估个体对某一复杂疾病的风险。这些遗传变异通常是通过全基因组关联研究(GWAS)发现的,每个变异对疾病风险的影响较小,但累积起来可以提供对个体疾病风险的预测 PRS的构建需要考虑多个因素,包括GWAS发现阶段的样本量、选择纳入计算的SNPs以及如何施加权重等。它还可以通过不同的方法来计算,例如p值clumping + thresholding法或beta缩减法 PRS的一个挑战是其在不同族裔间的泛用性,因为不同族裔之间可能存在不同的遗传结构和连锁不平衡模式,影响PRS的预测准确性
GWAS分析:
GWAS是一种用于识别与复杂性状(如疾病、性状等)相关的遗传变异的方法。通过对大规模人群进行基因组扫描,GWAS可以发现单核苷酸多态性(SNP)与某一性状的关联。这些关联通常体现在统计学上的显著性水平。
PRS(多基因风险评分)和GWAS的关系:
可以看到,PRS用的是GWAS分析后的结果,挑选显著性位点,进行质控,然后根据候选群(target)的数据进行预测。
最朴素的理解PRS:
GWAS分析结果中,有每个SNP的beta值、P值,根据P值筛选SNP的beta值,将另外一个群体的SNP变为0-1-2编码,将beta值乘以SNP分性值,求和就是PRS了。下面用数据介绍一下。
基础群体:
比如:GWAS分析中,显著的SNP效应值(effect或者beta值):
SNP1: 0.3
SNP2: 0.2
SNP3: -0.1
目标群体:
对于target data(目标群体),检测了3个个体,3个SNP的分型分别为(已经编码为0-1-2了):
ID1 0 0 1
ID2 1 0 2
ID3 2 2 1
预测PRS得分:effect*SNP,然后求和
那么个体1的多基因评分为:0*0.3 + 0*0.2 + 1*-0.1 = -0.1
个体2的多基因评分为:0.3 + 0 + -0.1 = 0.2
个体3的多基因评分为:0.6 + 0.4 + -0.1 = 0.9
用数学公式表示:
beta是效应值 G是0-1-2的编码 m是m个SNP
实际项目的PRS计算
实际中的项目,考虑的因素比较多,比如:
数据质控 群体结构 LD值(clumping) beta矫正值 通过P值筛选最优组合
相关软件实现PRS分析
plink biqsnpr,一个R包 PRSice,应用最广泛,通过C+T的策略 LDpred,通过贝叶斯收缩的模型 PRS-CS JAMPred Lassosum
之前写过PRS的操作流程,可以作为参考:
如何使用plink进行二分类性状的GWAS分析并计算PRS得分
想要迅速掌握PRS的计算,下面有实操演练: