GWAS数据分析相关知识整理

文摘   2024-07-12 20:01   江西  

龚良庚/戴西件团队年薪60万招聘入站即入职型博士后,不限专业


澳门大学万峰教授与戴西件博士联合招收2024年澳门大学博士生(澳门)


高薪招聘:南昌大学二附院影像科招聘工科背景人才(技术员岗位)及影像学专业博士

招聘:戴西件团队招聘GWAS基因数据分析研究助理(可短期)



在当今科学研究领域,孟德尔随机化方法日益受到重视,被广泛应用于探索不同疾病之间的潜在联系以及识别疾病的潜在致病基因。这一趋势的兴起,很大程度上得益于广泛可得的GWAS(全基因组关联研究)数据的增加。GWAS作为研究遗传变异与复杂疾病或性状之间关联的重要手段,其数据的开放共享,无疑为孟德尔随机化分析提供了坚实的基础。

那么,GWAS究竟是什么呢?今天,我们将带着大家更加深入地了解GWAS。



01

SNP的概念

首先,让我们聚焦于GWAS分析中的一个核心概念——SNP,即单核苷酸多态性。SNP指的是在基因组序列中,由于单个核苷酸的差异(这种差异可以是碱基的转换、颠换,甚至是插入或缺失)所导致的DNA序列多态性。简单来说,尽管我们人类之间的基因序列有着高达99%的相似性,但正是那剩余的1%的遗传变异,即这些微小的单核苷酸变化,造就了每个人在外观、体型等特征上的独特之处。这些变化点,我们称之为SNP位点,它们虽小,却蕴含着巨大的遗传信息差异,对个体的表型特征有着深远的影响。


02

什么是GWAS?

全基因组关联研究(GWAS),作为一种强大的分析工具,旨在探索基因组中广泛分布的遗传变异与特定生物性状或疾病状态之间的潜在联系。这一过程涉及对生物体全基因组的深入扫描,覆盖数百万乃至数千万个遗传变异点,通过精细的统计方法,揭示出那些能够显著影响个体表型特征或疾病风险的特定基因区域或变异位点。简而言之,GWAS帮助科学家在全基因组的广阔范围内,寻找并确认与特定性状或疾病紧密相关的遗传标记。

03

GWAS分析基本内容


04

GWAS分析流程

1.基本信息

在GWAS的解析框架中,表型数据被明确区分为两大类:二分类变量与连续型变量。二分类变量,顾名思义,指的是那些结果仅限于两种互斥状态的变量,例如性别划分、疾病的有无、生存与否等,这些变量的取值非此即彼,界限清晰。而连续型变量则展现出一种更为细腻的变化趋势,它们可以在一定的数值范围内连续取值,且这些取值之间没有明显的间断点,可以无限细分,比如个体的身高、体重、年龄等生理指标,均属于此类变量。通过这样的分类,GWAS分析能够更有针对性地探索不同性质的遗传变异与表型特征之间的关联。

2、队列构建

1)前瞻型队列


前瞻性队列研究是一种基于研究对象当前暴露状态而设计的科学研究方法,其核心在于预先选定并追踪一群具有代表性的个体,这些个体在研究开始时尚未出现所关注的健康结局。研究团队需对这些人群进行长期的前瞻性观察,以记录并分析他们各自的多种表型数据,进而探究特定暴露因素与潜在健康结局之间的关联。

此方法的显著优势在于,由于是在结局发生前进行数据收集和观察,因此能够较大程度地减少回忆偏倚和选择偏倚,使得研究结果更为可靠和具有说服力。然而,这一方法也伴随着挑战,主要包括需要纳入足够大的样本量以确保统计效力,同时观察周期较长,需要投入大量的时间、人力和物力资源,增加了研究的成本和复杂性。


2)历史型队列

在某些研究设计中,研究的起始点即已明确所关注的表型或疾病状态已经存在,这意味着无需进行长时间的前瞻性观察来等待结局的出现。此类研究直接聚焦于特定的表型或疾病,通过随机选取已患有该表型或疾病的人群样本进行深入研究。这种方法的显著优势在于效率高,因为它省略了等待结局发生的过程,从而节省了时间和资源,使研究结果能够更快地产生。然而,其局限性也显而易见:由于资料收集并非专为当前研究设计,而是在此之前已积累完成,因此可能缺乏研究者所需的特定控制或标准化处理,导致资料内容在深度和广度上可能无法满足研究的所有要求。

3、测序

1)全基因组测序

全基因组测序(WGS),作为一种全面的基因组分析方法,旨在精确测定生物体整个基因组的核苷酸序列,从而揭示出完整的基因组蓝图。通过WGS,研究者能够深入探索不同个体间的遗传差异,包括但不限于单核苷酸多态性(SNP)的鉴定,以及基因组结构的详尽注释。这一技术的显著优势在于其高通量特性,能够一次性检测并识别出大量的SNP位点,为遗传学研究提供了丰富的数据基础。然而,WGS的广泛应用也面临一定的挑战,主要是其相对较高的成本投入,这在一定程度上限制了其在某些研究场景中的普及和应用。

2)SNP芯片测序

鉴于WGS(全基因组测序)的成本颇为昂贵,许多研究项目转而采用SNP芯片作为替代方案,这种芯片专注于检测一组预先选定的、较为常见的106个SNP位点。然而,由于检测的SNP数量相对有限,为了弥补这一不足,基因型填补成为处理SNP芯片数据时不可或缺的一环。与WGS无需此步骤不同,基因型填补旨在利用单倍型推断的方法,来预测和补全芯片未能覆盖的SNP位点的基因型信息。这一过程不仅扩展了可用于关联分析的遗传位点范围,还增强了发现新型致病基因的能力,因为它使得研究者能够更全面地考察基因组中的遗传变异与疾病风险之间的关系。
4、关联分析(PLINK)
进行关联分析经典软件为PLINK,作为关联分析最常用的工具,PLINK支持多种关联分析的算法。质控流程方便、快捷、可靠,但不适用于带有基因型填补的数据。

1)数据准备

输入PLINK软件的数据格式一般为二进制格式的输入文件。文本格式的PLINK数据包括ped文件和map文件。ped文件包含个体信息(例如个体标识符,性别等)以及他们的基因型信息;map文件包含遗传标记的信息(染色体号,SNP号等)。二进制格式的PLINK数据则包括bed文件、fam文件和bim文件。bed文件包含个体识别符和个体相对应的基因型;fam文件包含性别等个体信息;bim文件包含遗传标记的信息(染色体号,SNP号等)。

2)数据质控

  • 剔除在20%以上受试者中都缺失的SNP位点

  • 剔除基因型缺失率过高的个体数据

  • 排除个体杂合率过高和过低的数据

  • 剔除次等位基因频率(MAF)小于0.05的SNP位点

  • 过滤掉多等位位点,也就是指会过滤掉REF = A,ALT = C,G的SNP位点

  • 排除偏离Hardy-Weinberg平衡的SNP位点

  • 群体分层校正(多维缩放法MDS)
3)关联分析
  • 二分类变量

SNP和二元性状的关联检验,“1”表示未受影响即control,“2”表示受影响即case,“0”和“-9”都表示缺失。使用参数 --assoc(不允许有协变量)或者 --logistic(允许有协变量)来完成。
  • 连续型变量

SNP和连续性状之间的关联检验,除了“1”、“2”、“0”、“-9”外还有其它数值。使用参数 --assoc(不允许有协变量)或者 --linear(允许有协变量)来完成。
  • 多重检验校正

因为PLINK进行关联分析时常常面对的是大量的SNP数据,容易产生假阳性的情况,因此需要矫正。目前有三种方法来检测全基因组范围的显著性:Bonferroni校正、FDR和置换检验。


5、显著位点的筛选
首先确定显著性阈值,通常设置为5e-08,这是指在拥有106个有效SNP的分析中,将显著性阈值设置为0.05,进行Bonferroni校正时的阈值设置,一般设置这个阈值能过滤掉大部分假阳性,然后筛选pvalue小于该阈值的SNP,最后绘制曼哈顿图和QQ plot进行可视化。

6、LDSC分析
在GWAS分析中我们可以通过协变量来校正群体分层等因素,但无法完全消除混杂因素的影响,这时我们可以通过LDSC分析来探究混杂因素的占比,从而检验分析结果的可靠性。
LDSC(LD score regression)是一种常用的遗传相关性分析方法,用于估计复杂性疾病和复杂性特征的遗传贡献。基于遗传连锁不平衡(LD)的概念,通过估计每个SNP的LD Score来推断其与复杂性状之间的关联强度。其本质就是一个线性回归,将GWAS分析结果作为LDSC的分析数据,其自变量为SNP的LD score值,其计算公式为,表示该位点与其邻近位点的连锁不平衡R2的总和;因变量的计算公式为,其中N为样本总量,M为窗口内其他SNP数目,h2为遗传力,h2/M则表示平均每个SNP解释的遗传力,这些都为常数。从该公式可以看出自变量与因变量之间呈线性关系,其截距为1,可以通过截距,来判断GWAS分析结果中是否存在混杂因素,如果截距在1附近,则表示不存在混杂因素,如果截距偏离了1,则表示存在混杂因素。
7、关联结果可视化

1)曼哈顿图


曼哈顿图作为一种可视化工具,在GWAS(全基因组关联研究)领域扮演着重要角色,主要用于突出显示具有显著性的SNP位点。在此图中,每一个点都对应着一个SNP,其垂直位置(即纵坐标)是根据该SNP对应的P值经过-log10转换后得到的,这种转换使得P值越小(即统计显著性越高)的点在图上位置越高。而水平位置(横坐标)则标识了SNP所在的染色体编号。

通过曼哈顿图,我们可以直观地看到哪些SNP与特定的表型特征或疾病状态存在较强的关联。具体而言,那些-log10(Pvalue)值较高的SNP,意味着它们与所研究表型的关联程度更高,更可能是影响该表型的关键遗传变异。值得注意的是,由于基因组中存在的连锁不平衡(LD)现象,一个强关联SNP周围的SNP往往会受到其影响,从而在图中也表现出相似的显著性水平,但这种影响会随着距离的增加而逐渐减弱。

在GWAS分析中,为了筛选出真正具有生物学意义的SNP,通常会设定一个P值的阈值作为判断标准,这个阈值常常设定在非常严格的水平,如10的负6次方或10的负8次方以下,以确保所识别的关联是真实且显著的。


2)QQ plot

QQ plot的全称是Quantile-Quantile Plot,即分位数图。在GWAS分析里面,QQ plot的纵坐标是SNP位点的pvalue值,即观测到的pvalue,与曼哈顿图一样也是表示为-log10(pvalue);横坐标则是均匀分布的概率值,即期望的pvalue,同样也是换算为-log10。
如图所示是最理想的结果,在散点图的左下角是显著性低的位点,即确定与性状不关联的位点,这些位点的pvalue观测值应该与期望值一致,正好图中这些点位于对角线上,说明分析模型是合理的。在散点图的右上角则是显著性较高的位点,是与性状相关的潜在候选位点,这些点位于对角线的上方,即位点的pvalue观测值超过了期望值,说明这些位点的效应超过了随机效应,进而说明这些位点是与性状显著相关的。
基因组膨胀因子λ定义为经验观察到的检验统计分布与预期中位数的中值之比,从而量化了因大量膨胀而造成结果的假阳性率。换句话说,λ定义为得到的卡方检验统计量的中值除以卡方分布的预期中值。预期的P值膨胀系数为1,当实际膨胀系数越偏离1,说明存在群体分层的现象越严重,容易有假阳性结果,需要重新矫正群体分层。

3)单倍型分析结果

最上面这部分表示SNP的物理位置;中间部分表示SNP的名称;最下面这部分每一个正方形表示相邻的两个SNP之间的LD结果,颜色越深说明这两个SNP之间LD值越大,如果相邻的SNP之间的LD大于某个阈值(比如0.9),那么就构成一个block,每一个黑框表示一个block。比如说第二个block包括的SNP有6、7、8三个SNP,block的距离为4kb。
8、后续分析

1)Fine-maping分析

最终找出来的若干基因易感位点其实是一个SNP集合,里面包含了不止一个易感位点,虽然他们在统计学意义上都是显著的,但其中可能仍存在犯错概率,所以可以通过Fine-maping分析进一步缩减候选的基因易感位点,排除掉一些“假”的位点。

2)eQTL共定位分析

GWAS分析找到显著信号位点后,需要解释显著信号位点是如何影响表型,常见的一个解释方法就是共定位分析。当检测到GWAS信号和eQTL共定位时,我们会认为GWAS信号上的位点可能通过改变基因表达的生物学过程从而影响表型。共定位分析有四种设想:

  • H0: 表型1和表型2与某个基因组区域的所有SNP位点无显著相关;

  • H1/H2: 表型1或表型2与某个基因组区域的SNP位点显著相关;

  • H3: 表型1和表型2与某个基因组区域的SNP位点显著相关,但由不同的因果变异位点驱动;

  • H4: 表型1和表型2与某个基因组区域的SNP位点显著相关,且由同一个因果变异位点驱动;

最后的分析结果是希望第四种设想(H4)在统计学上概率更高(一般选择PP.H4 > 0.8的结果),这样就能解释显著信号位点如何影响表型,所以共定位分析本质上是在检验第四种的后验概率。

3)功能注释

在GWAS分析中,对SNP进行功能注释是必不可少的一个步骤,最常用的一个SNP注释软件是ANNOVAR。ANNOVAR是一款可以对SNP等遗传变异进行功能注释和过滤筛选的软件,其主要包含三种注释方法:基于基因的注释、基于区域的注释、基于筛选的注释。

4)Meta分析



Meta分析是一种科学的方法论,旨在通过对多个独立研究结果的全面整合与综合分析,提炼出更为可靠且统计上显著的结论。这种方法广泛应用于评估某一假说或治疗干预措施的整体效果,为政策制定者和临床实践者提供更为坚实、准确的决策依据。由于Meta分析囊括了多个研究的数据集,这些数据集之间可能存在的差异性,即异质性,是分析过程中必须考虑的关键因素。

为了有效处理这种异质性,Meta分析通常采用两种主要模型:固定效应模型(FEM)和随机效应模型(REM)。固定效应模型基于一个假设,即不同数据集之间的差异是恒定的,不随研究条件的变化而变化,因此它更适用于那些实验条件或环境因素相似的研究结果的整合。相反,随机效应模型则假定不同数据集之间的差异遵循正态分布的规律,能够包容更多样化的研究背景和条件,因此更适用于分析来自不同来源、具有不同实验设计的独立研究结果。通过这两种模型的应用,Meta分析能够更全面地评估研究间的变异,并据此得出更为稳健的结论。



END

科普与科研
本公众号主要发布科普知识以及国内外一些科研进展。本公众号前身为睡眠障碍与脑科学,着重健康科普及脑科学领域。
 推荐账号,扫码关注
推荐账号二维码
 最新文章