龚良庚/戴西件团队年薪60万招聘入站即入职型博士后,不限专业
澳门大学万峰教授与戴西件博士联合招收2024年澳门大学博士生(澳门)
高薪招聘:南昌大学二附院影像科招聘工科背景人才(技术员岗位)及影像学专业博士
在当今科学研究领域,孟德尔随机化方法日益受到重视,被广泛应用于探索不同疾病之间的潜在联系以及识别疾病的潜在致病基因。这一趋势的兴起,很大程度上得益于广泛可得的GWAS(全基因组关联研究)数据的增加。GWAS作为研究遗传变异与复杂疾病或性状之间关联的重要手段,其数据的开放共享,无疑为孟德尔随机化分析提供了坚实的基础。
那么,GWAS究竟是什么呢?今天,我们将带着大家更加深入地了解GWAS。
01
首先,让我们聚焦于GWAS分析中的一个核心概念——SNP,即单核苷酸多态性。SNP指的是在基因组序列中,由于单个核苷酸的差异(这种差异可以是碱基的转换、颠换,甚至是插入或缺失)所导致的DNA序列多态性。简单来说,尽管我们人类之间的基因序列有着高达99%的相似性,但正是那剩余的1%的遗传变异,即这些微小的单核苷酸变化,造就了每个人在外观、体型等特征上的独特之处。这些变化点,我们称之为SNP位点,它们虽小,却蕴含着巨大的遗传信息差异,对个体的表型特征有着深远的影响。
02
全基因组关联研究(GWAS),作为一种强大的分析工具,旨在探索基因组中广泛分布的遗传变异与特定生物性状或疾病状态之间的潜在联系。这一过程涉及对生物体全基因组的深入扫描,覆盖数百万乃至数千万个遗传变异点,通过精细的统计方法,揭示出那些能够显著影响个体表型特征或疾病风险的特定基因区域或变异位点。简而言之,GWAS帮助科学家在全基因组的广阔范围内,寻找并确认与特定性状或疾病紧密相关的遗传标记。
03
GWAS分析基本内容
04
1.基本信息
在GWAS的解析框架中,表型数据被明确区分为两大类:二分类变量与连续型变量。二分类变量,顾名思义,指的是那些结果仅限于两种互斥状态的变量,例如性别划分、疾病的有无、生存与否等,这些变量的取值非此即彼,界限清晰。而连续型变量则展现出一种更为细腻的变化趋势,它们可以在一定的数值范围内连续取值,且这些取值之间没有明显的间断点,可以无限细分,比如个体的身高、体重、年龄等生理指标,均属于此类变量。通过这样的分类,GWAS分析能够更有针对性地探索不同性质的遗传变异与表型特征之间的关联。
2、队列构建
1)前瞻型队列
前瞻性队列研究是一种基于研究对象当前暴露状态而设计的科学研究方法,其核心在于预先选定并追踪一群具有代表性的个体,这些个体在研究开始时尚未出现所关注的健康结局。研究团队需对这些人群进行长期的前瞻性观察,以记录并分析他们各自的多种表型数据,进而探究特定暴露因素与潜在健康结局之间的关联。
此方法的显著优势在于,由于是在结局发生前进行数据收集和观察,因此能够较大程度地减少回忆偏倚和选择偏倚,使得研究结果更为可靠和具有说服力。然而,这一方法也伴随着挑战,主要包括需要纳入足够大的样本量以确保统计效力,同时观察周期较长,需要投入大量的时间、人力和物力资源,增加了研究的成本和复杂性。
2)历史型队列
在某些研究设计中,研究的起始点即已明确所关注的表型或疾病状态已经存在,这意味着无需进行长时间的前瞻性观察来等待结局的出现。此类研究直接聚焦于特定的表型或疾病,通过随机选取已患有该表型或疾病的人群样本进行深入研究。这种方法的显著优势在于效率高,因为它省略了等待结局发生的过程,从而节省了时间和资源,使研究结果能够更快地产生。然而,其局限性也显而易见:由于资料收集并非专为当前研究设计,而是在此之前已积累完成,因此可能缺乏研究者所需的特定控制或标准化处理,导致资料内容在深度和广度上可能无法满足研究的所有要求。
1)全基因组测序
2)SNP芯片测序
1)数据准备
2)数据质控
剔除在20%以上受试者中都缺失的SNP位点
剔除基因型缺失率过高的个体数据
排除个体杂合率过高和过低的数据
剔除次等位基因频率(MAF)小于0.05的SNP位点
过滤掉多等位位点,也就是指会过滤掉REF = A,ALT = C,G的SNP位点
排除偏离Hardy-Weinberg平衡的SNP位点
群体分层校正(多维缩放法MDS)
二分类变量
连续型变量
多重检验校正
因为PLINK进行关联分析时常常面对的是大量的SNP数据,容易产生假阳性的情况,因此需要矫正。目前有三种方法来检测全基因组范围的显著性:Bonferroni校正、FDR和置换检验。
1)曼哈顿图
曼哈顿图作为一种可视化工具,在GWAS(全基因组关联研究)领域扮演着重要角色,主要用于突出显示具有显著性的SNP位点。在此图中,每一个点都对应着一个SNP,其垂直位置(即纵坐标)是根据该SNP对应的P值经过-log10转换后得到的,这种转换使得P值越小(即统计显著性越高)的点在图上位置越高。而水平位置(横坐标)则标识了SNP所在的染色体编号。
通过曼哈顿图,我们可以直观地看到哪些SNP与特定的表型特征或疾病状态存在较强的关联。具体而言,那些-log10(Pvalue)值较高的SNP,意味着它们与所研究表型的关联程度更高,更可能是影响该表型的关键遗传变异。值得注意的是,由于基因组中存在的连锁不平衡(LD)现象,一个强关联SNP周围的SNP往往会受到其影响,从而在图中也表现出相似的显著性水平,但这种影响会随着距离的增加而逐渐减弱。
在GWAS分析中,为了筛选出真正具有生物学意义的SNP,通常会设定一个P值的阈值作为判断标准,这个阈值常常设定在非常严格的水平,如10的负6次方或10的负8次方以下,以确保所识别的关联是真实且显著的。
2)QQ plot
3)单倍型分析结果
1)Fine-maping分析
2)eQTL共定位分析
GWAS分析找到显著信号位点后,需要解释显著信号位点是如何影响表型,常见的一个解释方法就是共定位分析。当检测到GWAS信号和eQTL共定位时,我们会认为GWAS信号上的位点可能通过改变基因表达的生物学过程从而影响表型。共定位分析有四种设想:
H0: 表型1和表型2与某个基因组区域的所有SNP位点无显著相关;
H1/H2: 表型1或表型2与某个基因组区域的SNP位点显著相关;
H3: 表型1和表型2与某个基因组区域的SNP位点显著相关,但由不同的因果变异位点驱动;
H4: 表型1和表型2与某个基因组区域的SNP位点显著相关,且由同一个因果变异位点驱动;
3)功能注释
4)Meta分析
Meta分析是一种科学的方法论,旨在通过对多个独立研究结果的全面整合与综合分析,提炼出更为可靠且统计上显著的结论。这种方法广泛应用于评估某一假说或治疗干预措施的整体效果,为政策制定者和临床实践者提供更为坚实、准确的决策依据。由于Meta分析囊括了多个研究的数据集,这些数据集之间可能存在的差异性,即异质性,是分析过程中必须考虑的关键因素。
为了有效处理这种异质性,Meta分析通常采用两种主要模型:固定效应模型(FEM)和随机效应模型(REM)。固定效应模型基于一个假设,即不同数据集之间的差异是恒定的,不随研究条件的变化而变化,因此它更适用于那些实验条件或环境因素相似的研究结果的整合。相反,随机效应模型则假定不同数据集之间的差异遵循正态分布的规律,能够包容更多样化的研究背景和条件,因此更适用于分析来自不同来源、具有不同实验设计的独立研究结果。通过这两种模型的应用,Meta分析能够更全面地评估研究间的变异,并据此得出更为稳健的结论。
END