先前给小伙伴们带来了联川的特色分析:转录组学机器学习和植物免疫应答专题,没有了解的小伙伴可以回看往期的微信稿。本期我们接着带大家了解另一个联川特色分析 -- 全转录组关联分析。
首先了解下什么是TWAS?
全转录组关联分析 (TWAS) 是一种数据整合的生物信息学方法,旨在识别由于基因调控的转录活动而导致复杂性状的因果基因。TWAS是建立在基因组重测序的研究结果之上的。通常来说,通过GWAS分析可鉴定出上百万的SNP位点并建立起与复杂性状之间的关系。然而,大多数具有统计学意义的 GWAS 信号位于基因组的非编码区域。将这些非编码变异与下游受影响的基因联系起来并不容易。因为它们不直接编码蛋白质,这些区域虽然与疾病相关,但其功能机制常常难以直接理解。另外,GWAS识别的风险变异通常位于多个基因相关的染色体区域(即连锁不平衡区间),这使得难以确定哪个基因是真正的致病基因。由此TWAS技术应运而生,TWAS通过整合基因表达数据与GWAS数据,通过分析基因表达的遗传调控(即表达数量性状位点,eQTL),它可以帮助确定哪些基因在GWAS识别的非编码变异区中是功能基因,从而更准确地识别致病基因。
由于千人基因组项目的完成,不同的研究团队在此基础上构建出了具有较高准确性的eQTL数据库,eQTL数据的准确性影响到了后续TWAS关联信号的强度和准确度,因此目前大多数的TWAS分析应用在解析人类复杂疾病的表型上。
随着各种统计算法和测序技术的发展,TWAS分析也不仅仅应用在了解析人类疾病的领域。对于农业领域来说,许多具有高价值的育种性状其背后的分子机制仍不明晰,因此通过大规模的基因组测序和转录组测序,结合不同的统计算法可构建出自有的模型,再结合相关性状数据,也可以进行TWAS的关联分析。
简单来说,对于医口/农口领域的老师来说,如果研究的领域相关的预测模型已经构建好(人类组织类型可参见附录),那么再从公共数据库下载GWAS数据或者自己先前已经有的GWAS数据,便可以开始进行TWAS分析了。如果相关领域没有公开的构建好的预测模型,那么就需要自己构建预测模型。由于要尽量覆盖到微效基因座,基因组测序通常需要大样本量才能达到较好的检出效果。而对于基因组测序需要的样本量来说,转录组的样本数量也可以不需要和基因组样本数量等同。一般会从高质量样本获取的难易程度、所要研究的性状等维度来估计样本量。
图1: 复杂疾病的识别方法
上图展示了基因型、基因表达和疾病相关复杂性状之间的关系。GWAS部分展示了全基因组关联研究的结果,通常用于识别与特定疾病或性状相关的遗传变异。然而,GWAS通常发现的变异位于非编码区域,且这些变异很难验证。Gene Expression Mapping部分展示了基因型调控基因表达。通常用于识别特定基因或基因区域的表达水平如何受到遗传变异的影响。
TWAS分析则是展示了一种新的关联分析方法 -- 全转录组关联分析。它结合了GWAS和基因表达数据和表型数据,以识别影响性状改变背后的基因表达和基因型变异的更深层次的遗传变异基础。
既然知道了什么是TWAS,对于做科研的同学来说,都有一颗打破沙锅问到底的精神,那么分析原理也是要了解一下的,我们以FUSION这款流行分析软件为例。
图2:FUSION的分析原理
首先,根据Reference Panel的数据集构建一个预测基因表达的线性模型。然后,可分为以下两种路径:
A:使用构建好的线性模型直接预测基因型样本的表达,结合表型数据建立表达量与性状之间的关联。
B:考虑SNP之间的LD效应。通过SNP - 性状效应值 (zscore) 与 权重w (w是从 Reference pannel中预训练得到的或使用BSLMM/BLUP等算法计算得到) 的加权线性组合,建立表达量与性状之间的关联。
基于Reference Panel(可使用的数据集如附录所列)的预先构建好的预测模型,然后再结合GWAS的summary 类型数据使用FSUSION软件可直接建立SNP-Gene-Trait三者之间的关联。输出结果:
表1:基因 -- 性状关联分析
各列解释
解释输出:该结果表明,该基因的最佳预测模型是 LASSO,其表现略优于最佳 eQTL。该基因表达与表型变化呈正相关,这与最佳 eQTL SNP 对表达和 GWAS 产生负面影响一致。而TWAS Zscore并不比Best GWAS SNP score更显著,这需要进行条件分析以评估基因座是否包含独立于表达的信号。
图3:TWAS 曼哈顿图
以TWAS Z-score为y轴,以染色体为横轴,展示每条染色体上基因的分布情况。蓝色阈值线是FDR<0.05下的Z-score。超过阈值线以上的基因被认为是TWAS 分析得到的显著基因。
在进行关联研究时,会出现有些TWAS显著信号与GWAS显著信号的重叠,那么我们需要分析哪种类型的信号是直接影响了表型的。通过条件分析是GWAS 信号直接影响了表型还是由于遗传调控的基因表达在影响表型。
图4:条件测试关联分析图
上图顶部显示了TWAS鉴定到显著位点及上下游100kb范围内的所有基因。经过条件分析后与 TWAS 关系不密切的基因以蓝色突出显示,而与 TWAS 关系密切的基因以绿色突出显示。底部显示了在对绿色基因进行条件化之前(灰色)和之后(蓝色)的 GWAS 数据的曼哈顿图,部分GWAS信号经过条件测试后由显著变为了不显著。
如果研究的物种或表型类型不存在于Reference panel中,那么使用自有的基因型数据和基因表达数据构建基因表达权重矩阵,然后结合GWAS summary 数据进行预测基因的表达从而完成关联分析。
表2:需提供的文件
构建的大致过程如下:
步骤1. 通常筛选具有cis作用的SNP构建cis-SNPs和基因表达量之间的线性关系。默认的筛选距离为基因上下游的500Kb 范围内。以SNP的基因型作为自变量,基因表达量作为因变量,选择BLUP、BSLMM、ENET或LASSO来构建影响基因表达的线性模型。这些模型在训练过程中会确定哪些SNP对基因表达具有显著的预测能力,并通过分配权重(系数)的方式反映该SNP在预测基因表达时的贡献。
步骤2. 构建完权重模型后,提取在GWAS中相同的SNP,然后根据预测模型的SNP的权重预测基因的表达,结合GWAS中的表型数据,再次构建线性模型。这样就建立起来了基因型、基因表达量和表型之间的关联,并评估这种关联是否显著相关。从而帮助我们发现基因表达是否在某些性状发生中扮演重要的角色。
最终的分析结果与方案1相同,不再赘述。
一般来说,进行TWAS分析的需要有基因型数据、转录组数据和表型数据。我公司可为各位老师同时转录组测序和基因组重测序的服务,并具备多组学整合的能力,欢迎各位老师咨询。
图5: 联川生物提供的多组学分析框架
备注:在我公司的分析框架中eQTL分析是作为TWAS分析的中间过程文件,暂不提供关于这部分更多的分析,我们下一步会提供针对eQTL的延申分析,敬请期待!
最后通过一个实际案例,来看看TWAS在相关领域的分析模型。
Fig1和Table 1:使用TWAS分析关联得到的显著的信号
经过条件分析后,AP006621.5 这个基因能够解释其所在位点(loci)上观察到的所有信号。其他位点的分析结果见文献描述。
文章标题:注意力缺陷多动障碍(ADHD)的转录组关联分析确定了基因和表型之间的关联
组学类型:基因组测序和转录组测序
数据来源:使用了来自GTEx和CMC的11种大脑相关组织的转录组数据。
分析方法:
1. 利用FUSION软件进行TWAS分析,以识别与ADHD相关的基因表达信号;
2. 通过条件分析和联合分析,研究了TWAS信号是否是条件独立的;
3. 使用FOCUS软件进行因果基因的精细定位;
4. TWAS 关联到基因的富集分析。
文章结论:
1. 识别出9个与ADHD相关的转录组显著基因,其中6个基因在原始GWAS中未被涉及;
2. 根据条件分析发现ADHD的TWAS位点信号主要是由基因表达驱动的;
3. KAT2B 和 TMEM161B被认为是在背外侧前额叶皮层和杏仁核中可能具有因果关系的基因;
4. 通路富集分析揭示了与ADHD高度相关是多巴胺能和去甲肾上腺素能途径。
可用的预构建模型
DNA甲基化技术该如何选择,这篇文章告诉你答案
基于GWAS的生物网络推进家族性乳腺癌易感性的研究
2025国自然热点:空间组学迈入单细胞分辨率
本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究! 扫描下方二维码 点分享
点点赞
点在看