基因在说话！看TWAS如何捕捉性状背后的秘密

企业 2024-11-10 17:32 浙江

先前给小伙伴们带来了联川的特色分析：转录组学机器学习和植物免疫应答专题，没有了解的小伙伴可以回看往期的微信稿。本期我们接着带大家了解另一个联川特色分析 -- 全转录组关联分析。

首先了解下什么是TWAS?

#01

TWAS简介

概念

全转录组关联分析 (TWAS) 是一种数据整合的生物信息学方法，旨在识别由于基因调控的转录活动而导致复杂性状的因果基因。TWAS是建立在基因组重测序的研究结果之上的。通常来说，通过GWAS分析可鉴定出上百万的SNP位点并建立起与复杂性状之间的关系。然而，大多数具有统计学意义的 GWAS 信号位于基因组的非编码区域。将这些非编码变异与下游受影响的基因联系起来并不容易。因为它们不直接编码蛋白质，这些区域虽然与疾病相关，但其功能机制常常难以直接理解。另外，GWAS识别的风险变异通常位于多个基因相关的染色体区域（即连锁不平衡区间），这使得难以确定哪个基因是真正的致病基因。由此TWAS技术应运而生，TWAS通过整合基因表达数据与GWAS数据，通过分析基因表达的遗传调控（即表达数量性状位点，eQTL），它可以帮助确定哪些基因在GWAS识别的非编码变异区中是功能基因，从而更准确地识别致病基因。

应用场景

由于千人基因组项目的完成，不同的研究团队在此基础上构建出了具有较高准确性的eQTL数据库，eQTL数据的准确性影响到了后续TWAS关联信号的强度和准确度，因此目前大多数的TWAS分析应用在解析人类复杂疾病的表型上。

随着各种统计算法和测序技术的发展，TWAS分析也不仅仅应用在了解析人类疾病的领域。对于农业领域来说，许多具有高价值的育种性状其背后的分子机制仍不明晰，因此通过大规模的基因组测序和转录组测序，结合不同的统计算法可构建出自有的模型，再结合相关性状数据，也可以进行TWAS的关联分析。

简单来说，对于医口/农口领域的老师来说，如果研究的领域相关的预测模型已经构建好（人类组织类型可参见附录），那么再从公共数据库下载GWAS数据或者自己先前已经有的GWAS数据，便可以开始进行TWAS分析了。如果相关领域没有公开的构建好的预测模型，那么就需要自己构建预测模型。由于要尽量覆盖到微效基因座，基因组测序通常需要大样本量才能达到较好的检出效果。而对于基因组测序需要的样本量来说，转录组的样本数量也可以不需要和基因组样本数量等同。一般会从高质量样本获取的难易程度、所要研究的性状等维度来估计样本量。

不同途径解析复杂疾病

图1: 复杂疾病的识别方法

上图展示了基因型、基因表达和疾病相关复杂性状之间的关系。GWAS部分展示了全基因组关联研究的结果，通常用于识别与特定疾病或性状相关的遗传变异。然而，GWAS通常发现的变异位于非编码区域，且这些变异很难验证。Gene Expression Mapping部分展示了基因型调控基因表达。通常用于识别特定基因或基因区域的表达水平如何受到遗传变异的影响。

TWAS分析则是展示了一种新的关联分析方法 -- 全转录组关联分析。它结合了GWAS和基因表达数据和表型数据，以识别影响性状改变背后的基因表达和基因型变异的更深层次的遗传变异基础。

既然知道了什么是TWAS，对于做科研的同学来说，都有一颗打破沙锅问到底的精神，那么分析原理也是要了解一下的，我们以FUSION这款流行分析软件为例。

#02

TWAS分析原理

图2：FUSION的分析原理

首先，根据Reference Panel的数据集构建一个预测基因表达的线性模型。然后，可分为以下两种路径：

A：使用构建好的线性模型直接预测基因型样本的表达，结合表型数据建立表达量与性状之间的关联。

B：考虑SNP之间的LD效应。通过SNP - 性状效应值 (zscore) 与权重w (w是从 Reference pannel中预训练得到的或使用BSLMM/BLUP等算法计算得到) 的加权线性组合，建立表达量与性状之间的关联。

#03

TWAS分析方案

方案1：

基于Reference Panel（可使用的数据集如附录所列）的预先构建好的预测模型，然后再结合GWAS的summary 类型数据使用FSUSION软件可直接建立SNP-Gene-Trait三者之间的关联。输出结果：

表1：基因 -- 性状关联分析

各列解释

滑动查看下一张图片

解释输出：该结果表明，该基因的最佳预测模型是 LASSO，其表现略优于最佳 eQTL。该基因表达与表型变化呈正相关，这与最佳 eQTL SNP 对表达和 GWAS 产生负面影响一致。而TWAS Zscore并不比Best GWAS SNP score更显著，这需要进行条件分析以评估基因座是否包含独立于表达的信号。

图3：TWAS 曼哈顿图

以TWAS Z-score为y轴，以染色体为横轴，展示每条染色体上基因的分布情况。蓝色阈值线是FDR<0.05下的Z-score。超过阈值线以上的基因被认为是TWAS 分析得到的显著基因。

在进行关联研究时，会出现有些TWAS显著信号与GWAS显著信号的重叠，那么我们需要分析哪种类型的信号是直接影响了表型的。通过条件分析是GWAS 信号直接影响了表型还是由于遗传调控的基因表达在影响表型。

图4：条件测试关联分析图

上图顶部显示了TWAS鉴定到显著位点及上下游100kb范围内的所有基因。经过条件分析后与 TWAS 关系不密切的基因以蓝色突出显示，而与 TWAS 关系密切的基因以绿色突出显示。底部显示了在对绿色基因进行条件化之前（灰色）和之后（蓝色）的 GWAS 数据的曼哈顿图，部分GWAS信号经过条件测试后由显著变为了不显著。

方案2：

如果研究的物种或表型类型不存在于Reference panel中，那么使用自有的基因型数据和基因表达数据构建基因表达权重矩阵，然后结合GWAS summary 数据进行预测基因的表达从而完成关联分析。

表2：需提供的文件

构建的大致过程如下：

步骤1. 通常筛选具有cis作用的SNP构建cis-SNPs和基因表达量之间的线性关系。默认的筛选距离为基因上下游的500Kb 范围内。以SNP的基因型作为自变量，基因表达量作为因变量，选择BLUP、BSLMM、ENET或LASSO来构建影响基因表达的线性模型。这些模型在训练过程中会确定哪些SNP对基因表达具有显著的预测能力，并通过分配权重（系数）的方式反映该SNP在预测基因表达时的贡献。

步骤2. 构建完权重模型后，提取在GWAS中相同的SNP，然后根据预测模型的SNP的权重预测基因的表达，结合GWAS中的表型数据，再次构建线性模型。这样就建立起来了基因型、基因表达量和表型之间的关联，并评估这种关联是否显著相关。从而帮助我们发现基因表达是否在某些性状发生中扮演重要的角色。

最终的分析结果与方案1相同，不再赘述。

#04

联川生物的多组学分析流程

一般来说，进行TWAS分析的需要有基因型数据、转录组数据和表型数据。我公司可为各位老师同时转录组测序和基因组重测序的服务，并具备多组学整合的能力，欢迎各位老师咨询。

图5: 联川生物提供的多组学分析框架

备注：在我公司的分析框架中eQTL分析是作为TWAS分析的中间过程文件，暂不提供关于这部分更多的分析，我们下一步会提供针对eQTL的延申分析，敬请期待！

最后通过一个实际案例，来看看TWAS在相关领域的分析模型。

#05

案例解读

Fig1和Table 1：使用TWAS分析关联得到的显著的信号

经过条件分析后，AP006621.5 这个基因能够解释其所在位点（loci）上观察到的所有信号。其他位点的分析结果见文献描述。

文章标题：注意力缺陷多动障碍（ADHD）的转录组关联分析确定了基因和表型之间的关联

组学类型：基因组测序和转录组测序

数据来源：使用了来自GTEx和CMC的11种大脑相关组织的转录组数据。

分析方法：

1. 利用FUSION软件进行TWAS分析，以识别与ADHD相关的基因表达信号；

2. 通过条件分析和联合分析，研究了TWAS信号是否是条件独立的；

3. 使用FOCUS软件进行因果基因的精细定位；

4. TWAS 关联到基因的富集分析。

文章结论：

1. 识别出9个与ADHD相关的转录组显著基因，其中6个基因在原始GWAS中未被涉及；

2. 根据条件分析发现ADHD的TWAS位点信号主要是由基因表达驱动的；

3. KAT2B 和 TMEM161B被认为是在背外侧前额叶皮层和杏仁核中可能具有因果关系的基因；

4. 通路富集分析揭示了与ADHD高度相关是多巴胺能和去甲肾上腺素能途径。

#06

附录

可用的预构建模型

滑动查看下一张图片

本文系联川生物公众号原创文章，未经授权禁止转载，侵权必究！
扫描下方二维码


点分享

点点赞

点在看

http://mp.weixin.qq.com/s?__biz=MjM5MzIwNTI4OA==&mid=2650341279&idx=1&sn=8f44208b045e0837e644ec36343d2be7

联川生物

一个提供科研入门学习资源、经验的平台。分享前沿测序技术资讯、实用生信绘图技巧及工具。发布高质量的科研论文精度、精炼科研思路。我们的目标是持续提供“干货”，滋润您的科研生涯。

最新文章

【科研新利器】CellChat：一键解锁单细胞互作之谜，让复杂数据变得触手可及

多组学和机器学习概念篇-备战国自然2025

2025国自然热点：空间组学平台如何选择？

会议预告|联川生物邀您第五届新型生物标志物前沿技术与肿瘤精准治疗新进展

项目经验分享|关于流式细胞阴选，你还需要知道哪些信息？

热烈祝贺联川生物成功举办博士后开题报告会

双十一感恩回馈| 联川生物工具书零元购！！！名额无上限

2025国自然热点：Flex+空转神仙组合怎么开展研究

联川生物2024版10x单细胞转录组分析报告重磅发布

如何使用Loupe Browser在Visium HD数据中圈选目标区域展开差异分析

基因在说话！看TWAS如何捕捉性状背后的秘密

国自然2025没思路？组蛋白乳酸化CUT&Tag考虑下!

STM：机器学习+DNA甲基化区分原发性肺鳞癌和头颈转移瘤

国自然热点2025：时空组学实验流程和样本如何准备？

国自然2025热点：7个实用的植物单细胞研究数据库 | 单细胞专题

“他”就像是夜空中的星座，创造出无尽的动人故事，让我们一起走进“他”的世界---技术工程师

备战国自然2025|微塑料与微生物，一网打尽，研究思路解析助力国自然申报

精准分选：揭秘流式细胞阴选与阳选的关键影响因素

强势来袭 | 联川生物华大时空转录组V1.3震撼上线，正式开启项目服务——2025国自然热点

Olink蛋白质组学医学课题设计思路-备战国自然2025

AJHG：meQTL揭示DNA甲基化对双胞胎皮肤疾病的影响

2025国自然热点：空间组学迈入单细胞分辨率

单细胞+时空原位分析探索早期人类胎儿肺上皮细胞可塑性的时间动态∣时空原位研究范式

做肿瘤微生物组，不注意这个设计，你铁定要后悔！|备战国自然2025

从肠道菌群到生物标志物：医学微生物大队列研究应该怎么做|备战国自然2025

2025国自然热点——科研新宠Xenium空间原位组学不了解下？

14种比对算法在哺乳动物全基因组亚硫酸氢盐测序DNA甲基化分析中的基准测试

AJHG：meQTL揭示DNA甲基化对双胞胎皮肤疾病的影响

基础医学与生化篇-表观多组学技术应用场景解析-备战国自然2025

2025国自然热点：单细胞文章有哪些下游验证方式

DNA甲基化技术该如何选择，这篇文章告诉你答案

ERJ：GWAS+meQTL鉴定DNA甲基化影响气管中的哮喘风险

Nature：机器学习构建基于DNA甲基化的中枢神经肿瘤分型

NC：机器学习构建肉瘤DNA甲基化分类器队列研究

NC：GWAS+meQTL/孟德尔随机化揭示DNA甲基化影响儿童身高

肠道菌群+机器学习：双剑合璧，助力国自然基金申报突破重围！|备战国自然2025

做肿瘤微生物组没思路，那是你没看过这些工作|备战国自然2025

NC：meQTL+eQTL揭示视网膜黄斑病DNA甲基化与转录互作事件

乳酸化修饰蛋白组在心血管疾病中的研究思路∣修饰蛋白组学专题

热点解析：“新污染物”与微生物的前世今生|备战国自然2025

2025国自然热点：当空间转录组拥有百亿“像素”

Olink蛋白质组学知识大扫盲-备战国自然2025

2025国自然热点：畜牧家禽国自然解析

单细胞+时空原位分析探究人中枢神经系统边界先天免疫细胞的空间景观|时空原位研究范式

联川Cell用户文章：单细胞+蛋白代谢等多组学联合揭示小肠营养双向供给驱动小肠生理功能机制研究

转录组和蛋白组联合备战国自然2025，你还差一个翻译组！

NC：机器学习+DNA甲基化锁定FFPE样本转移癌的原癌部位

对肿瘤微生物组感兴趣，不知道要怎么检测，看这里！|备战国自然2025

2025国自然热点：FFPE样本单细胞测序的进展与挑战

Gut：机器学习+DNA甲基化区别胰腺癌和慢性胰腺炎队列研究

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉