TWAS分析的原理和工具

文摘科学 2024-10-28 09:42 北京

TWAS的分析原理

人类复杂形状的出现很大程度上可以归因于遗传变异，但遗传变异对于性状的作用机制却尚不明确。许多遗传变异通过调节基因表达来影响复杂性状，即改变一种或多种蛋白质的丰度。有人认为这种关系可以通过关联扫描来进行研究，然而，测量基因表达的研究受到样本可用性和成本的阻碍，少数已发表的表达和复杂性状研究比单独研究性状要小几个数量级。因此，许多表达-性状关联无法检测到，尤其是那些影响较小的关联。为了减轻样本量小导致的功效降低，最好的解决办法是选取影响基因表达的遗传变异（表达数量性状位点，eQTL）与在GWAS分析中确定的性状相关变异的交集。然而，这种方法也有一定的弊端，同样可能错过较弱的表达-性状关联。

TWAS（Transcriptome-wide Association Study）是一种用于研究基因表达和疾病之间关系的方法，通过对全基因组的基因表达数据进行统计分析，以识别与特定疾病或性状相关的基因表达变异。TWAS能够很好的解决上述分析方法中存在的“数据集之间存在巨大的样本差异的问题”，这主要是由于其分析方法的不同：

TWAS分析的第一步，基于reference panel来建模，构建SNP和基因表达量之间的关系。reference panel中的样本同时拥有基因分型和表达量的结果，根据距离确定基因对应的SNP位点，比如选择基因上下游500kb或者1Mb范围内的SNP位点，拟合这些SNP位点和基因表达量之间的关系，通常，用于构建表达量模型的数据集可以较小。

第二步，用第一步建模的结果来预测另外一个队列的基因表达量，这个队列中的样本量只有GWAS结果，称之为gwas cohort，这一步可以看做是对gwas cohort中的基因表达量进行填充，需要注意的是，这里分析用到的变异位点应为表达量模型构建时位点的子集。

第三步，用填充之后的基因表达量来分析基因和性状之间的关联。

下图对TWAS的分析流程进行了很好的解释：

TWAS分析流程示意图

遗传标记(SNPs；蓝色）、基因表达(GE；绿色）和性状（Trait；红色）之间可能的因果关系模式有如下几种。场景A-D将被TWAS模型视为不具有明显的关联关系。E-G可以被确定为遗传标记、基因表达和性状之间的关联是显著性的。

SNPs、基因表达、性状，三者可能有的关系

TWAS的分析软件

我们主要介绍两款常用的TWAS分析软件：

1.Predixcan

Gamazon,E.,Wheeler,H.,Shah,K.et al.A gene-based association method for mapping traits using reference transcriptome data. Nat Genet 47, 1091–1098 (2015).

Predixcan是于2015年由一群芝加哥学者研发的，适用于个体级别的GWAS数据的TWAS分析软件，作者认为基因表达水平受到三个因素的调控，其中主要的两个是遗传因素和疾病状态，PrediXcan的目的是建立起受遗传调控的基因表达与性状之间的关系。整个工作流程和主流的TWAS分析流程一致，主要分为两步：（1）估算SNP调控的基因表达水平：借助类似于机器学习的思想，利用GTEx Project,GEUVADIS和DGN数据库中基因型数据和基因表达数据做训练集，然后估算用户导入的基因型数据中缺失的表达数据。一旦得到表达数据，就可建立起基因表达与性状之间的关系。（2）建立基因表达水平与性状之间的关联。

Predixcan分析流程

2.FUSION

Gusev et al. “Integrative approaches for large-scale transcriptome-wide association studies” 2016 Nature Genetics

FUSION是另一款TWAS分析工具。其分析思想与Predixcan大致相似，第一步是构建功能/分子表型的遗传成分的预测模型（该软件可提供来自多项研究的预先计算的预测模型以促进分析），不同的是FUSION使用GWAS summary statistic数据与表型做关联分析。summary statistic顾名思义，是对GWAS数据的一个概括总结，包含了结果中最核心的信息，这类格式的GWAS数据通常来源于已经公开发表的文章和各类数据库中。

FUSION支持的GWAS summary statistic数据格式

更多生信课程：

生信课堂

生信笔记

最新文章

如何使用dd拷贝系统盘

组装"预实验" | 物种倍性分析

IF=4.3 | 秋茄树SOS1基因家族分析

FUSION做TWAS分析

linux三剑客之grep-文件中的信息搜索

IF=13.8 | 青藏高原人群肠道微生物生物标志物的荟萃分析及微生物群衍生的丁酸盐在高海拔适应中的功能

WGCNA分析 | 结果解读

R语言绘制转录组多组差异基因展示

IF=4.6 | 蛋白质组学分析揭示白藜芦醇的抗菌机制

TWAS分析的原理和工具

IF=13.8 | 甘油/二醇脱水酶是后肠发酵食肉动物肠道微生物群的关键功能

核苷酸多样性π的计算

R语言绘制差异表达火山图

eQTL分析之协变量计算

几种基因型数据的转换

IF=4.9 | 多倍体割手密IAA基因家族分析鉴定

R语言基础入门—数据结构（2）

DockerHub镜像无法下载的解决方案

单细胞转录组-RNA速率（RNA velocity）分析原理与结果解读

如何预测CpG岛

空间转录组数据读取

用R包——MatrixEQTL做eQTL分析

IF=5.7 | 转录组数据揭示类风湿关节炎的临床诊断模型

R语言基础入门—数据结构（1）

空间转录组数据预处理

R语言基础入门—R语言概述与安装！

单细胞转录组课程更新

单细胞转录组数据挖掘流程记录-BLCA膀胱癌(GSE192575)

单细胞转录组数据挖掘流程记录-BRCA乳腺癌(E-MTAB-8107)

单细胞转录组数据挖掘流程记录-BRCA乳腺癌(GSE161529)

单细胞转录组数据挖掘流程记录-CRC直肠癌(GSE178341)

给进化树标定化石时间

组装"预实验" | 基因组调研图

序列的提取和截取

蛋白质组学质谱数据搜库分析 | MaxQuant软件的使用

单细胞转录组-cellchat细胞通讯结果解读

单细胞转录组数据挖掘流程记录-BLCA膀胱癌(GSE192575)

单细胞转录组数据挖掘流程记录-BRCA乳腺癌(E-MTAB-8107)

单细胞转录组数据挖掘流程记录-BRCA乳腺癌(GSE161529)

单细胞转录组数据挖掘流程记录-CRC直肠癌(GSE178341)

单细胞转录组-monocle3分析结果解读

转录组时序数据分析课程上架

《肠型分析》课程上架

遗传图构建与QTL定位课程上新

graphics包的barplot()函数绘制柱状堆叠图

QTL定位介绍

蛋白互作网络工具Cytoscape的安装与使用

《T2T基因组组装和注释》课程上新

招聘 | 山东农业大学杨龙课题组招聘博士后

创建自己的docker镜像

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉