全长转录组数据的可变剪切分析——AStalavista分析 | 生信开发实战

企业   2024-12-26 17:05   浙江  


什么是可变剪切?

可变剪切,也叫做选择性剪切(Alternative splicing,AS), 指的是在mRNA前体到成熟mRNA的过程当中,不同的剪切方式所产生的RNA的外显子以多种方式进行重连,使得同一个基因可以产生多个不同的成熟mRNA,最终产生不同的蛋白质。

可变剪切属于基因结构变异分析,是转录组测序的基本分析内容。在常规二代测序的bulk转录组数据中,使用rMATS可以很好地支持有生物学重复和单样本的组间差异可变剪切分析,是一款同时定性和定量的分析工具。在全长转录组分析中通常使用SUPPA2、SpliceMap-LSC-IDP pipeline和AStalavista进行可变剪切分析,AStalavista相较SpliceMap-LSC-IDP pipeline工具检出效率要高很多。需要注意的是,AStalavista更擅长定性分析,如果需要定量,则不建议作为优先选项。

可变剪切的类型如下,不同工具分析出的剪切类型覆盖是有区别的,比如rMATS一般只能分析五种剪切类型,而AStalavista使用通用符号系统,可以明确描述任何AS事件。

AA(Alternate acceptor site):基因发生可变剪接形成两种不同的转录本,5'端剪接位点一致但3'端剪接位点不同,第二种转录本的3'端外显子有所延长。

AD(Alternate Donor site):基因发生可变剪接形成两种不同的转录本,3'端剪接位点一致但5'端剪接位点不同,第二种转录本的5'端外显子有所延长。

AP(Alternate promoter):基因的两个转录本的区别在于第一个外显子不同,称为Alternative First Exon。

AT(Alternate terminator):基因的两个转录本的不同之处于最后一个外显子不同,称为Alternative last exon。

ES(Exon skip):指一个外显子从初始转录物上被剪切掉。

ME(Mutually exclusive exons):基因发生可变剪接形成两种不同的转录本,两转录本之间相同的外显子称为constitutive exon,不同的外显子称为inclusive exon,两个inclusive exon不能同时存在与同一转录本中,只能分别存在于不同转录本中。

RI(Retained intron):基因发生可变剪接形成两种不同的转录本,第2种转录本由retained intron与两侧的外显子一起形成新的外显子。



操作方法

1)Astalavista安装

使用conda安装Astalavista,指令为:

conda search Astalavista

conda install Astalavista

2)gft文件准备

Astalavista基于基因注释gtf文件进行可变剪切分析,分析转录本间剪切事件的总和,示例gtf文件如下:

3)Astalavista运行

/usr/bin/Astalavista -t asta --threads 2 -i novel.merged.gtf -o novel.as.gtf.gz

## 默认AStalavista仅报告内部AS事件(ASI),包含TSS和/或CVS的外部AS事件(ASE)也可以包含在报告的事件类型列表中,可以加参数:-e ASI,ASE

## 默认AStalavista只显示成对AS事件,即正好有两个变体的事件(维度2);更高维度的事件被投影到其所有变体对之间的事件。参数EVENTS_DIMENSION(flag -d)必须设置为相应的整数值或“-1”,以输出所谓的完整AS事件:-d -1

## -t 指定astalavista使用的分析工具,默认为asta,进行可变剪切事件鉴定,另外还可以使用sortBED、sortGTF、subsetter等工具

## -i 输入文件

## --threads使用线程数

## 输出结果为gtf.gz,否则可能格式错误,无法打开

4)structure类型转换

基于code和events的关系进行类型的转换:

perl as_code2events.pl AS_code.txt AS_event.txt



结果说明

Astalavista输出可变剪切结果为gtf格式,如下 :

## 结果输出形式为gtf形式,其中structure部分,分别用数字、"^","-"符号表示可变剪切发生的相对位置、供体和受体位点。剪切中,前一外显子称为剪切供体,后一外显子称为剪切受体。

## 如'0,1-2^'代表SE类型;'1-,2-'代表A3SS类型;'1^,2^'代表A5SS类型;'1-2^,3-4^'代表MXE类型,互斥外显子;'0,1^2-'代表IR类型等。

## 大多数研究使用:“exon skipping,” “alternative donor/acceptor,” “intron retention,” and (sometimes) “mutually exclusive exons”

## AStalavista使用通用符号系统,可以明确描述任何AS事件。命名法为每个可变剪接位点序列分配了一个“AS代码”,AS代码根据其在事件中的相对位置及其类型,用数字和符号表示每个可变位点。

## 特定AS事件的代码生成如下:首先,事件中包含的所有可变位点都根据其在转录方向上的位置进行排序,从5′到3′。每个位点都根据此顺序(1、2、3等)分配一个数字,并根据其类型分配一个符号:

## [“for TSS, ”] 对应CVS

## ^:donor,供体

## -:acceptor,受体

## 来自同一转录本的位点由连续的这样的“数字-符号”对(以相应的5'→3'顺序)表示,形成一个表示AS事件的字符串。

## 如果事件的其中一个转录本中没有可变位点(例如,描述跳过外显子的转录本的字符串),则使用数字“0”作为相应的字符串。然后,AS代码是由此获得的字符串的逗号(“,”)分隔连接,每个转录变体中的一个,按其编号排序。

## 事件的开始(第4列)和结束(第5列)分别是定界公共位点的基因组坐标,第一个/ASE事件中的最后一个可变位点

## degree:总结了事件中可变位点的数量,随着事件越长或变种越多,degree自然会增加。

## dimension:表示有关报告事件相对于潜在完整事件的信息,表示为“X_Y”形式的字符串,其中X是报告事件中的变体数量,Y是在相应的完整事件中的事件数量。X = Y的所有事件都是完整的,而X<Y的事件则不完整(根据定义,X>Y是不可能的)

## “transcript_id”:描述了事件的每个变体结构的转录标识符的逗号分隔列表;如果有多个记录支持事件的某个变体,则相应的标识符还用“/”分隔符分隔。

## “splice_chain”:描述事件中每个可变位点的基因组坐标,变体与“transcript_id”的标识符以逗号分隔的顺序相同。

## “splice_chain”的值可以被认为是事件的唯一标识符。


AS code示意图如下:

AStalavista使用通用符号系统,可以明确描述任何AS事件。

命名法为每个可变剪接位点序列分配了一个“AS代码”,AS代码根据其在事件中的相对位置及其类型,用数字和符号表示每个可变位点。

分别用数字、"^"、"-"符号表示可变剪切发生的相对位置、供体和受体位点。剪切中,前一外显子称为剪切供体,后一外显子称为剪切受体。

0,1-2^'代表SE类型;'1-,2-'代表A3SS类型;'1^,2^'代表A5SS类型;'1-2^,3-4^'代表MXE类型,互斥外显子;'0,1^2-'代表IR类型等。


软件在2007年发表于Nucleic Acids Research

文章名:《ASTALAVISTA: dynamic and flexible analysis of alternative splicing events in custom gene datasets》

期刊:Nucleic Acids Research

IF:16.6

发表日期:2007-7-1


相关阅读

RNA表观:m6A课题设计思路-国自2025专题
2025国自然热点|冻存样本snRNA-seq的应用现状
用户文章Cell Metab:miRNA+16s联合揭示水苏糖调节消化道营养新机制
医学大队列篇-miRNA与DNA甲基化大样本应用场景解析-备战国自然2025

本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究!

扫描下方二维码





点分享


点点赞


点在看


联川生物
一个提供科研入门学习资源、经验的平台。 分享前沿测序技术资讯、实用生信绘图技巧及工具。 发布高质量的科研论文精度、精炼科研思路。 我们的目标是持续提供“干货”,滋润您的科研生涯。
 最新文章