可变剪切,也叫做选择性剪切(Alternative splicing,AS), 指的是在mRNA前体到成熟mRNA的过程当中,不同的剪切方式所产生的RNA的外显子以多种方式进行重连,使得同一个基因可以产生多个不同的成熟mRNA,最终产生不同的蛋白质。
可变剪切属于基因结构变异分析,是转录组测序的基本分析内容。在常规二代测序的bulk转录组数据中,使用rMATS可以很好地支持有生物学重复和单样本的组间差异可变剪切分析,是一款同时定性和定量的分析工具。在全长转录组分析中通常使用SUPPA2、SpliceMap-LSC-IDP pipeline和AStalavista进行可变剪切分析,AStalavista相较SpliceMap-LSC-IDP pipeline工具检出效率要高很多。需要注意的是,AStalavista更擅长定性分析,如果需要定量,则不建议作为优先选项。
可变剪切的类型如下,不同工具分析出的剪切类型覆盖是有区别的,比如rMATS一般只能分析五种剪切类型,而AStalavista使用通用符号系统,可以明确描述任何AS事件。
AA(Alternate acceptor site):基因发生可变剪接形成两种不同的转录本,5'端剪接位点一致但3'端剪接位点不同,第二种转录本的3'端外显子有所延长。
AD(Alternate Donor site):基因发生可变剪接形成两种不同的转录本,3'端剪接位点一致但5'端剪接位点不同,第二种转录本的5'端外显子有所延长。
AP(Alternate promoter):基因的两个转录本的区别在于第一个外显子不同,称为Alternative First Exon。
AT(Alternate terminator):基因的两个转录本的不同之处于最后一个外显子不同,称为Alternative last exon。
ES(Exon skip):指一个外显子从初始转录物上被剪切掉。
ME(Mutually exclusive exons):基因发生可变剪接形成两种不同的转录本,两转录本之间相同的外显子称为constitutive exon,不同的外显子称为inclusive exon,两个inclusive exon不能同时存在与同一转录本中,只能分别存在于不同转录本中。
RI(Retained intron):基因发生可变剪接形成两种不同的转录本,第2种转录本由retained intron与两侧的外显子一起形成新的外显子。
1)Astalavista安装
使用conda安装Astalavista,指令为:
conda search Astalavista
conda install Astalavista
2)gft文件准备
Astalavista基于基因注释gtf文件进行可变剪切分析,分析转录本间剪切事件的总和,示例gtf文件如下:
3)Astalavista运行
/usr/bin/Astalavista -t asta --threads 2 -i novel.merged.gtf -o novel.as.gtf.gz
## 默认AStalavista仅报告内部AS事件(ASI),包含TSS和/或CVS的外部AS事件(ASE)也可以包含在报告的事件类型列表中,可以加参数:-e ASI,ASE
## 默认AStalavista只显示成对AS事件,即正好有两个变体的事件(维度2);更高维度的事件被投影到其所有变体对之间的事件。参数EVENTS_DIMENSION(flag -d)必须设置为相应的整数值或“-1”,以输出所谓的完整AS事件:-d -1
## -t 指定astalavista使用的分析工具,默认为asta,进行可变剪切事件鉴定,另外还可以使用sortBED、sortGTF、subsetter等工具
## -i 输入文件
## --threads使用线程数
## 输出结果为gtf.gz,否则可能格式错误,无法打开
4)structure类型转换
基于code和events的关系进行类型的转换:
perl as_code2events.pl AS_code.txt AS_event.txt
Astalavista输出可变剪切结果为gtf格式,如下 :
## 结果输出形式为gtf形式,其中structure部分,分别用数字、"^","-"符号表示可变剪切发生的相对位置、供体和受体位点。剪切中,前一外显子称为剪切供体,后一外显子称为剪切受体。
## 如'0,1-2^'代表SE类型;'1-,2-'代表A3SS类型;'1^,2^'代表A5SS类型;'1-2^,3-4^'代表MXE类型,互斥外显子;'0,1^2-'代表IR类型等。
## 大多数研究使用:“exon skipping,” “alternative donor/acceptor,” “intron retention,” and (sometimes) “mutually exclusive exons”
## AStalavista使用通用符号系统,可以明确描述任何AS事件。命名法为每个可变剪接位点序列分配了一个“AS代码”,AS代码根据其在事件中的相对位置及其类型,用数字和符号表示每个可变位点。
## 特定AS事件的代码生成如下:首先,事件中包含的所有可变位点都根据其在转录方向上的位置进行排序,从5′到3′。每个位点都根据此顺序(1、2、3等)分配一个数字,并根据其类型分配一个符号:
## [“for TSS, ”] 对应CVS
## ^:donor,供体
## -:acceptor,受体
## 来自同一转录本的位点由连续的这样的“数字-符号”对(以相应的5'→3'顺序)表示,形成一个表示AS事件的字符串。
## 如果事件的其中一个转录本中没有可变位点(例如,描述跳过外显子的转录本的字符串),则使用数字“0”作为相应的字符串。然后,AS代码是由此获得的字符串的逗号(“,”)分隔连接,每个转录变体中的一个,按其编号排序。
## 事件的开始(第4列)和结束(第5列)分别是定界公共位点的基因组坐标,第一个/ASE事件中的最后一个可变位点
## degree:总结了事件中可变位点的数量,随着事件越长或变种越多,degree自然会增加。
## dimension:表示有关报告事件相对于潜在完整事件的信息,表示为“X_Y”形式的字符串,其中X是报告事件中的变体数量,Y是在相应的完整事件中的事件数量。X = Y的所有事件都是完整的,而X<Y的事件则不完整(根据定义,X>Y是不可能的)
## “transcript_id”:描述了事件的每个变体结构的转录标识符的逗号分隔列表;如果有多个记录支持事件的某个变体,则相应的标识符还用“/”分隔符分隔。
## “splice_chain”:描述事件中每个可变位点的基因组坐标,变体与“transcript_id”的标识符以逗号分隔的顺序相同。
## “splice_chain”的值可以被认为是事件的唯一标识符。
AS code示意图如下:
AStalavista使用通用符号系统,可以明确描述任何AS事件。
命名法为每个可变剪接位点序列分配了一个“AS代码”,AS代码根据其在事件中的相对位置及其类型,用数字和符号表示每个可变位点。
分别用数字、"^"、"-"符号表示可变剪切发生的相对位置、供体和受体位点。剪切中,前一外显子称为剪切供体,后一外显子称为剪切受体。
0,1-2^'代表SE类型;'1-,2-'代表A3SS类型;'1^,2^'代表A5SS类型;'1-2^,3-4^'代表MXE类型,互斥外显子;'0,1^2-'代表IR类型等。
软件在2007年发表于Nucleic Acids Research:
文章名:《ASTALAVISTA: dynamic and flexible analysis of alternative splicing events in custom gene datasets》
期刊:Nucleic Acids Research
IF:16.6
发表日期:2007-7-1
RNA表观:m6A课题设计思路-国自2025专题
2025国自然热点|冻存样本snRNA-seq的应用现状
用户文章Cell Metab:miRNA+16s联合揭示水苏糖调节消化道营养新机制
医学大队列篇-miRNA与DNA甲基化大样本应用场景解析-备战国自然2025
本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究! 扫描下方二维码 点分享
点点赞
点在看