干货指南｜一文教会你轻松掌握可变剪切结果的解读与运用

学术 2024-10-22 16:27 湖北

点击蓝字关注我们

可变剪切（Alternative Splicing, AS）是真核生物基因调控的重要机制：DNA转录形成前体mRNA（pre-mRNA）再加工产生成熟mRNA的过程中，会有选择的对exon/intron及其他元件进行剪切和重组，因此一个基因可以产生多种类型的转录本，进而使得一个基因可以在不同时间或不同环境中翻译出不同的蛋白质，增强生命系统的复杂性和适应性。

可变剪切（AS）事件主要分为5种类型：

外显子跳跃 Skipping exons (SE)
5’端可变剪切 Alternative 5’ (donor) splice sites (A5SS)
3’端可变剪切 Alternative 3’ (acceptor) splice sites (A3SS)
内含子保留 Retained introns (RI)
互斥外显子 Mutually exclusive exon usage (MXE)

还有两种不太常见的类型为：第一个外显子剪切 Alternative first exon (AF)和最后一个外显子剪切Alternative last exon (AL)。

目前已经开发出了多种计算方法来识别和量化RNA-seq数据中的可变剪切，需要知道的是，可变剪切一般通过计算支持剪切的reads数量，实现对可变剪切程度或比例的量化，进而用于单个样本或者组间样本的比较。简单理解便是以下公式：

PSI = splice_in / (splice_in + splice_out)

在转录组分析中，二代转录组会使用rMATS进行分析[1]，反映剪切水平的指标为IncLevel，其计算逻辑与上述公式基本一致，根据剪接事件所产生同工型的有效长度以及支持可变剪切事件的reads数量进行计算，结果反映样本的最终mRNA转录本中平均包含各自外显子的频率的信息，也就是剪切事件exon inclusion isoform在两个isoform总count数的比值。三代转录组中会使用SUPPA2进行分析[2]，反映剪切水平的指标为PSI（percent spliced in），计算逻辑大致与rMATS相似，根据发生可变剪切与正常剪切产生的isoform的表达量TPM值计算。下面小编将简要解读可变剪切的分析结果并提供一些可变剪切挖掘及验证思路以供参考。

（一）

rMATS分析可变剪切结果解读

rMATS是一款适用于二代转录组数据的差异可变剪切分析软件，可以对可变剪切事件进行分类鉴定以及差异分析。rMATS可以识别的可变剪切类型为SE、A5SS、A3SS、RI和MXE。

rMATS可以识别的可变剪切类型

rMATS定量可变剪切基于两种定量方式：Junction count only和Reads on target and junction counts，在结果中分别为包含*.JC和*.JCEC的表格。JC指Junction Count，表示跨越剪切位点的reads数目；JCEC是Junction Count和Exon Count的合并，不仅考虑跨越剪接位点的reads（Junction Count），还同时考虑未跨越剪接位点的reads（Exon Count）。如果只是比较两组样品间可变剪切的差异一般使用JC的结果即可。另外，结果中JC和JCEC的表格均可直接作为rmats2sashimiplot可变剪切可视化的输入文件。

在单样本的可变剪切事件鉴定结果中，第一列是AS事件的编号，从0开始；第二列（GeneID）是基因的编号；第三列（geneSymbol）是基因名称，如果GFF/GTF文件不包含geneSymbol信息，此列为NA；第四列（chr）是基因所在染色体的编号；第五列（strand）是基因所在链的方向。随后几列是剪接位点的位置信息。具体每种事件的剪接位点位置信息类型可以参考：

https://github.com/Xinglab/rmats-turbo/blob/v4.3.0/README.md#output

在组间比较的差异可变剪切结果中，前十一列和单样本的可变剪切事件结果相似，从第十二列起有所差别，第十二列是ID，同第一列；第十三列（IJC_SAMPLE_1）是分组1的inclusion junction（IJC）的count数；第十四列（SJC_SAMPLE_1）是分组1的skipping junction（SJC）的count数；第十五列（IJC_SAMPLE_2）是分组2的IJC的count数；第十六列（SJC_SAMPLE_2）是分组2的SJC的count数，同组样本的结果以逗号分隔。第十七列（lncFormLen）是AS事件Exon Inclusion Isoform的有效长度；第十八列（SkipFormLen）是AS事件Exon Skipping Isoform的有效长度；第十九列（PValue）是两组样品可变剪切的显著差异指标；第二十列（FDR）是对PValue的校正值；第二十一列（lncLevel1）是分组1中AS事件Exon Inclusion Isoform在两个Isoform总count数的比值；第二十二列（IncLevel2）是组2中可变剪切事件Exon Inclusion Isoform在两个Isoform总count数的比值；第二十三列（IncLevelDifference）是lncLevel1均值与IncLevel2均值的差值，其中IncLevel1对应处理组，IncLevel2对应对照组。更为具体的可以参考：

https://www.jianshu.com/p/99a626391b04

（二）

SUPPA2分析可变剪切结果解读

SUPPA2是一款适用于三代转录组数据的可变剪切分类鉴定和差异分析的软件，同样是基于AS事件定量。SUPPA2可以识别的可变剪切类型为SE、A5、A3、RI、MX、AF和AL。

SUPPA2可以识别的可变剪切类型

软件输出结果中包含单样品可变剪切鉴定和差异可变剪切鉴定结果。单样本可变剪切鉴定结果为*.psi的表格，第一列（gene_id）是发生可变剪切事件的基因ID，第二列（event_id）是发生的可变剪切的事件名称，组成为：基因ID;可变剪切类型;基因所在染色体名称;剪切位点;正负链，第三列（alternative_transcripts）是该基因通过可变剪切形成的转录本的ID；第四列（total_transcripts）是该基因在剪切位点区域通过正常剪切和可变剪切形成的全部转录本的ID，第五列（PSI）是发生可变剪切的程度，这里的计算方法是PSI=发生该可变剪切转录本TPM值/(发生该可变剪切转录本TPM值+未发生该可变剪切转录本TPM值)，如果PSI为NAN或者0，则认为该基因在该样本中未发生可变剪切。另外，包含*psi.add_info的表格为对发生可变剪切事件的基因添加功能注释的结果，包含*.pie的图为不同类型的可变剪切事件在该样本中的数量分布比例情况。

在组间比较的差异可变剪切结果中，文件名为*gene.dpsi.add_info的表格为各AS事件在组间差异程度的分析，前五列与单样本结果相似，第一列（gene_id）是发生可变剪切事件的基因ID，第二列（event_id）是发生的可变剪切事件的名称，组成为：基因ID;可变剪切类型;基因所在染色体名称;剪切位点;正负链，第三列（alternative_transcripts）是该基因通过可变剪切形成的转录本的ID；第四列（total_transcripts）是该基因在剪切位点区域通过正常剪切和可变剪切形成的全部转录本的ID，*PSI列为对应样品发生可变剪切的程度，dpsi列是 psi difference(ΔPSI)，即两组PSI值取平均值后相减，dpsi不为NAN或者0表明两组间可变剪切存在差异；diffAS-pvalue列是两组样品可变剪切的显著差异指标，一般pvalue＜0.05，认为是显著差异。gene_name 列为geneSymbol，仅在参考基因组GFF/GTF注释文件中包含相关信息时添加，随后几列是基因的相关功能注释。

*isoform.dpsi.add_info的表格为将上述*gene.dpsi.add_info表格第三列（alternative_transcripts）中的转录本按行展示并提供该转录本对应功能注释信息的结果。前几列与*gene.dpsi.add_info表格相似，后几列是添加上了转录本的表达差异情况以及相关功能注释。可以依据可变剪切是否存在差异以及表达是否存在差异筛选关键的转录本，进一步深入挖掘。

（三）

可变剪切的挖掘及验证思路

真核生物基因转录加工过程往往受到不同环境或者条件的影响，通过可变剪切形成不同的转录本，进而编码不同的蛋白质，因此从可变剪切产生的转录本本身出发可以深入挖掘剪切转录本的功能或者结构，例如Corre等[3]通过对李斯特菌感染肠上皮细胞进行ONT全长转录组测序，发现细菌感染产生毒素可以诱导关键调控基因CIRBP和CLK1受到可变剪切的影响，导致其产生NMD靶标等包含不同外显子结构的转录本，编码不同的毒素结合蛋白以响应细菌感染刺激；又如Cao等[4]利用ONT全长转录组测序技术鉴定幼年和成年大鼠心脏细胞不同发育时期全长Tpm1转录本，发现RBFOX2蛋白可以特异性调控Tpm1末端外显子的可变剪切，影响Tpm1的多聚腺苷酸化，从而产生具有不同3’末端的转录本，影响细胞生长和发育。

可变剪切结构分析^[3]

其次，可变剪切差异也是一个切入点，尽管基因普遍发生可变剪切，但是在不同处理或者不同阶段剪切的程度或者比例可能存在差异，由此可以探究剪切存在差异的基因以及产生的转录本富集参与哪些通路或者功能，例如Wu等[5]对不同处理下的人类主动脉平滑肌细胞进行ONT 全长转录组测序，鉴定分析发现差异可变剪切事件大多参与RNA代谢相关通路，并且组间显示出特定的剪切模式；又如Zhou等^[6]利用Direct RNA测序技术，鉴定分析中华鳖不同性别之间的可变剪切差异，发现A3、A5和AF等可变剪切事件数量在由雌性到假雄性的性逆转过程中显著减少，而在由雄性到假雌性的性逆转过程中显著增加。

差异可变剪切分析^[5]

此外，通过将可变剪切与基因表达或者修饰等多层面数据结合[7]，可以揭示更为复杂的生物学调控机制。例如与表达关联，通过比较基因水平无显著差异而转录本水平存在差异的基因，来探究可变剪切是否存在差异，同时还可以分析差异表达基因与差异可变剪切基因之间的交集，探讨这些基因可能参与的信号通路或发挥的功能，从而更好地理解转录本或基因的使用情况；此外，对于那些未发生差异可变剪切但存在差异表达的基因，可以从转录后调控的角度进行研究，如关注poly(A)尾巴长度或RNA修饰的变化，以进一步解释可变剪切事件的发生与变化。

可变剪切与表达及修饰关联^[7]

那如何对可变剪切进行后续的验证呢？可变剪切最常用且最简单的验证方法就是反转录PCR，其原理为在剪切事件发生区域设计特异引物以扩增特定片段，通过电泳分离产物并观察条带大小差异，从而验证是否存在不同的剪切形式。基本步骤为根据剪切位点信息确定发生的事件及借助IGV浏览器确定对应区域的序列，在序列区域附近设计特定引物进行PCR扩增，确定片段长度。当然也可以结合其他实验手段验证可变剪切的功能或者作用机制。

可变剪切验证^[8]

参考文献：

[1] Shen S, Park J W, Lu Z, et al. rMATS: robust and flexible detection of differential alternative splicing from replicate RNA-Seq data[J]. Proceedings of the National Academy of Sciences, 2014, 111(51): E5593-E5601.

[2] Trincado J L, Entizne J C, Hysenaj G, et al. SUPPA2: fast, accurate, and uncertainty-aware differential splicing analysis across multiple conditions[J]. Genome Biology, 2018, 19: 1-11.

[3] Corre M, Boehm V, Besic V, et al. Alternative splicing induced by bacterial pore-forming toxins sharpens CIRBP-mediated cell response to Listeria infection[J]. Nucleic Acids Research, 2023, 51(22): 12459-12475.

[4] Cao J, Routh A L, Kuyumcu‐Martinez M N. Nanopore sequencing reveals full‐length Tropomyosin 1 isoforms and their regulation by RNA‐binding proteins during rat heart development[J]. Journal of Cellular and Molecular Medicine, 2021, 25(17): 8352-8362.

[5] Wu H, Lu Y, Duan Z, et al. Nanopore long-read RNA sequencing reveals functional alternative splicing variants in human vascular smooth muscle cells[J]. Communications Biology, 2023, 6(1): 1104.

[6] Zhou T, Chen G, Chen M, et al. Direct full-length RNA sequencing reveals an important role of epigenetics during sexual reversal in Chinese soft-shelled turtle[J]. Frontiers in Cell and Developmental Biology, 2022, 10: 876045.

[7] Ma Q, Gui Y, Ma X, et al. N6-methyladenosine writer METTL16-mediated alternative splicing and translation control are essential for murine spermatogenesis[J]. Genome Biology, 2024, 25(1): 193.

[8] Zhang H, Shen X, Sun S, et al. Integrated transcriptome and proteome analysis provides new insights into camptothecin biosynthesis and regulation in Camptotheca acuminata[J]. Physiologia Plantarum, 2023: e13916.

往期精彩：

干货指南｜什么！RNA质检又不合格！转录组测序取样建议

文献解读｜首个反刍动物绵羊T2T参考基因组发布

IF=150+ | 贝纳基因王牌产品T2T基因组项目文章合集

文章解读｜异源多倍体阿拉比卡咖啡的基因组和群体基因组揭示了现代咖啡品种的多样化历史

ONT测序质量值重大突破 | 中位值达Q28（准确性达到99.84%）

项目文章｜青岛百合首个完整线粒体基因组揭示了其独特的多染色体结构

Nature正刊！十二倍体甘蔗基因组发布！

国自然热点｜图形泛基因组构建方法

国自然热点｜动植物泛基因组研究思路

国自然热点｜泛基因组研究基础篇

NG高分文献解读|狗尾草属泛基因组的详细解析

NG详解｜泛基因组分析为深入了解柑橘进化和果实柠檬酸积累的关键基因提供线索

武汉贝纳科技有限公司(下称"贝纳基因")成立于2012年，总部位于武汉高农生物园，是一家专注于Nanopore测序、二代测序和生物信息分析技术开发和应用的国家高新技术企业。核心团队拥有多年高通量测序、Nanopore测序和生物信息分析经验，在Nature和Science系列杂志发表多篇学术论文，博士、硕士学历员工占企业员工总数的72%。拥有自主测序平台（国内首批引进Nanopore PromethION平台）和专业的生物信息分析团队。

贝纳基因使用Nanopore平台完成全球第一个大型复杂植物基因组（菊花基因组）的组装和后续分析工作。提出并推动千种本草基因组计划，并构建药用植物基因组数据库，推动药材研究的发展。

贝纳基因使用Nanopore平台完成数千份细菌基因组、宏基因组测序和数据分析；完成数千份全长转录组和Direct转录组测序及分析。提出并推动基于Nanopore测序的万种微生物基因组完成图计划和十万人的Nanopore宏基因组研究计划。

贝纳基因开发了基于Nanopore平台的微生物检测体系，自主开发的数据库涵盖现已正式发表的所有微生物基因组，大型测序仪单机一次运行可以产生7.2T数据，小型便携式测序系统可用于临床检测和野外作业。

服务类型

网站：www.benagen.com

地址：武汉东湖新技术开发区高新大道888号高农生物园总部B区12C栋

电话：027-62435310

手机：15337161420

邮箱：service@benagen.com

贝纳课堂-Nanopore交流QQ群：992789813（本群已满）

贝纳课堂-Nanopore交流QQ群2：923119248

生物信息交流QQ群：198746977

客服QQ：3277498363

http://mp.weixin.qq.com/s?__biz=MzA3NDI2MzgzOQ==&mid=2650477950&idx=1&sn=79e60104cae7b56423a9da31cf4860e5

贝纳基因

贝纳基因拥有Nanopore测序平台，专业提供基因组、转录组、宏基因组、重测序、蛋白组和代谢组等服务。贝纳基因愿景是“多场景测序应用方案引领者”。

最新文章

项目文章｜ONT全长转录组+简单验证，牦牛生长发育机制研究轻松拿捏高分文章

品质性状研究利器：植物多组学解决方案

文献解读｜高质量现代大豆品种泛基因组和重测序揭示重要性状结构变异

Pore-C数据评估新方法与新指标：揭开多维基因组互作的奥秘

干货指南｜Hi-C辅助组装的实验分析全攻略

文献解读｜单倍型基因组和重测序揭示现代月季起源和育种历史

文献解读｜首个棉花T2T参考基因组揭示着丝粒进化和折叠胚胎形成的分子调控与演化机制

项目文章｜蘑菇病原真菌的基因组测序揭示其致病机制

项目文章｜转录组学和代谢组学联合揭示微塑料胁迫对葡萄生长的影响机制

干货指南｜Direct RNA测序m6A修饰结果一本通：结果解析，数据分析挖掘，实验验证

一文畅谈，何为“泛”基因组——泛基因组的样本选择

Science重磅：首个人类剪接体结构图谱揭示RNA剪接调控未解之谜

NG项目文章｜基因组所周永锋团队建立葡萄全基因组选择育种体系

干货指南｜参考基因组选择指南

CGM第449期：SynDiv：基于群体基因组的染色体共线性分析工具

一次测序，同时检测4种RNA修饰，贝纳基因SAR20 Direct RNA 测序强势上线

Plant Communications 项目文章 | 辣椒“遵辣1号”T2T基因组揭示转座子驱动的近着丝粒区域扩张和进化

干货指南｜基因组Survey分析全攻略

文献解读｜学龄前儿童肠道菌群与行为学之间的特异性关联

ACS高分项目文章｜山东大学发表黏细菌5-甲基吡嗪酮的生物合成及生理功能研究

干货指南｜一文教会你轻松掌握可变剪切结果的解读与运用

项目文章 | T2T项目文章再添佳作！河南中医药大学和山东省林草种质资源中心分别发表鲁山冬凌草、玫瑰T2T基因组研究成果

扬帆起航，共创未来——香港启航基因科技有限公司开业庆典圆满落幕

文献解读｜最全面的猪基因组结构变异图谱

干货指南｜什么！RNA质检又不合格！转录组测序取样建议

NC解读｜ONT和PacBio全长转录组测序揭示阿尔茨海默病模型中内嗅皮层的差异性剪接

基因科技新地标｜香港启航基因科技盛大开业，共绘基因科技蓝图！

文献解读｜现存和灭绝的兔耳袋狸基因组，改善了澳大利亚特有的有袋动物的保护工作

文献解读｜首个反刍动物绵羊T2T参考基因组发布

Nature子刊项目文章｜氧气通过维持EGLN1催化的IRF3脯氨酸羟化来增强抗病毒的先天免疫

Nature子刊项目文章｜T2T基因组及多组学分析阐明月季茶香的生物合成和释放机制

CGM第442期：鸡产蛋量性状的分子调控机制

风华正茂，锦绣河山｜贝纳基因国庆小长假放假通知

国产纳米孔你知道哪些？重磅综述:全球纳米孔测序发展十周年

突破性研究｜首个植物Nanopore全长全谱—228个辣椒全长转录组数据库

贝纳基因ONT超精度测序SAR Q20系列产品——SAR20 ONT重测序

贝纳基因ONT超精度测序SAR Q20系列产品——SAR20 ONT超长测序

CGM第438期：亚基因组间的同源置换对芸薹属多倍体作物驯化的贡献

贝纳基因ONT超高精度长读长测序SAR Q27系列产品—— SAR20宏基因组

喜报 | ONT宏基因组三连发！

贝纳基因ONT超高精度长读长测序SAR Q27系列产品——SAR25扩增子16S/18S/ITS

会议邀请 | CGM方法技术专题第二期

ONT宏基因组项目文章Microbiome | 揭示微生物宏代谢的确定性动态规律：一项对厌氧生物降解的多组学研究

开学季产品介绍——TAIL Iso-seq

贝纳基因ONT超精度测序SAR Q20系列产品——SAR20 全长lncRNA测序

开学季产品介绍——Nanopore全长转录组

贝纳基因ONT超精度测序SAR Q20系列产品——SAR20 全长定量转录组

花好月圆人团圆｜贝纳基因中秋节放假通知

开学季产品介绍——全长lncRNA测序

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉