作者:吴锋琦,麦迎晓,陈程杰,夏瑞。
当前,大多数生物的基因组测序和高质量组装已较易实现,但基因组注释中核心步骤之一,基因结构注释(gene structure annotation, GSA),仍存在着明显不完善。如图1,多数物种的基因结构注释BUSCO值明显偏低。
图1. 已发表有胚植物和脊椎动物基因组基因结构注释和组装的BUSCO完整度(基因组数据来源:Ensembl数据库)。
(a-b)已发表的108种有胚植物(a)和307种脊椎动物(b)基因组基因结构注释的BUSCO完整性。(c-d)已发表的108种有胚植物(c)和307种脊椎动物(d)基因组组装的BUSCO完整性。
基因结构注释是指确定基因在基因组序列中的位置,并准确定义基因外显子和内含子。准确的GSA对基因组学和遗传学研究至关重要,而低质量的GSA会极大地阻碍下游研究,导致生物信息学分析和功能基因组学研究出现错误 [1-3]。尽管使用Apollo [4]和IGV-GSAman [5]等工具手动校正GSA是改善基因结构注释的有效方法,但该方式依赖于全面的转录组或蛋白质组数据,耗时耗力。现在仍缺少可对现存基因组GSA进行矫正优化的自动化流程或工具。
近日,华南农业大学夏瑞团队在国际知名期刊 Genome Biology 发表了题为SynGAP: a synteny-based toolkit for gene structure annotation polishing的研究论文。该研究开发了一种基于基因共线性进行物种基因组基因结构注释矫正的工具SynGAP(Synteny-based Gene structure Annotation Polisher)。该工具基于近缘物种基因共线性,去鉴定并矫正原始基因结构注释中的潜在错漏,实现基因结构注释的优化。
SynGAP的主要设计思想和流程
演化过程中,在具有共同祖先的近缘物种之间,染色体上同源基因存在保守排列的现象,被称为基因共线性(gene synteny)[6, 7]。近缘物种的基因共线性区块中,部分基因丢失了与其对应的共线性基因,进而在区块内形成共线性对的间隔(gap,图2a)。共线性基因的缺失,可能由基因组序列的变化引起的,同时还有可能是错误注释或缺失的基因模型(mis-annotated or absent gene models,MAGs)导致的(图2a)。基于后一种可能性,可以通过gap内的基因同源比对预测,去鉴定并矫正原始GSA中的潜在遗漏和错误。
具体流程如图1a所示:以SynGAP dual为例,通过两物种的共线性分析,检测出共线性区块中共线性对的空缺位置(gap区域)。随后进行双向的同源比对以实现对gap内潜在注释错漏的初步鉴定与矫正。再通过去冗余、可靠性指标(R value)计算筛选、参考注释质量分级等步骤对初步矫正结果进行质控,最终获得两物种的高质量矫正注释,并且实现对gap的填补。
图2. SynGAP基因结构注释矫正的设计逻辑与流程。
(a)SynGAP dual运行流程。灰色区域代表由基因模型注释错误或缺失(MAGs)引起的共线性空缺(gap)。蓝色实线代表共线性基因对,蓝色方块代表共线性基因。浅红色方块代表缺失共线性的基因,白底黑框方块和灰底黑框方块分别代表可能缺失注释或注释错误的基因。红底黑框方块代表经过矫正的基因结构注释,而红线实线表示由SynGAP寻回的共线性基因对。(b)SynGAP master运行流程。(c)SynGAP triple运行流程。
SynGAP基因结构注释矫正效果评估
通过多个植物、动物物种组合的测试与统计,明确SynGAP dual可以对被测试基因组GSA进行优化——增加优质新基因注释以及共线性基因对,同时提高了BUSCO完整度(图3a-b,d-e)。使用SynGAP triple可以进一步提升优化效果(图3c,f)。对于原始基因组GSA质量较差的物种,如红毛丹(Nephelium lappaceum,Nla)和红腹锦鸡(Chrysolophus pictus,Cpi),优化效果尤为显著。因此,SynGAP可以应用于动植物基因组的GSA矫正优化。即便是对于模式动植物,例如拟南芥(Arabidopsis thaliana)、水稻(Oryza sativa)、番茄(Solanum lycopersicum)、猪(Sus scrofa)等,SynGAP都能矫正得到具有潜在重要生物学功能(如抗病、生殖发育调控等)的GSA(图4)。
图3. SynGAP基因结构注释矫正效果评价。
(a, d)用于SynGAP效果评估的物种系统发育树(a:植物;d:动物)。(b, e)不同物种组合中SynGAP dual矫正得到的基因结构注释和同源基因对数量以及BUSCO完整度(b:植物;e:动物)。物种对后面深浅不同的红色背景表示物种组合的亲缘远近,较深的颜色表示亲缘较近。(c, f)不同物种组合中SynGAP triple矫正得到的基因结构注释数量以及BUSCO完整度(c:植物;f:动物)。
图4. SynGAP在不同物种中的基因结构注释矫正实例。
(a)拟南芥(Arabidopsis thaliana)。(b)水稻(Oryza sativa)。(c)番茄(Solanum lycopersicum)。(d)辣椒(Capsicum annuum)。(e)猪(Sus scrofa)。(f)牛(Bos taurus)。红色基因模型是由SynGAP矫正得到。蓝色基因模型和蓝色虚线框分别表示错误的原基因模型和缺失的基因模型。
SynGAP支持跨物种基因差异表达分析
除了基因结构注释矫正功能模块外,SynGAP还包含了一套基因物种比较转录组分析流程(包含 genepair 和evi 模块,图5a)。通过该流程可实现近缘物种间的准确基因配对,并结合转录组数据完成跨物种时序性转录组分析,高效地筛选鉴定候选关键差异表达基因。其中设计了 EVI 这一基因差异表达指标,可同时体现物种间对应基因的表达水平差异、表达量倍数差异以及表达模式变化差异(图5b)。
图5. SynGAP跨物种基因差异表达分析流程。
(a)SynGAP genepair 和 evi 的分析流程。(b)EVI 计算公式。expA 和 expB表示跨物种基因对(基因A和基因B)的时序性表达水平。¯expA 和¯expB 是基因A和基因B在时序中的平均表达水平(低于0.1的表达值设置为0)。ML、FC和PCC分别代表基因对的最大表达水平、表达倍数变化和表达模式相关性。系数a、b和c默认设置为1、1和4。
基因对的EVI值越高,两个同源基因的差异表达就越显著。经测试,EVI可以作为鉴定控制特定性状或发育过程(如花色素苷合成、辣椒素合成、内果皮木质化和大脑体积增大)的候选关键基因的有效指标(图6)。
图6. SynGAP跨物种基因差异表达分析实例。
(a, c, e, g)对基因对的 EVI 进行排序。红色虚线表示SynGAP自动生成的阈值,EVI超过阈值的基因对被认为表现出显著的差异表达。a:KID (Malus domestica c.v. Kidd's D-8)与BLO(M. domestica c.v. Blondee);c:Can(C. annuum)与Sly(S. lycopersicum);e:Ppe(Prunus persica)与Mdo(M. domestica);g:Hsa(Homo sapiens)与Ggo(Gorilla gorilla)。(b, d, f, h)基于EVI的GSEA富集分析。b:KID 与BLO;d:Can与Sly;f:Ppe与Mdo;h:Hsa与Ggo。
SynGAP为跨平台命令行软件,可以在多个操作系统下运行。软件可在https://github.com/yanyew/SynGAP 免费下载。使用手册在https://www.yuque.com/yanyew/gc786d进行查阅。
本论文以华南农业大学为第一完成单位,华南农业大学园艺学院夏瑞教授、陈程杰博士(现中国热带农业科学院品资所)为共同通讯作者。博士研究生吴锋琦为该论文第一作者。博士研究生麦迎晓参与了该论文的软件功能设计。该研究得到国家自然科学基金、广东省重点研发项目等资助。
参考文献:
1. Zhu Z, Sun B, Cai W, Zhou X, Mao Y, Chen C, et al. Natural variations in the MYB transcription factor MYB31 determine the evolution of extremely pungent peppers. New Phytol. 2019;223(2):922-38.
2. Jiang S, Lv F, Gao L, Gu J, Yang R, Li S, et al. Novel R2R3-MYB Transcription Factor LiMYB75 Enhances Leaf Callus Regeneration Efficiency in Lagerstroemia indica. Forests. 2023;14(3):517.
3. Nie B, Chen X, Hou Z, Li C, Sun W, Ji J, et al. Haplotype-phased genome revealed the butylphthalide biosynthesis and hybrid origin of Ligusticum chuanxiong. bioRxiv. 2023:2023.06. 13.544868.
4. Lewis SE, Searle S, Harris N, Gibson M, Iyer V, Richter J, et al. Apollo: a sequence annotation editor. Genome Biol. 2002;3:1-14.
5. Chen C, Li J, Feng J, Liu B, Feng L, Yu X, et al. sRNAanno—a database repository of uniformly annotated small RNAs in plants. Hort Res. 2021;8.
6. Coghlan A, Eichler EE, Oliver SG, Paterson AH, Stein L. Chromosome evolution in eukaryotes: a multi-kingdom perspective. Trends Genet. 2005;21(12):673-82.
7. Tang H, Krishnakumar V, Zeng X, Xu Z, Taranto A, Lomas JS, et al. JCVI: A versatile toolkit for comparative genomics analysis. iMeta. 2024:e211.
Genome Biology
doi:10.1186/s13059-024-03359-8
2023 Journal Metrics
Citation Impact
2023 IF:10.1
2023 下载量:6,688,476 Altmetric 提及:12,515
投稿到初审意见:22天(中值)
基因和遗传学 | JCR Q1
BMC旗舰刊Genome Biology 是基因组生物学中排名最高的开放获取期刊, 致力于以基因组和后基因组为对象,研究生物学和生物医学各个领域的重大研究突破。
点击“阅读原文”阅读英文原文
SynGAP: a synteny-based toolkit for gene structure annotation polishing
BMC是施普林格∙自然旗下机构。作为开放获取出版先锋,BMC不断推出一系列高质量的同行评议期刊,包括BMC Biology 、BMC Medicine等涵盖范围较广的期刊,以及Malaria Journal、Microbiome和BMC系列期刊等专门刊物。BMC以“科研永不止步”为信条,致力于不断创新,以更好地满足作者群体的需要,确保所发表论文的完整性,并积极推广开放研究。
点个“在看”,下次更新不错过⇣⇣