基因组测序已成为生物学家的一项常规任务,但基因结构注释的挑战仍然存在,阻碍了准确的基因组和遗传学研究。
2024年8月,华南农业大学夏瑞及陈程杰共同通讯在Genome Biology 在线发表题为 SynGAP: a synteny-based toolkit for gene structure annotation polishing 的研究论文,该研究提出了一个生物信息学工具包SynGAP (syntenybased Gene structure Annotation Polisher),它利用基因共线性信息来完成基因组基因结构注释的精确和自动优化。
SynGAP在提高基因结构注释质量和物种间基因整合性分析方面提供了卓越的能力。此外,作者还设计了一个表达变异指数,用于比较转录组学分析,以探索在系统发育相关物种中观察到的不同性状发育的候选基因。
测序和计算技术的进步,加上成本的降低,使得研究人员可以常规地对基因组进行测序,并获得高质量的感兴趣的组装。然而,基因组注释通常包括重复DNA序列的遮蔽、基因结构注释(GSA)和基因功能注释三个主要步骤,这仍然是生物学家面临的一个挑战,其中基因结构注释是最重要和最难的一步。基因结构注释是指确定基因在基因组序列中的位置,准确定义基因外显子和内含子。鉴于基因转录是时空依赖的,GSA可能非常复杂。由于剪接的选择性和起始和终止位点的选择性,单个基因可以转录成多个转录本。准确的GSA对于基因组学和遗传学研究是必不可少的,不合格的GSA会极大地阻碍下游研究,导致错误的生物信息学分析和错误的功能基因组学研究。
目前,已经开发了各种用于基因结构注释的通路和工作流程,通常将从头算或基于同源性的预测和转录组辅助注释相结合。这类通路的典型例子包括AUGUSTUS、miniprot、MAKER等。没有一个是优越的,导致GSA质量在不同的基因组组装之间存在很大的差异。这跟不上基因组组装质量的显著提高,这要归功于第三代长读测序技术的使用。尽管使用Apollo和IGV-GSAman等工具包手动校正GSA似乎是提高GSA的有效方法,但它依赖于全面的转录组或蛋白质组数据,并且非常耗时,特别是在泛基因组项目中。
在进化过程中,染色体上的基因顺序在来自共同祖先物种的亲缘物种中保持不变。这种保存在不同物种染色体上的基因共定位,被称为基因共质,为染色体的物种间进化关系和物种内基因组变化(如基因组改组事件的数量和位置)提供了见解。一般来说,两个物种的亲缘关系越近,它们的基因合型程度越高。因此,基因synteny常用于比较基因组学和转录组学分析,以鉴定同源基因组块和绘制物种间的同源基因图谱。
由于共线性关系反映了直系同源基因的保守排列,因此非常适用于不同物种间基因组区域比对基因的比较分析。通过使用MCScanX,JCVI和WGDI等工具进行共线性分析,可以很容易地识别出共线性基因组区域中的直系同源基因对或未配对基因。这些未配对的基因可能是基因组序列变化的结果,如基因的缺失或插入,或者是基因结构注释不完整或不准确的结果。如果是后者,共线性分析可以用于近缘物种基因结构注释的相互校正和补充。
基于这种情况,作者开发了SynGAP (基于共线性的基因结构注释优化)工具包,用于填补缺失的基因结构注释,并基于基因共线性校正相关物种中不准确的基因模型。该研究还通过改进基于共线性的直系同源基因对的鉴定,展示了SynGAP在比较转录组学分析中的应用。
Tropical Plants | 海南大学王华锋教授团队揭示城市管理规划对海南省海口市UGS土地利用变化的影响
About Tropical Plants
期刊官网:
maxapress.com/tp
投稿链接:
mc03.manuscriptcentral.com/trop
关注植物科学研究
点击“阅读原文”查看文章原文