Plant Com | 中国医学科学院药用植物研究所发表植物线粒体基因组注释工具PMGA

文摘   2024-11-18 07:31   上海  



Abstract

摘 要

2024年11月9日,中国医学科学院北京协和医学院药用植物研究所刘昶课题组团队在植物线粒体基因组研究领域获新进展,相关成果以PMGA: A Plant Mitochondrial Genome Annotator为题,发表在Plant Communications

https://doi.org/10.1016/j.xplc.2024.101191




研究背景

 Background

线粒体是植物细胞中的关键细胞器,其DNA具备在不依赖于细胞核基因组的条件下自主复制的能力,这一过程定义了植物线粒体基因组(PMG, Plant Mitochondrial Genomes)。近期,mitoTALENs编辑技术的研究进展显著推动了植物线粒体基因组的靶向修饰技术,从而使得对线粒体基因功能的表征以及预期表型的实现成为可能。植物线粒体基因组的精确注释是开展线粒体基础与应用研究的重要前提,它能为解析细胞核与线粒体之间的相互作用、研究植物进化过程以及开发植物雄性不育系等领域提供极具价值的资源。
在过去三年中,大量的植物线粒体基因组被组装和报道。在这些研究中,植物线粒体基因组注释工具存在若干限制:
1)它们无法同时注释多个染色体/contigs,导致需要手动整合各染色体或contigs的注释结果,这一过程繁琐且易出错;
2)它们常常未能正确注释某些基因或外显子,或者错误地注释剪接位点;
3)它们无法注释高级特征,例如RNA编辑位点和线粒体质体DNA(MTPTs)。


研究内容

Contents

为了解决这些问题,刘昶课题组开发了植物线粒体基因组注释工具PMGA(http://www.1kmpg.cn/pmga/)。研究团队首先构建了三个参考数据集;其次,集成了第三方工具以注释植物线粒体基因组的基础和高级特征。在构建了这三个数据集后,研究团队开发了两个功能模块来注释植物线粒体基因组。模块1注释了基因组基础特征,包括蛋白编码基因(PCGs)、RNA基因、线粒体质体基因(MTPT基因)和重复序列;模块2注释了RNA编辑位点。

PMGA的架构主要包括输入、数据集、分析模块和输出。

1、输入。PMGA的输入为FASTA格式的完整线粒体基因组序列,可以允许输入是一条或多条序列(同一个个体)。多个序列会被连接成一个序列进行注释。

2、数据集。PMGA包含三个内部数据集:
1)   29 Mitogenomes:使用RNA-seq数据精确校正的29个代表性的被子植物线粒体基因序列。
2)   29 Mitogenomes & Plastomes:在1)的基础上,添加了来自CPGAVAS2数据集中的叶绿体基因参考序列。

3)   319 Mitogenomes:包含319个植物线粒体基因组的参考基因序列,仅基于多重序列比对校正。

3、分析模块。PMGA有两个模块。模块1包括四个子管道(SP),分别注释PCGs(SP1)、MTPT基因(SP2)、rRNA和tRNA基因(SP3)以及重复序列(SP4)。在SP1中,PMGA调用MAKER工具,根据数据集1或2中的序列识别所有PCGs的外显子,由用户指定。在SP2中,PMGA调用CPGAVAS2工具识别MTPT基因。在SP3中,PMGA调用BLASTn工具识别rRNA,使用ARAGORN和tRNAscan-SE工具识别tRNA基因。在SP4中,使用MISA、TRF和Vmatch工具识别重复序列。模块2是通过调用Deepred-mt深度学习算法来预测RNA编辑位点。

4、输出。模块1有五个输出文件:1)以GFF3格式的注释结果;2)以GenBank格式的注释结果;3)基因组图谱;4)Five-column特征表;5)发现的简单序列重复(SSR)、串联重复和分散重复序列的结果。模块2的输出包含一个文本文件展示RNA编辑位点。此外,PMGA还生成了一系列文件,包含注释基因的所有序列,包括PCGs的核苷酸和蛋白质序列、内含子序列以及tRNA和rRNA基因序列等。

PMGA可在线访问:http://www.1kmpg.cn/pmga/

源代码以singularity容器的形式发布于Figshare: https://figshare.com/articles/software/Source_code_of_PMGA/27201798

本项工作,中国医学科学院北京协和医学院药用植物研究所为第一通讯单位,中国医学科学院药用植物研究所博士研究生李京凌为论文第一作者,药用植物研究所生信中心副主任刘昶研究员为通讯作者。药用植物研究所陈海梅副研究员,博士研究生倪阳,硕士研究生陆骞淇参与了此项研究。该研究得到了中国医学科学院医学与健康科技创新工程(2021-I2M-1-022)的资助。

长按或扫描二维码

订阅 Molecular Plant 和 Plant  Communications

的最新文章邮件推送

Mol Plant

微信号|Mol Plant2019

www.cell.com/molecular-plant/home



MPlant植物科学
致力于报道植物科学领域最新科研进展
 最新文章