Plant Cell Reports |翼核果完整线粒体基因组组装和特征

文摘   科学   2024-09-25 08:47   湖南  

摘要

鼠李科植物翼核果(Ventilag leiocarpa)因其根部的药用特性而经常用于传统医药中。在本研究中,我们使用BGI短读长Nanopore长读长成功组装了翼核果的线粒体基因组。该线粒体基因组的总长度为331,839 bp。共注释有36个独特的蛋白质编码基因、16个tRNA和3个rRNA基因。此外,我们通过利用长读长作图、PCR扩增和Sanger测序证实了分支结构的存在。具体表现为:ctg1可以形成单个环状分子或与ctg4结合形成线性分子。同样,ctg2可以形成单个环状分子,或者可以与ctg4连接形成线性分子。随后,通过对线粒体基因组和叶绿体基因组序列进行比较分析,共鉴定了10个线粒体质体序列(MTPT),其中包括两个完整的蛋白质编码基因和五个tRNA基因。利用Deepred-mt共鉴定545个RNA 编辑位点,通过PCR扩增和Sanger测序,证实RNA编辑在atp9-223和rps10-391位点产生终止密码子,nad4L-2位点产生起始密码子。本研究报道了翼核果线粒体基因组的复杂结构和RNA编辑事件,这将为线粒体基因表达的研究提供有价值的信息。

Assembly and characterization of the complete mitochondrial genome 
of Ventilago leiocarpa
时间:2024 杂志:Plant Cell Reports 影响因子:5.3 分区:1/2区

背景

翼核果(Ventilago leiocarpa Benth)是一种攀缘灌木,属于鼠李科和翼核果属。这种植物的根被用作改善循环系统的良药。该物种主要分布在中国南部及周边国家。从翼核果中分离出了一系列化合物,如蒽醌类、萘醌类和三萜类化合物。药理研究表明,这些化合物具有作为肝脏保护和抗炎活性成分的潜力。然而,关于翼核果的遗传学研究很少。目前只报道了其叶绿体基因组(cp-genome)序列,但其核基因组和线粒体基因组仍然未知。研究细胞器基因组有助于了解翼核果属(Ventilago)物种的进化和分类。

植物线粒体通过氧化磷酸化合成ATP为植物生命提供能量。此外,线粒体是各种合成代谢和分解代谢过程不可或缺的一部分。植物线粒体基因组大小变幅较大,结构多样性。线粒体基因组大量的重复序列介导的基因重组,可能会导致同一物种内初级构象和重组介导的次级构象之间的相互转换。RNA编辑是一种重要的转录后修饰过程,可以改变转录序列并调节基因表达。在植物线粒体中,各种被子植物的线粒体基因组和转录组数据的分析已经鉴定出数以万计的胞嘧啶(C)转化为尿嘧啶(U)的RNA编辑位点。这些编辑位点在不同基因和物种之间分布不均匀,主要位于编码区的非同义位点,导致氨基酸变化。非同义编辑位点高度保守且高效,表明它们在维持蛋白质功能中发挥着至关重要的作用。同时RNA编辑可以增加编码蛋白质的疏水性并影响其结构和功能稳定性。鉴定RNA编辑事件对研究被子植物线粒体基因表达和蛋白质功能起着关键作用   

材料和方法

1、DNA提取和测序:使用CTAB法提取翼核果鲜叶DNA,并使用琼脂糖凝胶电泳和Nanodrop2000评估DNA的完整性和浓度。DNA样本分为两部分:一部分用于构建文库,在DNBSEQ-T7平台测序,另一部分使用Covarisg-TUBE片段化成平均大小为8 kb的片段。使用SQK-LSK109连接测序试剂盒(Oxford Nanopore,Oxford,UK)构建文库。并在Nanopore平台(Oxford Nanopore,Oxford,UK)上进行测序。

2、线粒体基因组组装和注释:使用Flye软件和基于Nanopore长读长的默认参数初步组装翼核果线粒体基因组,并获得了图形线粒体基因组。随后利用makeblastdb为Flye组装的序列构建数据库,然后使用鹅掌楸(NC_021152.1)的保守线粒体基因作为参考序列来识别含有保守线粒体基因的重叠群,所有潜在的线粒体重叠群均在此过程被鉴定。将Nanopore长读段和BGI短读段映射到选定的线粒体重叠群,随使用BWA和 SAMTools保留所有映射的读段。最后,利用Unicycler在默认参数下将BGI短读长和Nanopore长读长组合起来进行混合组装。为了验证分支基因组结构,从每个分支节点两侧提取了2,000 bp的序列。每个节点有两个序列对应于两个分支。利用BLAST程序将这些序列与Nanopore长读数进行比对。如果一个读数在分支节点两侧的跨度至少达到 1000 bp,则该读数被认为支持一条路径的存在。对支持每条分支路径的读数进行计数。   

使用拟南芥(NC_037304.1)、北美鹅掌楸(NC_021152.1)和枣(NC_029809.1)线粒体基因组的蛋白质编码基因序列作为参考序列进行线粒体基因组注释。Geseq网站对翼核果的线粒体基因组进行注释。使用tRNAscan-SE软件默认参数对tRNA进行注释, BLASTn软件对rRNA进行注释。最后通过Apollo软件手动矫正注释结果。

3、密码子使用偏好性(RSCU)和重复序列分析:在翼核果线粒体基因组序列中鉴定出三种类型的重复序列:简单序列重复(SSR)、串联重复和分散重复。MISA软件识别SSR、 Tandem Repeats Finder软件来识别串联重复、REPuter网站使用默认设置来识别分散的重复序列。利用PhyloSuite工具中的extractor软件包提取了线粒体基因组的蛋白质编码序列。MEGA分析这些蛋白编码基因的密码子使用偏好并计算了RSCU值。

4、线粒体质体序列(MTPTs)的鉴定:为了鉴定线粒体质粒序列(MTPTs),首先利用GetOrganelle软件组装了翼核果的叶绿体基因组(cp-genome),然后使用CPGAVAS2以默认参数注释了cp-genome。通过BLASTn软件对翼核果的线粒体基因组和叶绿体基因组进行了同源片段分析,TBtools软件中的Circos软件包对结果进行可视化。为验证MTPTs的存在,提取了线粒体序列及其侧翼序列,将其作为参考序列,通过BWA软件将长读数映射到这些参考序列。映射结果由Tablet软件可视化。

5、系统发育分析:本研究从NCBI RefSe数据库下载了20个蔷薇目(Rosales)物种的线粒体基因组序列。同时还下载了两种壳斗科(Fagaceae)物种的线粒体基因组序列作为外群。Geseq网站重新注释了这些基因组,并使用PhyloSuite软件中的Extracter软件包提取了这些基因组的共享蛋白质基因序列。通过MAFFT工具对这些共享蛋白质基因的氨基酸序列进行多重序列比对。利用PhyloSuite软件中的Concatenate Sequence将这些比对序列连接起来。然后,使用IQ-TREE软件构建基于最大似然(ML)的系统发育分析,并根据贝叶斯标准评分选择HIVw+F+I+G4模型最后,通过ITOL网站将系统发育分析的结果可视化。   

6、共线性析:利用BLASTn工具对线粒体基因组进行成对比对分析,以500 bp的最小共线块长度为截止值,确定了线粒体基因组之间的同源序列。这些同源序列通过MCscanX软件可视化,生成多个共线性图。

7、RNA编辑位点鉴定:使用Deepred-mt工具。从线粒体基因组中提取了所有线粒体蛋白编码基因进行预测,并选择了概率值大于0.9的结果。使用PCR扩增法对RNA编辑位点进行验证。

主要研究结果

1、翼核果线粒体基因组组装结果:为了组装翼核果的线粒体基因组,Oxford Nanopore平台生成的约11.1 Gb长读长数据,N50读长为19,598 bp。BGI DNBSEQ-T7平台生成的12.9 Gb短读长,读长为150 bp。基于长读和短读的混合策略进行组装,获得了四个重叠群 (ctgs)。如图1A所示,这些重叠群包含在两个独立的亚单元中。一种呈现具有分支的封闭结构,另一种呈现经典的圆形结构。ctg1可以形成单个环状分子或与ctg4结合形成线性分子。ctg2可以形成单个环状分子,或者可以与ctg4连接形成线性分子。针对这些节点的连接区域的设计引物用于PCR扩增。结果表明,扩增产物与预期相符(图1B)。Sanger测序结果表明,它们与不同连接方式的组装序列一致。这一证据表明翼核果线粒体基因组并不遵循经典的圆形结构,而是包含多个单元结构。   

图1翼核果线粒体基因组组装结构图

为了更方便地描述基因组特征,本研究根据长读长数据将其组装处理成三个重叠群,即ctg1-ctg4、ctg2和ctg3(图 2)。并通过读数映射验证了组装质量。翼核果线粒体基因组序列的总长度为331,839 bp,其中ctg1–ctg4、ctg2和ctg3分别为161,501 bp、89,899 bp和80,439 bp。

   

图2翼核果线粒体基因组图谱

2、线粒体基因组特征:翼核果线粒体基因组中有36个独特的蛋白质编码基因(PCG)、16个tRNA基因和3个rRNA 基因(表 1)。通常,被子植物线粒体基因组编码24个核心 PCG和不同数量的可变 PCG。翼核果线粒体基因组包含所有24个核心PCG和12个可变 PCG。

不同物种的密码子使用差异很大。为了探索翼核果线粒体基因组的密码子使用偏好,我们计算了相对同义密码子使用率(RSCU)。RSCU值大于1的密码子表明在使用方面对其相应氨基酸的偏好。除起始密码子AUG和色氨酸(UGG)外,其他氨基酸均由多个密码子编码,且其中一个密码子的RSCU值比一个密码子更显着。这表明蛋白质编码基因在翼核果线粒体基因组中也具有一般密码子使用偏好(图 3)。例如,丙氨酸对GCU的使用偏好很高,在所有氨基酸中RSCU值最高,为1.56。

表1翼核果线粒体基因组基因信息
         

 

   
图3翼核果线粒体基因组中的相对同义密码子使用率(RSCU)
3、重复序列分析:重复序列广泛分布在真核生物基因组中,经常用于分子标记开发和物种进化研究。翼核果线粒体基因组中的存在三种类型的重复:简单序列重复(SSR)、串联重复和分散重复。SSR是由长度为1-6个碱基对(bp) 的重复单元组成的序列。分析显示,翼核果线粒体基因组中有125个SSR,其中ctg1-ctg4、ctg2和ctg3中分别有53、48和24个SSR(图 4 A)。

串联重复是长度范围为1至200 bp的重复单元序列,翼核果线粒体基因组共鉴定出16个串联重复序列(图 4B),其中ctg1-ctg4中有4个长度为18至33bp的串联重复序列,ctg2中有3个长度为21至26bp的串联重复序列 ctg3中有9个串联重复序列,长度范围为15至39 bp。

分散重复可分为四种类型:正向重复、反向重复、互补重复和回文重复。本研究在ctg1-ctg4中鉴定出45个重复,包括34个回文重复和11个正向重复(图 4B,)。最长的重复单元为2065 bp,位于基因间区域。ctg2和ctg3中也鉴定到回文重复和正向重复。此外,ctg3还包含一个长度33 bp的反向重复序列。   

图4翼核线粒体基因组重复序列分布

4、MTPT序列鉴定:利用BLASTn工具比对线粒体基因组与质粒基因组之间的同源序列,结果在翼核果中共检测到10个MTPTs,分布在ctg1-ctg4和ctg3中(图5A)。在映射到线粒体基因组的有两种类型的长读数。第一类读数横跨整个MTPT区域,包括mtDNA-MTPT-mtDNA区域。这类读数支持MTPT序列是线粒体基因组的一部分。第二类读数数量较多,只包含MTPT序列,被认为属于叶绿体基因组(cpgenome)序列。因此,在翼核果线粒体基因组中发现的10个MTPT都符合这些标准(图5B)。

这些MTPT的长度从76到3412 bp不等,总长度为9743 bp,占线粒体基因组的2.94%。最长的MTPT(MTPT1)位于ctg1-ctg4的115,760 bp至112,364 bp之间,其中包含完整的 psaB基因以及部分rps14和psaA基因序列。第二长的MTPT(MTPT5)是从25,462 bp到28,291 bp的ctg3,它包含rpoB基因的部分序列。第三长的 MTPT(MTPT6)位于ctg3的31,744 bp至34,497 bp之间,包含psaD基因和psbC基因的部分序列。其余的MTPT序列较短,长度不足200 bp。   

图5翼核果线粒体基因组MTPT序列鉴定

5、系统发育分析:为了探索翼核果的进化关系,本研究构建了翼核果和20个蔷薇目物种的线粒体基因组的系统发育树(图 6)。这些物种涉及五个科:蔷薇科、大麻科、桑科、榆科和鼠李科,此外,还选择了两个壳斗科物种作为外群。基于这些物种的25个共有蛋白质编码基因的系统进化分析表明,同科的物种聚集在一起。在蔷薇科的14个物种中,蔷薇亚科的玫瑰(Rosa rugosa)、月季花(Rosa chinensis)、滇藏草莓(Fragaria tibetica)、择捉草莓(Fragaria iturupensis)和掌叶覆盆子(Rubus chingii)形成了一个聚类组,其他9个杏亚科的物种被聚为一组。此外,根据现有的线粒体基因组序列分析表明,翼核果和枣(Ziziphus jujuba)的进化关系较近。

   

图6翼核果和20种蔷薇目物种的系统发育分析

6、线粒体基因组共线性分析:不同植物的线粒体基因组在结构、基因含量和基因顺序方面存在很大差异。同源性是指物种间同源序列的分布关系,通常用于阐明物种的进化关系。为了评估蔷薇科植物线粒体基因组的同源性,本研究从系统发育树中选择了代表一个科的一个物种进行共线性分析(图7)。线粒体基因组序列可分为三个区域,即种间同源共线性区域、种间同源序列倒位区域和各物种特有区域。在这些物种中发现了许多同源区域。翼核果线粒体基因组与近缘物种的基因组经历了多次重排,其基因组结构进化极不保守。

图7翼核果线粒体基因组与5个蔷薇科物种的共线性比对

7、RNA编辑位点特征:RNA编辑位点主要集中在翼核果线粒体基因组的蛋白质编码基因上。本研究共检测到545个RNA编辑位点。这些位点涉及36个编码蛋白质的基因(图 8)。其中,nad4的RNA编辑位点最多,达44个,其次是nad7、ccmB、ccmC、mttB、nad5基因,均超过30个。   

图8翼核果线粒体基因组RNA编辑位点在不同基因中的分布

值得注意的是,有三个位点在atp9-223、rpl16-37和rps10-391基因中产生了终止密码子。还有一个位点在nad4L-2 产生了起始密码子。为了进一步验证这些特殊编辑位点的存在,本研究通过PCR扩增了编辑前的DNA序列和编辑后的cDNA序列,并进行Sanger 测序证明了这些编辑位点的存在(图9)。

图9翼核果线粒体基因组RNA编辑位点验证

总结

本研究首次成功地完成了翼核果线粒体基因组的组装和注释。利用混合策略,结合长短读数,大大提高了基因组组装和后续结构分析的可靠性。通过应用长读数映射、PCR扩增和Sanger测序,本研究证明了线粒体基因组的分枝结构。此外,通过比较基因组分析证实了线粒体基因组和叶绿体基因组之间存在基因转移。并预测到线粒体基因中有545个RNA编辑位点。随后,我们通过PCR扩增和Sanger测序验证了导致起始密码子和终止密码子产生的RNA编辑事件。这些信息对于翼核果线粒体基因的功能研究非常有价值。   


温馨说明

 1、惠通生物针对叶绿体、线粒体测序项目组装结果准确,可以提供定制化高级分析,欢迎联系我们获取小基因组文章专业解决方案,助力文章发表。

 2、惠通生物小基因组服务电话:18926264030



欢迎关注物种分类及进化研究



  深圳市惠通生物科技有限公司,成立于2016年,技术成员在生物信息方面均有10年以上分析经验,在小基因组项目(叶绿体、线粒体、病毒)上形成强劲技术优势并可提供定制化高级分析内容。成立至今已服务客户单位200余家包括中国科学院植物研究所、中国科学院昆明植物研究所、华南农业大学、浙江大学、中国人民解放军疾病预防控制中心、武汉水生生物研究所等科研单位。合作老师发表小基因组SCI文章逾200篇,发表在《BMC Plant Biology》、forests》、《 Frontiers in Plant Science》、《Frontiers in Microbiologymolecules》、《International Journal of Biological Macromolecules》、《Plant Genome》、《International Journal of Molecular Sciences》、《Infectious Diseases of Poverty》、《Insect Science》《genes》、《frontiers in Veterinary Science》《Frontiers in Immunology》等杂志。

物种分类及进化研究
《物种分类及进化研究》专注于物种分类及进化研究,主要研究技术为植物叶绿体基因组测序,植物线粒体基因测序,动物线粒体基因组测序,真菌线粒体基因组测序,真菌基因组测序。我们会定期通过网络,汇总物种分类及进化相关研究进展,解读相关研究论文。
 最新文章