IF 5.6|米仔兰线粒体基因组组装揭示其基因组结构和RNA编辑位点

文摘   2024-07-19 09:00   广东  

摘要

米仔兰原产于中国广东、广西和海南省,在中国古代一直被用作草药。在本研究中,我们组装并注释了米仔兰完整的线粒体基因组,其总长度为537,321 bp。通过PCR实验和Sanger测序验证了米仔兰线粒体基因组重组构象。鉴定并注释了线粒体基因组中的35个蛋白质编码基(PCG)、22个tRNA基因和3个rRNA基因。重复序列分析结果显示,米仔兰线粒体基因组中存在192个SSR、29对串联重复和333对分散重复。此外,本研究还分析了密码子使用情况和线粒体质体DNA(MTPT)。鉴定出米仔兰质体基因组与线粒体基因组间存在12个MTPT,合计长度为2,501 bp,占线粒体基因组的0.47%。此外,还预测了359个高置信度的C至U RNA编辑位点(PCG)。米仔兰与相关线粒体基因组之间存在广泛的基因组重排。基于线粒体PCG进行系统发育分析,阐明了米仔兰与其他被子植物的进化关系。

背景

米仔兰(Aglaia odorata Lour.)为楝科米仔兰属植物,原产于中国广东、广西、海南省及东南亚各国。中国古代以米仔兰为药用,用于治疗心脏病、跌打损伤、外伤发热等。现代药理研究表明,米仔兰具有抗癌、抗炎、抗菌、抗病毒等作用。尽管米仔兰具有较高的经济价值,但对其研究较少,目前对米仔兰的基因组信息仍较为缺乏。

线粒体在合成和转化各种细胞生理过程的能量方面发挥着关键作用,对植物的生长发育至关重要。它们通过磷酸化将生物质能转化为化学能,并参与细胞分裂、分化和凋亡等细胞过程。线粒体是独立于细胞核的独特细胞结构,拥有自己的基因组。这种遗传物质以单倍体、无性和母系方式遗传。虽然线粒体基因组与质体基因组一样,是母系遗传的,且包含的基因集较小,但这两个基因组之间存在明显的进化区别。与线粒体基因组相比,质体基因组相对紧凑,且高度保守。植物线粒体基因组的大小差异很大,不同物种的大小从60 kb到11 Mb以上不等,比质体基因组的范围要广得多。高等植物线粒体基因组表现出线性、环状、复杂的分支和网状结构,而大多数植物质体基因组具有环状结构。与核基因组相比,植物线粒体基因组往往表现出更高的突变率,这是由于缺乏DNA修复系统造成的。这种较高的突变率导致了线粒体基因组内的重排、重复以及亚基因组结构的产生。   


米仔兰线粒体基因组组装揭示其基因组结构和RNA编辑位点 

The complete mitochondrial genome of Aglaia odorata, insights into its genomic structure and RNA editing sites

时间:2024 杂志:

Frontiers in Plant Science

影响因子:4.1 分区:1/2区

材料和方法

1、植物采样、DNA提取和测序:米仔兰新鲜叶片采集于海南三亚,使用天根生物DNA试剂盒(北京)提取基因组DNA。文库构建采用NEBNext ®文库构建试剂盒,插入片段为350 bp。构建的DNA文库在武汉贝纳基因NovaSeq 6000平台上进行测序。为确保数据质量,采用Trimmomatic去除低质量序列,包括质量值(Q)小于或等于5的序列,占总碱基的50%以上,以及含有超过10%“N”碱基的序列。此外,用于Illumina测序的植物样本还进行了基于PromethION设备的Oxford Nanopore测序。

2、RNA提取和测序:使用高质量RNA提取试剂盒(TRIzol® Reagent, Thermo Fisher Scientific)从米仔兰的新鲜叶片中分离总RNA。使用随机引物将提取的RNA逆转录为cDNA,然后去除rRNA。将处理后的cDNA片段化并构建成平均长度为500 bp的文库。使用 Agilent 2100 Bioanalyze和NanoDrop分光光度计评估RNA的完整性和浓度。然后使用富集的lncRNA构建cDNA文库,随后在illumina HiSeq平台对该文库进行测序。

3、细胞器基因组组装:使用GetOrganelle工具对质体基因组的illumina短读长数据进行组装。GetOrganelle生成了两个完整的质体组序列,选择SSC区域与拟南芥(NC_000932.1)对齐方向相同的序列。对长读长测序数据进行了从头组装,Canu工具对长读长进行完善,并使用PMAT组装器和默认参数进行组装。利用BLASTn从组装序列中识别线粒体基因组草图,成功鉴定出六个线粒体重叠群。考虑到牛津纳米孔测序长读段准确度较低,我们进一步利用组装好的线粒体序列作为参考序列。通过BWA建立索引。随后使用'bwa mem'获取成功映射到参考序列的读段。minimap2对长读长数据进行索引和映射。利用Unicycler结合illumina短读长和纳米孔长读长进行混合组装。首先使用SPAdes组装映射的illumina短读长,然后使用Nanopore长读长通过minimap2鉴定组装中的重复序列区域。经过多次迭代和调整,确定了最佳kmer值为89。使用Bandage对 Unicycler 生成的GFA格式文件进行可视化。最终,由Unicycler生成了一个完整的环状基因组。   

4、线粒体基因组结构验证:采用PCR实验验证米仔兰线粒体基因组结构。设计了八个特定引物来验证PMAT组装结果的准确性。提取DNA,并使用Pro-Flex PCR系统进行扩增。PCR扩增产物经1%琼脂糖凝胶电泳检测,取单个亮条带进行Sanger测序。

5、线粒体基因组和质体基因组注释:使用CPGAVAS2对米仔兰的质体基因组进行注释。以已发表的米仔兰质体基因组(NC_048994.1)为参考基因组。使用CPGView进一步验证注释结果,以确保基因注释的准确性。我们利用IPMGA对米仔兰的线粒体基因组进行注释。选择IPMGA上的被子植物线粒体基因数据库。IPMGA以标准GenBank格式生成注释文件。tRNA注释使用tRNAscan-SE进行,rRNA注释通过BLASTn获得。为确保准确性,使用Apollo 对注释进行了手动编辑。最后,使用OGDRAW生成基因组图谱。

6重复序列分析:长串联重复序列通过Tandem Repeats Finder (TRF, https://tandem.bu.edu/trf/trf.html)检测。简单重复序列(SSR)通过在线网站MISA ( https://webblast.ipk-gatersleben.de/misa/ )进行识别,单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的最小数目参数分别设置为10、5、4、3、3 和 3。此外,正向、反向、回文和互补重复序列通过REPuter ( https://bibiserv.cebitec.uni-bielefeld.de/reputer/ ) 进行识别。重复元素的可视化是使用Circos完成的。

7、线粒体基因组密码子使用偏好性:利用PhyloSuite软件解析米仔兰线粒体基因组的GenBank格式文件,提取了蛋白质编码基因(PCG)。随后使用Mega 7.0软件对线粒体PCG中的密码子使用情况进行了分析,其中涉及计算相对同义密码子使用率(RSCU)。RSCU值为1表示对密码子使用的中性偏好,而RSCU值超过1表示密码子使用频率相对较高。   

8、线粒体质体序列(MTPT)鉴定:为了鉴定线粒体质体DNA (MTPT),利用BLASTn比较了米仔兰的质体基因组和线粒体基因组DNA。使用Circos包对BLASTn结果进行可视化。并通过GeSeq对鉴定出的MTPT进行了注释。

9、RNA编辑位点分析:采用两步法预测RNA编辑位点。首先,使用BWA软件默认参数将lncRNA-Seq reads映射到每个蛋白质编码基因(PCG)的编码序列(CDS)。随后,利用REDItools根据映射结果预测RNA编辑位点。预测标准如下:覆盖率超过30、频率大于或等于0.1、p值大于或等于0.05。之后,使用BWA软件默认参数iIllumina的DNA短读长与每个PCG的CDS比对。根据映射结果使用BCFtools预测基因组SNP,阈值设置为覆盖率大于30和频率小于或等于0.1。这些自然变异的异质性位点需要从RNA编辑位点中排除,最后在排除SNP位点后,lncRNA-seq映射中识别出的剩余位点才被认为是真正的RNA编辑位点。

为了确认预测的RNA编辑位点的准确性,进一步设计实验对这四个特异性位点进行验证。在编辑位点两侧设计引物,以基因组DNA(gDNA)和用随机引物逆转录RNA获得的cDNA为模板进行扩增。扩增产物随后进行Sanger测序。最后通过比对gDNA和cDNA产物的序列,判断RNA编辑事件的发生。

10、共线性分析:选择五个密切相关的物种:柑橘Citrus unshiu(NC_057142.1)、柚Citrus maxima(NC_057143.1)、甜橙Citrus sinensis(NC_037463.1)、红椿Toona ciliata(NC_065060.1)和香椿Toona sinensis(NC_065061.1)与米仔兰进行共线性分析。使用BLASTn程序根据序列相似性确定了共线区。仅保留长度超过1 kb的共线区段用于下游分析。TBtools可视化生成了多重共线性图。

11、系统发育分析:从GenBank数据库中检索了总共31个线粒体基因组,包括两个外群(头状笔花豆Stylosanthes capitata和大豆Glycine max)。这些线粒体基因组用于构建米仔兰的系统发育树。首先,使用 PhyloSuite在所分析的物种中识别和提取直系同源蛋白质编码基因(PCG)。然后使用MAFFT比对与这些PCG相对应的核苷酸序列。随后,将比对的序列连接起来以生成系统发育树构建的输入。使用IQ-TREE实施最大似然(ML)方法。利用贝叶斯信息准则(BIC)进行模型选择,结果表明最佳拟合模型GTR+F+R2,1,000次重复进行引导分析。最后,通过在线工具ITOL可视化和编辑生成的系统发育树。   

主要研究结果

1、米仔兰线粒体基因组结构:米仔兰线粒体基因组由六个不同的节点和八条边(路径)组成(图1A)。每个节点都表示一个组装的重叠群,显示了沿着连接的重叠区域。值得注意的是,重叠群5和重叠群6表现出不同的特征,表明其可能存在重复序列。这两个重复序列各自展示了四条不同的路径(p1–p4 和 p5–p8)。PCR实验的结果不仅验证了米仔兰线粒体基因组组装和八条路径的准确性,而且还帮助我们提出了四种可能的基因组配置。配置1呈现出一个主环状结构,包含所有六个重叠群(图 1C)。PCR实验显示了多种配置的可能性(图 1D-1F),在这里本研究使用配置1,一个代表完整线粒体基因组的主环,进行后续分析。

图1米仔兰线粒体基因组组装和PCR验证

2、米仔兰线粒体基因组的基因组成:米仔兰线粒体基因组全长534,321 bp,由35个不同的蛋白质编码基因(PCG)组成(图2A),包括5个ATP合酶基因(atp1、atp4、atp6、atp8 和atp9),4个细胞色素c生物合成基因(ccmB、ccmC、ccmFC和ccmFN),9个NADH脱氢酶基因(nad1、nad2、nad3、nad4、nad4L、nad5、nad6、nad7和nad9),3个细胞色素c氧化酶基因(cox1、cox2和cox3),1个转运膜蛋白基因(mttB),1个成熟酶基因(matR)和1个细胞色素b基因(cob),4个核糖体蛋白大亚基(rpl2、rpl5、rpl10和rpl16)、5个核糖体蛋白小亚基(rps1、rps3、rps4、rps10和rps12)以及两种琥珀酸脱氢酶(sdh3和sdh4)。在香蜂草线粒体基因组中,共有22个tRNA基因被注释,其中19个是独特的。其中11个tRNA基因是线粒体天然的。   

图2米仔兰线粒体基因组图谱及重复序列

3、重复元素鉴定:微卫星,也称为简单序列重复 (SSR),通常由真核生物基因组中长达6个碱基对的串联序列组成。在米仔兰的线粒体基因组中,共计192个SSR被鉴定。在这些SSR中,四聚体重复最为突出,占总数的 34.90%(67)。

此外,我们在米仔兰线粒体基因组中鉴定了总共333对分散重复序列,每对的长度等于或超过30个碱基对。该集合包括173对正向重复序列、146对回文重复序列和7对反向重复序列和互补重复序列。这些重复序列元素大多数长度小于200 bp,分散重复序列的数量显然超过了SSR和串联重复序列的数量。在米仔兰线粒体基因组中鉴定的仅有的两个长分散重复序列是contig5和contig6。这些分散重复序列总长度 30,754 bp,占整个米仔兰线粒体基因组的 5.76%。些分散的重复序列分布在线粒体基因组的各个区域,有效地增加了基因组的大小(图2B)。   

4、密码子使用分析:对PCG中的密码子使用情况进行了分析。线粒体蛋白质编码基因对特定密码子存在明显的偏好(图3A)。值得注意的是,起始密码子AUG (Met)和UGG (Trp)的RSCU值都等于1。此外,终止密码子UGA (End)、UAA (End)和UAG (End)的RSCU值分别记录为1.20、1.02和0.78。就特定密码子而言,GCU (Ala)、UAA (End)、CAU (His)、CCU (Pro) 和 UAU (Tyr) 是米仔兰PCGs中最常用的四个密码子。相反,GCG (Ala)、UAG (End)、CAC (His)和UAC (Tyr)被确定为使用率最低的四个密码子。图3A中的可视化表示强调了精氨酸 (Arg)、亮氨酸 (Leu) 和丝氨酸 (Ser) 密码子的普遍性,而蛋氨酸 (Met) 和色氨酸 (Trp) 密码子的出现率相对较低。

5、MTPT特征:在本研究中,我们对米仔兰的质体基因组进行了注释,并与其线粒体基因组进行了全局的比对。利用BLASTn程序,成功识别出总共12个同源序列,我们认为它们可能是这两个细胞器基因组之间发生的潜在MTPT。这12个MTPT加起来长度为2,501 bp,占线粒体基因组总大小的 0.47%。在这些MTPT中,MTPT12最长,跨越1,122 bp,而MTPT1最短,仅包含29 bp。随后,我们集中在对这些MTPT进行注释上,揭示了一个事实:每个MTPT都包含质体基因或基因片段(图3B),MTPT12含有一组质体基因,主要与光系统II蛋白复合物相关。此外,我们发现质体迁移过程中产生的各种基因片段。这些片段包括petG、ndhD、psbC和atpH等基因。这些基因片段在迁移过程中可能发生了序列丢失。

6、RNA编辑位点分析:我们在32个线粒体蛋白质编码基因中识别出总共427个高置信度的C-U RNA编辑位点(图3C)。这些编辑位点由lncRNA数据支持。ccmB拥有最多的RNA编辑位点,为45个,紧随其后的是mttB有41个RNA编辑位点。我们在ccmFC、atp9和rps10(其中CGA转换为UGA)三个基因中发现了C-U RNA编辑事件,这导致了终止密码子的提早产生。值得注意的是,RNA编辑在起始密码子的形成中也起着作用,例如基因nad4L的起始密码子就是通过RNA编辑生成的,将ACG密码子转换为AUG。   

为了评估该预测的精度,我们采用了PCR扩增和Snager测序来证实RNA编辑的发生每个RNA位点均经过成功验证,即nad4L-2、atp 9-223、ccmFC -1324和rps 10-412(图3D)。所有验证位点均包含C到U的替换(图3E)。

图3 (A)米仔兰线粒体基因组密码子使用情况及RSCU值(B)米仔兰线粒体基因组和叶绿体基因组MTPT结构示意图(C)米仔兰线粒体基因组RNA编辑位点特征(D)四个基因RNA编辑位点PCR扩增结果(E)四个基因RNA编辑位点gDNA和cDNA的Sanger测序结果   

7、系统发育分析:为了深入研究线粒体基因组内的重排和保守序列块,本研究利用BLASTn精确定位同源共线块。如图4A所示,比较米仔兰和红椿时,我们观察到一个较大的相邻共线块。此外,我们发现这两个线粒体基因组之间有三个长度超过10 kb的共线区。然而,在比较米仔兰和甜橙的情况下,没有检测到广泛的共线块。总体而言,虽然较长的共线区往往存在于密切相关的物种之间,但线粒体基因组表现出有限的共线性,有几个区域缺乏同源性。这些发现表明米仔兰与其相关线粒体基因组之间广泛存在的基因组重排。

此外,我们利用31个相关物种的线粒体基因组进行了系统发育分析,以头状笔花豆(T. capitata)和大豆(G. max)作为外群供参考。在进化关系方面,米仔兰与红椿表现出最接近的亲缘关系,这两个物种都属于无患子目(图 4B)。虽然系统发育树的整体结构在目水平上与AP GI大致一致,但值得注意的是,在无患子目中,有几个节点缺乏引导支持。这表明,仅从线粒体PCG得出系统发育进化分析可能在准确解析较低的物种分类类别方面存在局限性。

图4(A)米仔兰线粒体基因组及其相关物种线粒体基因组的共线性分析(B)米仔兰与另外30个物种基于保守的线粒体基因的系统发育关系。    

结论

本研究功组装了米仔兰的线粒体基因组,揭示了环状基因组结构。探索了米仔兰线粒体基因组的基因成分、重复元素、密码子使用、MTPT和RNA编辑位点,并做出系统发育推断。本研究是对米仔兰完整线粒体基因组的首次全面描述。我们的发现阐明了线粒体基因进化动力学中以前未知的方面,为线粒体基因组的进化历史提供了宝贵的见解。

温馨说明

 1、惠通生物针对叶绿体、线粒体测序项目组装结果准确,可以提供定制化高级分析,欢迎联系我们获取小基因组文章专业解决方案,助力文章发表。

 2、惠通生物小基因组服务电话:18926264030


欢迎关注物种分类及进化研究



  深圳市惠通生物科技有限公司,成立于2016年,技术成员在生物信息方面均有10年以上分析经验,在小基因组项目(叶绿体、线粒体、病毒)上形成强劲技术优势并可提供定制化高级分析内容。成立至今已服务客户单位200余家包括中国科学院植物研究所、中国科学院昆明植物研究所、华南农业大学、浙江大学、中国人民解放军疾病预防控制中心、武汉水生生物研究所等科研单位。合作老师发表小基因组SCI文章逾200篇,发表在《BMC Plant Biology》、forests》、 Frontiers in Plant Science》、《Frontiers in Microbiologymolecules》、International Journal of Biological Macromolecules》、《Plant Genome》、International Journal of Molecular Sciences》、《Infectious Diseases of Poverty》、《Insect Science》genes》、《frontiers in Veterinary Science》《Frontiers in Immunology》等杂志。

物种分类及进化研究
《物种分类及进化研究》专注于物种分类及进化研究,主要研究技术为植物叶绿体基因组测序,植物线粒体基因测序,动物线粒体基因组测序,真菌线粒体基因组测序,真菌基因组测序。我们会定期通过网络,汇总物种分类及进化相关研究进展,解读相关研究论文。
 最新文章