摘要
背景
线粒体基因组与质体基因组一样,是母系遗传,且包含的基因组较小,但这两个基因组之间存在明显的进化差异。与线粒体基因组相比,质体基因组相对紧凑,且保守性显著。叶绿体基因组结构保守,一般为双链、环状,包含与光合作用相关的核心基因,因结构保守而被用于植物进化分析。线粒体在细胞生长和发育中起着不可或缺的作用,影响植物的整体生长和发育。先前的研究表明细胞雄性不育(CMS)与线粒体基因表达之间存在密切的关系。然而,尚未见有关苦楝属CMS的信息。线粒体基因组中也有一些功能未知的开放阅读框,其中一些与CMS关系非常密切。作为具有巨大经济价值的植物,对线粒体基因组进行深度测序对于利用和遗传研究十分必要。
材料和方法
2、线粒体基因组组装:首先,使用Flye软件默认参数下将长读数据进行苦楝线粒体基因组组装,得到GFA格式的图形结果。利用BLASTN程序对获得的重叠群进行分析,以基于拟南芥中保守的植物线粒体基因识别含有线粒体基因组的重叠群序列。使用Bandage软件对GFA文件进行可视化,并根据BLASTn的结果筛选线粒体重叠群,以获得苦楝的原始线粒体基因组。其次,利用BWA软件将长读和短读数据映射到线粒体基因组上。然后对映射到线粒体基因组的读段进行筛选并导出,以便进行后续的混合组装。最后,使用Unicycler软件将短读长和长读长结合起来,组装出苦楝的线粒体基因组,并使用Banage软件进行可视化。
3、线粒体基因组注释:为了预测线粒体基因组的基因结构,选择已发表的香椿Toona sinensis(NC_065061.1)和红椿Toona ciliata(NC_065060.1)的线粒体基因组作为参考基因组,用Geseq软件对线粒体基因组进行注释。用tRNAscan-SE软件对线粒体基因组的tRNA进行注释。用BLASTN对线粒体基因组的rRNA进行注释。Apollo软件手动纠正各线粒体基因的注释错误。
4、密码子使用和重复序列分析:不同生物体基因组密码子的使用率存在很大差异,这种偏好被认为是长期进化选择过程中逐渐形成相对平衡的结果,因此基因组分析中通常分析相对同义密码子使用率(RSCU)。利用PhyloSuite软件提取线粒体基因组蛋白质编码序列, MEGA软件分析线粒体基因组的RSCU值。
使用MISA软件、Tandem Repeats Finder 软件和REPuter wetsite分别在默认参数下识别微卫星序列、串联重复序列和分散重复序列,通过Excel和Circos软件包对这些重复序列的统计和可视化。
5、线粒体质体DNA(MTPT)鉴定和同源性分析:采用GetOrganelle软件组装叶绿体基因组,并用CPGAVAS2软件进行注释。利用BLASTN软件对同源片段进行分析,并使用Circos软件包对结果进行可视化。
从NCBI数据库下载了近缘种香椿(T. sinensis)、红椿(T. ciliata)、柑橘(Citrus unshiu)、柚(C. maxima)和甜橙(C. sinensis)的线粒体基因组,登录号分别为:NC_065061.1、NC_065060.1、NC_057142.1、NC_057143.1和NC_037463.1。这些序列用于通过BLAST软件分析线粒体之间的协方差。对线粒体基因组进行两两比较,将长度大于500 bp的同源片段保留为保守共线区段,多重共线性图将共线区段可视化。
6、系统发育分析:根据物种关系,从NCBI数据库下载相关物种的线粒体基因组以供进一步研究。使用PhyloSuite提取共享基因的氨基酸序列,然后通过MAFFT软件进行多重序列比对。对齐的序列用于使用IQ-Tree构建系统发育分析,并使用1,000个重复的引导分析。使用iTol网站可视化系统发育树。
7、RNA编辑位点识别:Deepred-mt将线粒体基因组中所有蛋白质编码基因作为输入文本文件,预测编辑位点。基于卷积神经网络模型,结果以大于0.9的概率值保留。
8、重复序列介导的重组和RNA编辑位点验证:根据重复区和RNA编辑位点上下游序列设计引物进行PCR扩增,使用Sanger法进一步对达到预期大小的PCR产物进行测序。
主要研究结果
对线粒体基因组进行注释,共获得35个独特的蛋白质编码基因(PCG),包括24个独特的核心基因和11个非核心基因,23个转移RNA(tRNA)基因和3个核糖体RNA(rRNA)基因。核心基因包括5个ATPase基因,9个NADPH脱氧酶基因,4个细胞色素C基因,3个细胞色素C氧化酶基因,1个膜转运蛋白基因,1个成熟酶基因和1个泛醇-细胞色素C还原酶基因。非核心基因包括4个核糖体大亚基基因,5个核糖体小亚基和2个琥珀酸脱氧酶基因(图1D)
对35个PCG进行了密码子偏好性分析。相对密码子使用率(RSCU)大于1的密码子被认为是氨基酸优先使用的。除了起始密码子AUG和色氨酸(UGG)的RSCU值均为1之外,线粒体PCG中也存在共同的密码子使用偏好(图1E)。例如,丙氨酸(Ala)对GCU的使用偏好性较高,在线粒体PCG中RSCU值最高,为1.64,其次是精氨酸(Arg)对AGA的使用偏好性,组氨酸(His)对CAU的使用偏好性,它们的RSCU值均为1.51。值得注意的是,苯丙氨酸(Phe)和缬氨酸(Val)的最大RSCU值均小于1.2,没有很强的密码子使用偏好性。
图1苦楝线粒体基因组结构特征
2、重复序列特征:微卫星或简单序列重复(SSR)是一类特殊类型的1~6个核苷酸的串联重复基序,在苦楝线粒体基因组中共发现160,109个SSR,第1号染色体上四核苷酸聚合物占比最大,单体和二聚体形式的SSR共占46.88%,腺嘌呤(A)单体重复占45个单体SSR中的46.67%(21个);第2号染色体上单核苷酸聚合物占比最大,单体和二聚体形式的SSR共占56.88%,腺嘌呤(T)单体重复占40个单体SSR中的52.5%(21个)(图2A)。
1、2号染色体上均发现了分散的重复序列,共观察到149个重复序列(大小>=30 bp),其中81对正向重复序列,67对回文重复序列,其中1号染色体上最长的正向重复和回文重复分别为178 bp和327 bp。2号染色体上有31对正向重复序列,99对回文重复序列(图2B)
图2苦楝线粒体基因组重复序列
3、重复序列介导的同源重组:大量研究表明,重复序列在线粒体基因组的同源重组(HR)中起着重要作用。长读长支持的两个重复序列(R1:contig 5和R2:contig 6)可能是苦楝中重复序列,长度分别为2,130 bp和508 bp(图3A)。为了进一步验证这两个重复序列是否能够介导HR,我们采用了PCR扩增和Sanger测序的方法。所有PCR产物均证明重复序列介导的HR产生的两种构象的存在(图3B)。
根据验证结果推测苦楝线粒体基因组存在潜在的同源组合类型。苦楝线粒体基因组主要构象为两条环状染色体,经R1和R2重组可形成一条单独的环状染色体。对于R1,经介导的HR可产生两种构象,另一种为两个小环状分子和一个合并的大环状分子。同样,对于R2,经HR可产生两种构象,一种基因组的结构顺序为contig1-5-4-6-3-5-2-6,另一种为contig1-5-3-6-4-5-2-6。在此基础上,重复序列介导染色体重组形成不同的构象。
图3苦楝线粒体基因组图形片段组装
4、MTPT鉴定:线粒体质体DNA(MTPT)是线粒体基因组中质体衍生的DNA片段。根据线粒体和叶绿体基因组的Blast分析,观察到19个同源片段,长度为46,238 bp,占线粒体基因组总量的7.22%(图4)。这些MTPT分布在2条染色体上,其中11个MTPT位于1号染色体,8个MTPT位于2号染色体。最长的片段为MTPT4,长度为12,142bp。该同源片段中含有36个完整的基因,包括26个蛋白质编码基因。
图4苦楝线粒体基因组和叶绿体基因组之间的MTPT序列
5、系统发育分析:为了解苦楝线粒体基因组的进化关系,我们利用31个物种的23个共用线粒体PCGs的氨基酸序列构建了系统发育树(图5A)。将蒺藜目(Zygophyllales)中的两个物种设置为外群。系统发育的拓扑结构与被子植物系统发育组的最新分类一致。M. azedarach属于楝科 (Meliaceae),与红椿(T. ciliata)和(T. sinensis)关系更为密切。本研究将高度同源的共线区块用带状连接起来。,共线区块以不同的顺序重新排列。与封闭物种相比,苦楝的基因组结构并不保守(图5B)。值得注意的是,柑橘和柚在线粒体结构水平上具有良好的共线性。
图5苦楝线粒体基因组系统发育树和同源性分析
6、RNA编辑位点鉴定:使用Deepred-mt以0.9为阈值,对35个苦楝的线粒体PCG进行了RNA编辑事件鉴定。在35个PCG上共观察到356个潜在RNA编辑位点,所有位点均为“C到U”碱基编辑。ccmB具有37个潜在RNA编辑位点,是所有线粒体基因中编辑最多的。其次是mttB和nad7,各有33个RNA编辑事件。绝大多数编辑事件(93.54%,333/356)导致氨基酸改变,氨基酸改变类型有14种。
值得注意的是,我们发现起始和终止密码子是通过RNA编辑事件产生的。此外,我们通过PCR扩增和Sanger测序验证了这些RNA编辑事件的存在。nad4L基因第2个碱基发生了低频编辑,将氨基酸序列由原来的Thr改为起始密码子Met。而rps10基因第412个碱基的编辑效率特别高,将氨基酸序列由原来的Arg改为终止密码子(图6)。
图6苦楝RNA编辑位点验证
总结
本研究利用BGI短读序列和Nanopore长读序列对苦楝的线粒体基因组进行了测序、组装和注释,通过PCR扩增和Sanger测序分析鉴定了重复序列介导的同源重组。为探究叶绿体和线粒体基因组之间的序列迁移,利用相同数据进行叶绿体基因组组装。并对生物信息学分析获得的RNA编辑位点进行了实验验证。总之,苦楝线粒体基因组的探索为其进化研究和复杂的线粒体基因组结构提供了新的视角。
温馨说明
1、惠通生物针对叶绿体、线粒体测序项目组装结果准确,可以提供定制化高级分析,欢迎联系我们获取小基因组文章专业解决方案,助力文章发表。
2、惠通生物小基因组服务电话:18926264030
欢迎关注物种分类及进化研究
深圳市惠通生物科技有限公司,成立于2016年,技术成员在生物信息方面均有10年以上分析经验,在小基因组项目(叶绿体、线粒体、病毒)上形成强劲技术优势并可提供定制化高级分析内容。成立至今已服务客户单位200余家包括中国科学院植物研究所、中国科学院昆明植物研究所、华南农业大学、浙江大学、中国人民解放军疾病预防控制中心、武汉水生生物研究所等科研单位。合作老师发表小基因组SCI文章逾200篇,发表在《BMC Plant Biology》、《forests》、《 Frontiers in Plant Science》、《Frontiers in Microbiology》、《molecules》、《International Journal of Biological Macromolecules》、《Plant Genome》、《International Journal of Molecular Sciences》、《Infectious Diseases of Poverty》、《Insect Science》、《genes》、《frontiers in Veterinary Science》《Frontiers in Immunology》等杂志。