摘要
本研究对建兰(Cymbidium ensifolium L.)线粒体基因组进行组装和注释。建兰的线粒体基因组全长560,647 bp,由19个环状亚基因组组成,大小从21,995 bp到48,212 bp不等。共有35个蛋白质编码基因、36个tRNA、3个rRNA和3405个ORF。重复序列分析和RNA编辑位点预测显示,共有915个分散重复序列、162个简单重复序列、45个串联重复序列和530个RNA编辑位点。密码子使用偏好性分析表明,以A/T结尾的密码子使用率更高。在19条染色体中的13条中发现了细胞器间的DNA转移,质体衍生的DNA片段占建兰线粒体基因组的6.81%。分析建兰线粒体基因组和核基因组的同源片段表明,线粒体基因组的GC含量是保守的,但在具有多染色体线粒体基因组结构的植物中,线粒体基因组的大小、结构和基因含量差异很大。基于线粒体基因组的系统进化分析反映了兰属植物的进化和分类地位。有趣的是,与兔耳兰(Cymbidium lancifolium Hook.)和大根兰(Cymbidium macrorhizon Lindl.)的线粒体基因组相比,建兰的线粒体基因组丢失了8个核糖体蛋白编码基因。
背景
兰科(Orchidaceae)是被子植物中最大的类群之一,根据栖息地的不同,兰花可分为陆生、附生和寄生类型,大多数种类具有观赏和药用价值,并具有很高的经济价值和科研价值。在中国,建兰是一种广受欢迎的观赏兰花,具有很高的经济价值和悠久的历史。目前对兰花的研究主要集中在发现新物种、育种技术、与真菌和其他微生物的共生关系、物种鉴定技术、基因研究、叶绿体基因组以及数量有限的基因组研究。然而,迄今为止,兰花线粒体基因组的研究相对较少,还没有关于中国建兰任何物种线粒体基因组的详细资料发表。
线粒体是植物细胞中的重要细胞器,参与许多与生产ATP储能分子和细胞质雄性不育(CMS)有关的代谢过程。与叶绿体基因组和动物线粒体基因组相比,植物线粒体基因组具有一些独特的特征,包括基因组大小和结构差异较大、广泛基因水平转移和重复序列介导的同源重组、基因或整个染色体的增加或缺失、内含子密度高、与不同内含子类型相关的特异性反式剪接、RNA编辑等。而且线粒体基因组结构复杂,除了单环结构外,线粒体基因组还可以以线性、多环、分枝和复杂的形式存在。
兰花与真菌之间的共生关系使兰花成为研究线粒体基因组进化的理想对象。兰花的祖先通过水平基因转移(HGT)获得了一个约270-bp的真菌线粒体基因组区域,其中包含三个tRNA基因。尽管兰科包含近28,000个物种,但迄今为止,仅有少数兰科植物的线粒体基因组草图被报道。远远不能满足大数据分析的需要。因此,兰花线粒体基因组数据库亟需新数据的补充。
Assembly and comparative analysis of the complete multichromosomal mitochondrial genome of Cymbidium ensifolium,an orchid of high economic and ornamental value
材料和方法
1、原始数据采集和过滤:用于组装建兰线粒体基因组的原始数据来自美国国家基因组数据中心(NGDC),本研究中使用的建兰是在福建省福州市鼓山风景区发现的野生成株。测序使用 Illumina HiSeq X-Ten 进行二代测序,并基于 PacBio RSII 协议构建了 20-kb 插入文库用于 PacBio 测序 。为了获得高质量的建兰花线粒体基因组,原始数据经过过滤,并使用 fastp(v0.20.0,https://github.com/OpenGene/fastp)软件获得高质量的读取。
2、线粒体基因组组装和注释:植物线粒体基因(包括编码序列和rRNA)高度保守。利用这一特点,本研究使用Minimap2(v2.1)比对软件将原始长读数测序数据与植物线粒体核心基因的参考基因序列数据进行了比对。筛选出长度超过50 bp的相似序列作为候选序列。选取比对基因较多、比对质量较高的候选序列作为种子序列。然后将原始长读数测序数据与种子序列进行比较,将至少有1 kb重叠且相似度至少达到70%的序列添加到种子序列中。这一过程反复进行,以获得线粒体基因组的所有长线程测序数据。Canu组装软件用于校正获得的长线程测序数据,Bowtie2用于将短线程测序数据与校正后的序列进行比对。使用Unicycler软件将短读数测序数据和校正后的长读数测序数据按默认参数进行连接,最终得到建兰的环状线粒体基因组。
线粒体基因组结构的注释分几个步骤进行。PCGs和rRNA使用BLAST与已发表的植物线粒体序列进行比对,并根据相关物种进行人工调整。tRNA使用tRNAscan-SE工具进行注释, Open Reading Frame Finder对ORFs进行注释。长度短于102 bp的序列和与已知基因重叠的序列被排除在外。长度大于 300bp 的比对结果使用 NR 库进行注释。上述结果经过手动检查和更正,以获得更准确的注释。然后使用 OGDRAW(v1.3.1,https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)对线粒体基因组进行可视化。
3、RNA编辑分析:以植物线粒体基因编码的蛋白质为参照蛋白,使用PREP工具,分析建兰线粒体基因组中的RNA编辑位点。
4、密码子使用分析:用自编码的Perl脚本分析了建兰线粒体基因组的密码子组成。包括筛选独特的CDS、确定每个基因的密码子数量、计算GC含量、有效密码子数量(Nc)以及分析同义密码子的RSCU。
5、重复序列分析:在建兰线粒体基因组中检测到三种类型的重复序列(简单序列、串联和分散)。MIcroSAtellite(MISA)识别工具Perl脚本识别简单序列重复序列。Tandem Repeats Finder软件检测串联重复序列(> 6 bp重复单位)。BLASTn检测分散的重复序列。Circos软件对重复序列进行可视化处理。
6、系统进化分析:从NCBI细胞器基因组资源数据库(http://www.ncbi.nlm.nih.gov/genome/organelle/)下载了24个植物的线粒体基因组。使用MAFFT软件对不同科25个物种的线粒体基因CDS序列进行比对,指定油柿(D. oleifera)为外群。本研究使用两种方法构建系统发生树。最大似然(ML)系统进化树是使用RAxML生成,GTRGAMMA模型进行了1000次引导复制。jModelTest确定最佳核苷酸替换模型,并使用MrBayes构建了贝叶斯推断(BI)系统进化树。
7、Ka/Ks分析和核苷酸多样性(Pi)分析:所选的六种属于兰科的植物,包括天麻(G. elata)、原天麻(G. angusta)、宽叶厚唇兰(E. amplum)、硬叶兜兰(P. micranthum)、深圳拟兰(A. shenzhenica)和吊兰(Chlorophytum comosum)。MAFFT v7对共享PCGs进行了比对,并使用KaKs_Calculator计算非同义(Ka)与同义(Ks)取代的比率(Ka/Ks)。MAFFT软件对不同物种的同源基因序列进行了全局比较,DnaSP v5计算了每个基因的Pi值。
8、线粒体基因组比较分析:nucmer软件对建兰的线粒体基因组和所选的六个兰科植物的线粒体基因组进行比对,maxmatch参数生成点图。BLASTN软件绘制了建兰和六种兰科植物的线粒体基因组共线性图。
9、同源性分析:从NCBI细胞器基因组资源数据库下载了建兰的叶绿体基因组(MK841484.1)。利用BLAST软件,确定了从叶绿体转移到线粒体的同源基因和tRNA基因。Circos软件对结果进行了可视化处理。本研究还从美国国家基因组学数据中心(National Genomics Data Center)下载了经过组装和注释的建兰核基因组数据,其登录号为PRJCA005355/GWHBCII00000000。利用BLASTN软件,鉴定从线粒体转移到细胞核的同源基因。
主要研究结果
1、建兰线粒体基因组多染色体结构:本研究中,原始数据包括92.6 G的Illumina测序数据和12.5 G的PacBio RSII测序数据。平均reads长度为10,525 bp。建兰(C. ensifolium)的线粒体基因组被组装成19条环状染色体,长度从21,995 bp到48,212 bp,总长度为560,647 bp。19个线粒体亚基因组的大小一般,没有大的主环(图 1)。建兰的线粒体基因组GC平均含量为43.89%,各染色体的GC含量介于43.26%和45.80%之间。建兰线粒体基因组共注释74个基因,包括35个蛋白质编码基因(PCGs)、36个tRNA基因和3个rRNA基因。
2、RNA编辑位点:在大多数开花植物(被子植物)的线粒体中,RNA编辑事件常见于外显子序列和一些非编码区,并且可以产生比相应DNA编码序列更多的基因。本研究预测建兰线粒体基因组中的RNA编辑位点,在29个PCGs中总共发现了530个位点(图2)。编辑位点在不同基因之间分布不均,从3个(atp8和rps7)到56个(nad4)不等,只有rpl116基因没有RNA编辑位点。
3、密码子使用偏好性:建兰线粒体基因组编码基因的密码子总数为8765个。密码子的有效数量(Nc)为53.48,表明建兰线粒体基因组的密码子偏好性较弱。所有PCG都使用ATG作为起始密码子。TAA、TGA和TAG终止密码子的使用率分别为37.14%、37.14%和25.71%,其中TAG终止密码子的使用率最低。
RSCU值可以直接反映密码子使用模式的差异。RSCU值为1表示密码子使用无偏见,RSCU值大于1表示相对使用频率较高,RSCU值小于1表示使用频率较低。本研究结果显示,建兰线粒体基因组有29个密码子的RSCU值大于1,表明这些密码子的使用频率高于其他同义密码子。其中,除UUG(1.2546)和AUG(3)外,其他密码子均以A/T碱基结束(图3)
4、重复序列分析:建兰线粒体基因组中发现的所有重复序列类型。SSR、串联重复序列和分散重复序列的数量分别为162、45和915,共计1122个。其中,分散重复序列的数量最多,长度从27到759 bp不等。其中376个是正向重复序列,539个是回文重复序列(图4)。最长的正向重复序列长度为759 bp,而回文重复序列长度为515 bp。分散重复序列的总长度占建兰线粒体基因组总长度的13.78%。正向重复序列在40-49 bp范围内数量最多,而回文重复序列在30-39 bp范围内数量最多(图5)。
SSR位点根据碱基数量分为五种类型:单体重复序列、二聚体重复序列、三聚体重复序列、四聚体重复序列和五聚体重复序列。建兰线粒体基因组中单体重复位点和四聚体重复位点的数量最多,均为53个。四聚体重复序列的种类更多。它们共占已鉴定SSR总数的65.43%。
5、系统发育分析:以24个已发表的植物线粒体基因组以及作为外群的油柿(D. oleifera进行系统发育分析。使用RAxML和MrBayes两种不同的软件程序创建了系统发育树(图6)。两种方法得出了相同的聚类结果。分析表明,包括建兰在内的所有物种都聚类为四个类群(天门冬目Asparagales、禾本目Poales、棕榈目Arecales和泽泻目Alismatales),与APG IV分类树一致。属于兰科的建兰与宽叶厚唇兰(E. amplum)的遗传关系最为密切。这种聚类结果支持了基于线粒体基因组的分析的可靠性。
6、蛋白编码基因替换率(Ka/Ks):对建兰线粒体基因组中的35个PCGs进行Ka/Ks计算,并与主要属于兰科的其他6种植物的线粒体基因组进行比较。结果显示,基因特异性替换率(Ka/Ks)从nad4L基因的0.049到nad6基因的6.868不等(图7)。在大多数物种中,所有基因的Ka/Ks值普遍小于1,表明进化过程中存在负选择。其中,cox1基因的平均Ka/Ks值最小(0.228),在所有物种中均小于0.8,表明兰科植物在进化过程中存在较强的纯化选择和高度保守。
7、核苷酸多样性(Pi)分析:兰科中7种植物中29个共享PCGs和3个rRNA基因的核苷酸多样性如图8所示。32个基因的Pi值从0.009到0.097不等,大多数基因的Pi值低于0.06。在PCGs中,atp8的变异性最高(Pi = 0.097),nad7是最保守的PCG(Pi = 0.014)。总之,PCG的核苷酸多样性变化很大。
8、线粒体和叶绿体同源片段分析:在建兰线粒体基因组的19条染色体中,有13条含有来自质体的序列,共产生了117个同源片段(图9)。这些同源片段与相应的同种PCG有很高的相似性,48个叶绿体PCGs完全位于同源区内。此外,还发现了多个部分基因和基因间间隔区。建兰线粒体基因组中具有最大质粒衍生序列的染色体chr1,总长度为48,212 bp,其中质体序列长度为34,674 bp,占建兰线粒体基因组chr1染色体的71.92%。大多数质粒衍生序列与其相应的同种质体序列显示出高度相似性。
9、线粒体基因组与核基因组同源片段分析:在建兰线粒体基因组的19条染色体和20条核染色体上都发现有同源片段。20条核染色体上的同源片段长度从19.94 kb到561.86 kb不等,占各自染色体长度的2.23%到54.57%(图10)。最长的同源片段是核基因组第6号染色体上的561.86 kb,占总长度的35.50%。核基因组中丰富的同源片段包含来自线粒体的多个基因,包括5个蛋白质编码基因,几乎所有的线粒体基因编码序列都能在同源片段中找到,但有些编码序列不完整,同源性较低。
10、线粒体序列共线性分析:线粒体序列的同源分析显示,建兰和宽叶厚唇兰(E. amplum)之间的同源序列最长,相似度最高,表明这些物种之间的遗传关系密切(图11)。两两同源序列分析表明,虽然各个线粒体基因组之间的排列顺序不尽相同,但它们之间存在大量同源共线区块。这表明七种植物线粒体基因组的结构高度非保守,存在广泛的重排事件。同源序列数量最多的是天麻(G. elata)和原天麻(G. angusta)的线粒体基因组,这两种植物属于同一属。此外,建兰和宽叶厚唇兰(E. amplum)线粒体基因组之间的同源序列数量也远高于其他基因组(图12)。
此外,对兰科六个植物的PCGs保守情况进行分析后发现,不同物种的PCGs类型和数量存在显著差异。例如,硬叶兜兰(P. micranthum)的PCGs数量最多(39 个),而建兰的PCGs数量最少(30 个),这主要是由于核糖体蛋白编码基因的大量丢失。在深圳拟兰(A. shenzhenica)中,多个NADH脱氢酶编码基因(nad1、nad2 nad4)丢失。此外,一些兰花物种通常缺乏sdh3、sdh4、rps8和rpl10,只有硬叶兜兰(P. micranthum)含有sdh4和rps8的假基因(图13)。
11、与含有多染色体线粒体基因组的植物比较基因组的大小、结构、基因数量和GC含量:与大多数植物的线粒体基因组相比,建兰的线粒体基因组是独特的,因为它由19条环状染色体组成,而大多数植物的线粒体基因组是单环染色体结构。为了进一步了解其特征,将建兰的线粒体基因组与其他47种具有多染色体线粒体基因组结构的植物进行比较,线粒体基因组的亚染色体数目在不同物种间从2到130不等。所选植物的基因组大小也有很大差异,从65,874 bp槲寄生(Viscum scurruloideum Barlow)到约11.7 Mb新疆落叶松(Larix sibirica Ledeb.)不等。GC含量从40.8%到51.2%不等,其中蕨类植物松叶蕨Psilotum nudum (L.) P. Beauv.的GC含量最高。大多数植物中都有常见蛋白编码基因,但基因总数差异很大。所选植物的线粒体基因组结构也多种多样,有的含有两个环状亚基因组,有的含有线状亚基因组,还有的含有环状亚基因组和线状亚基因组。
总结
本研究首次详细描述了建兰(C. ensifolium)完整的线粒体基因组。对线粒体基因组进行了组装和注释,并全面分析了线粒体基因组中注释基因的DNA和氨基酸序列。建兰(C. ensifolium)线粒体基因组由19条环状染色体组成,总长度为560,647 bp。共注释有74个基因,包括35个PCGs、36个tRNA基因和3个rRNA基因。通过分析RNA编辑位点、密码子使用偏好性、重复序列、线粒体与叶绿体之间的同源片段、线粒体与细胞核之间的同源片段、Ka/Ks比值、核苷酸多态性、同源性、兰科植物PCG的保守性以及基因组特征,从而更全面地了解兰科植物线粒体基因组的进化。此外,我们还根据建兰(C. ensifolium)的线粒体基因组和其他29种兰科植物的线粒体基因组,通过系统进化分析验证了建兰(C. ensifolium)的进化地位。这项全面的研究为建兰(C. ensifolium)的线粒体基因组提供了宝贵的信息,为兰科植物线粒体数据库做出了重要贡献,有助于今后的物种鉴定、遗传变异和系统进化研究,为进一步研究这种观赏性极强的兰花奠定了详实的基础。
温馨说明
1、惠通生物针对叶绿体、线粒体测序项目组装结果准确,可以提供定制化高级分析,欢迎联系我们获取小基因组文章专业解决方案,助力文章发表。
2、惠通生物小基因组服务电话:18926264030
欢迎关注物种分类及进化研究
深圳市惠通生物科技有限公司,成立于2016年,技术成员在生物信息方面均有10年以上分析经验,在小基因组项目(叶绿体、线粒体、病毒)上形成强劲技术优势并可提供定制化高级分析内容。成立至今已服务客户单位200余家包括中国科学院植物研究所、中国科学院昆明植物研究所、华南农业大学、浙江大学、中国人民解放军疾病预防控制中心、武汉水生生物研究所等科研单位。合作老师发表小基因组SCI文章逾200篇,发表在《forests》、《 Frontiers in Plant Science》、《Frontiers in Microbiology》、《molecules》、《International Journal of Biological Macromolecules》、《Plant Genome》、《International Journal of Molecular Sciences》、《Infectious Diseases of Poverty》、《Insect Science》、《genes》、《frontiers in Veterinary Science》《Frontiers in Immunology》等杂志。