摘要
对粗根茎莎草(C. stoloniferus)线粒体基因组和叶绿体基因组进行了组装和功能注释。线粒体基因组(mtDNA)全长927,413 bp,GC含量为40.59%。它由两个环状DNA组成,包括37个蛋白质编码基因(PCG),22个tRNA和5个rRNA。叶绿体基因组(cpDNA)长度为186,204 bp,包含93个PCG,40个tRNA和8个rRNA。mtDNA和cpDNA分别含有81和129个串联重复序列,以及346和1,170个分散重复序列,两者都有270个简单序列重复。细胞器基因组中第三个高频密码子(RSCU > 1)倾向于以A或U结尾,而低频密码子(RSCU < 1)倾向于以G或C结尾。PCG的RNA编辑位点相对较少,mtDNA和cpDNA中分别只有9和23个位点。mtDNA中共有28个线粒体质体DNA(MTPT)来自cpDNA,包括3个完整的trnT-GGU、trnH-GUG和trnS-GCU基因。系统发育和共线性表明粗根茎莎草(C. stoloniferus)和香附子(C. rotundus)之间的亲缘关系最近。线粒体rns基因表现出最大的核苷酸变异性,而叶绿体基因中核苷酸变异性最大的是infA。细胞器基因组中的大多数PCG都受到负向选择,且在进化上高度保守。只有六个线粒体基因和两个叶绿体基因表现出Ka/Ks > 1;特别是atp9、atp6和rps7可能经历了潜在的正向选择。
背景
粗根茎莎草(C. stoloniferus)是莎草科(莎草属)多年生草本植物,主要生长在海岸沙丘和海滩上。粗根茎莎草是一种重要的药用植物,用于治疗月经失调、痛经、胃痛和炎症。2010年被列入世界自然保护联盟濒危物种红色名录。虽然它已被列入该名单,但目前并没有受到威胁,所以它是最不受关注的物种之一。目前,对匍匐草属植物的研究相对较少,这极大地限制了我们对其进化特征和利用的了解。
莎草科是单子叶植物的第三大科,有5500余种,根据花、花序、小穗、胚等形态特征可分为90个属,在湿地和高山生态系统中发挥着重要作用。近年来,基于部分核DNA和质体基因(matK、rbcL、rps 16等)的研究表明,某些形态相似的物种可能属于不同的属,而形态差异显著的物种可能属于同一属,这导致了物种鉴定的混乱,引发了莎草科分类学的争议。因此,应进行全面的探索。
莎草科物种具有C4光合作用、分散的着丝粒和多种全着丝粒染色体来源等适应性特性,使其成为研究进化生物学的理想材料。截至2024年4月20日,仅报道了12种莎草科植物的核基因组。与核基因组相比,植物细胞器基因组保守性高,进化迅速,且具有母系遗传的特点,是追踪起源、系统发育和分子生态学的理想工具。由于缺乏基因组数据,莎草科尚未根据完整细胞器基因组进行系统分类,这导致粗根茎莎草的进化关系尚不明确。
Assembly and comparative analysis of the complete mitochondrial and chloroplast
genome of Cyperus stoloniferus (Cyperaceae),a coastal plant possessing saline-alkali tolerance
材料和方法
1、植物材料和DNA提取:粗根茎莎草从广西防城港市江山镇沿海(东经108°33',北纬21°68')采集,现存于玉林师范学院桂东南特色植物标本馆,植物标本编号LM202118。以粗根茎莎草幼叶为材料,采用改良CTAB法提取总DNA,采用NanoDrop分光光度计和琼脂糖凝胶电泳法测定DNA纯度、浓度和完整性。
2、基因组测序、组装和注释:Nextera XT DNA文库制备试剂盒构建平均长度为350 bp的DNA文库。在Illumina NovaSeq 6000平台上进行测序,产生11.52 Gb的原始序列数据。去除接头序列和低质量读段后,获得3816万个高质量干净短读段。利用从头组装程序SPAdes v3.11.0将高质量读段组装成叶绿体DNA。最后,基于黄香附(C. esculentus)的叶绿体基因组(NCBI参考序列:MW542207),通过PGA工具对粗根茎莎草的叶绿体基因组进行注释。
使用SQK-LSK109接头试剂盒构建长片段DNA文库,并使用Oxford Nanopore技术进行高通量测序,共产生13.44 Gb的原始测序数据。在使用Nanopack中的NanoFit和NanoPlot对原始读段进行过滤后,共获得12.73 Gb的干净长读段,平均长度为9,342 bp。使用Porechop v0.2.1修剪接头序列,并通过Miniasm获得粗略但计算效率高的组装体。然后使用Racon对组装体进行完善。参考黄香附(C. esculentus )(MW542206)的线粒体基因组,使用Bandage v0.8.1获得潜在的同源重叠群。Minimup2工具将纳米孔读段与粗根茎莎草组装草图对齐,然后分别使用Flye和Canu分离对齐的读段并重新组装。通过Pilon工具对短读段精修获得最终的基因组序列。使用Mitofy ( http://dogma.ccbb.utexas.edu/mitof )和MFanno t( https://github.com/BFL-lab/Mfanno )数据库注释线粒体基因组。
3、重复序列识别:使用在线软件MISA检测SSR(https://webblast.ipk-gatersleben.de/misa),在线软件Tandem Repeat Finder(https://tandem.bu.edu/trf)识别串联重复序列,在线软件Repeater(https://bibiserv.cebitec.uni-bielefeld.de/reputer)识别分散重复序列。
4、密码子使用偏好性分析:利用SHYCloud平台在线软件(http://www.jshycloud.net/)从粗根茎莎草叶绿体和线粒体基因组中提取PCGs,CodonW v1.4.2软件(https://sourceforge.net/projects/codonw)对PCGs密码子的RSCU、T3s、C3s、A3s、G3s、CAI、CBI和ENC进行分析,利用在线软件Cusp(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)对第一、第二、第三个密码子(分别为GC1、GC2、GC3)的GC含量进行分析。
5、RNA编辑位点鉴定:TopHat2软件将粗根茎莎草的原始转录组数据映射到细胞器基因组。REDITools软件在PCG中检测潜在的RNA编辑位点,参数设置覆盖度≥5、频率≥0.1、p值≤0.5。Tablet分析BAM文件,手动识别和去除假阳性RNA编辑事件。为了进一步验证RNA编辑位点的准确性,在基因编辑位点的两侧设计PCR引物。以叶片RNA为模板,利用随机引物合成gDNA和cDNA,进行PCR扩增,对PCR产物进行sanger测序。通过比较gDNA和cDNA的序列差异来分析RNA编辑事件。
6、MTPT序列鉴定:使用在线软件对BLAST粗根茎莎草的cpDNA和mtDNA进行同源性比对。对同源序列区域进行分析,并确定MTPT的序列长度、数量和基因类型,仅关注超过35 bp的序列和含有基因转移序列。利用TBtools软件中的Advanced Circos绘制叶绿体和线粒体DNA序列转移图谱。
7、系统发育树构建:从NCBI网站(https://www.ncbi.nlm.nih.gov )下载了近缘物种的mtDNA和cpDNA序列,鉴定出11个物种的mtDNA和cpDNA分别有27个和68个共同的PCG。基于共同基因的氨基酸序列,利用MEGA11软件的ML方法,构建了系统发育树,引导值为1,000,进化模型为GTR+I+G。
8、近缘物种细胞器基因组的比较分析:BLAST软件对4种莎草属植物的mtDNA和cpDNA进行两两比对,筛选出长度大于40 bp的同源序列, TBtools软件的多重共线性图对基因组共线性区域进行可视化。利用KaKs Calculator v2.0中的YN模型,通过两两比较,计算了9个近缘物种细胞器基因组中PCGs的Ka/Ks值。Ka或Ks值为零的,不纳入统计分析。利用Mafft软件进行基因核苷酸序列多重比对,利用DnaSP v5.10软件计算基因的Pi值,通过Origin2019将计算结果以箱线图的形式可视化。
主要研究结果
1、粗根茎莎草细胞器基因组的组装验证、结构特征及基因组成:基于Nanopore和Illumina测序数据,参考黄香附(C. esculentus)细胞器基因组,我们组装了粗根茎莎草的mtDNA和cpDNA。mtDNA由两个离散的DNA分子组成,分别称为mtDNA 1(mt1)和mtDNA 2(mt2)(图 1A)。mt1仅由contig4(280,810 bp)组成,可以形成环状DNA。然而,mt2由contig1(531,572 bp)、contig2(15,034 bp)和contig3(84,963 bp)组成,其中contig2在序列两端分别与contig1和contig3具有重叠区域。基于此观察,我们提出mt2一种可能的组装排列为contig1+contig2(+)+contig3+contig2(-),其中contig2(+)与contig2(-)为反向互补序列(图 1B)。为了验证这一组装假设,我们设计了四对PCR引物,对四个重叠区域(P1、P2、P3、P4)进行PCR扩增和Sanger测序。PCR扩增产物的1%琼脂糖凝胶电泳带与预期大小相符(图 1C)。以上结果表明mt2仅表现出一种构象;即一级环状DNA由contig1、contig2(+)、contig3、contig2(-)组成。
图1粗根茎莎草线粒体DNA的Contig组装及PCR扩增检测
mt1和mt2的长度分别为280,810 bp和646,603 bp,GC含量为40.59%(图 2)。粗根茎莎草的mtDNA共注释出37个蛋白质编码基因(PCG)、22个tRNA和5个rRNA。
粗根茎莎草的cpDNA长度为186,204 bp,GC含量为33.19%。它具有典型的四分体环状结构,具有两个反向重复序列区域(IR)、一个大的单拷贝区域(LSC)和一个小的单拷贝区域(SSC),长度分别为74,842(GC,37.33%)、101,039 (GC,30.93%)和10,323 bp (GC,25.13%)。共注释了141个基因,包括93个PCG、8个rRNA和40个tRNA。线粒体DNA和叶绿体DNA编码序列总长度分别为42,632 bp和79,714 bp,占基因组的4.60%和42.81%。非编码序列分别占总序列的95.04%和57.09%。这与黄香附线粒体DNA中非编码序列的比例(95.36%)相似。
图2粗根茎莎草细胞器基因组图谱
2、细胞器基因组重复序列:重复序列不仅在维持基因组高级结构中起着重要作用,而且在驱动进化、诱导变异和调控基因表达方面起着至关重要的作用。因此,我们分析了粗根茎莎草细胞器基因组的分散重复序列、微卫星序列和串联重复序列(图3A)。本研究在cpDNA、mt1和mt2中分别检测到了270、77和193个SSR(图3B)。mtDNA和cpDNA的SSR主要为四核苷酸重复序列,六核苷酸重复序列数量最少。mt1、mt2和cpDNA中分别有29、64和93个四核苷酸重复序列,分别占基因组中SSR总数的37.66%、33.16% 和 48.19%。总共在mt1、mt2和cpDNA中分别检测到25、56和129个串联重复序列(图 3C)。cpDNA检测到1,170个分散重复序列,包括777个正向重复序列、376个反向重复序列、7个互补重复序列和10个回文重复序列。mt1和mt2分别含有66和280个分散重复序列。其中,mt1不具有互补重复序列,而mt2不具有互补和反向重复序。丰富的重复序列为筛选研究粗根茎莎草遗传多样性的分子标记提供了重要数据。
图3粗根茎莎草细胞器基因组重复序列
3、基因密码子偏好性:密码子偏好性是指生物体在翻译过程中对简并密码子使用频率的差异,以及在进化过程中形成一套与之相适应的常用密码子,对基因表达具有重要意义。密码子偏好性可以用相对同义密码子使用率(RSCU)表示,RSCU值范围为0~2,其中RSCU = 1代表预期使用频率,RSCU < 1表示密码子使用频率低于预期值,RSCU > 1表示密码子使用频率高于预期值。在RSCU > 1时,mt1、mt2和cpDNA分别含有26、28和31个密码子(图 4),说明粗根茎莎草细胞器基因偏好使用这些密码子。在这些高频密码子(RSCU > 1)中,第三密码子位置为A或U,分别占线粒体和叶绿体密码子的94.63%和97.35%。在低频密码子(RSCU < 1)中,第三密码子位置为G或C,分别占线粒体和叶绿体密码子的76.86%和93.41%。这是陆生植物细胞器基因组中密码子偏向性的共同特征。mtDNA和cpDNA最常用的密码子是UUU和AUU,分别有445个和815个密码子。mt1的终止密码子往往是UGA,而mt2和cpDNA的终止密码子往往是UAA。
图4粗根茎莎草细胞器基因组的相对同义密码子使用率(RSCU)。(A)cpDNA的RSCU分析。(B)mtDNA的RSCU分析。
4、RNA编辑:RNA编辑是DNA转录过程中碱基插入、缺失或改变的现象,发生在线粒体、叶绿体和细胞核中以形成RNA。通过将转录组数据映射到mtDNA和cpDNA,在粗根茎莎草的线粒体和叶绿体基因中分别鉴定出9个和23个RNA编辑位点(图5A)。mtDNA中检测到了六个可能经历了RNA编辑的基因,包括ccmC、matR、mttB、nad7、rpl16和rps19,但在mt1中未检测到这些基因。cpDNA中有八个基因:atpB、atpF、petA、psbL、psbT、rpoA、rpoB和rpoC2。线粒体RNA编辑位点均为C-U编辑,叶绿体C-U编辑位点占总数的30.43%。RNA编辑可能形成终止密码子,最终导致叶绿体atpF、psbT和rpoC2翻译过早终止。RNA编辑后,线粒体中55.56%的亲水性氨基酸转化为疏水性氨基酸,而叶绿体中只有13.04%。同时,叶绿体中30.43%的亲水性氨基酸转化为其他亲水性氨基酸;然而,这种情况并没有发生在线粒体中。
为了评估预测RNA编辑位点的准确性,以gDNA和cDNA为模板进行PCR扩增(图5B),并比较sanger测序结果(图5C)。验证了6个基因:atpB、matR、mttB、nad7、rpl16和rps19。其中,atpB、matR、nad7和rpl16与预测结果一致;粗根茎莎草叶片的取样时期不同可能是造成RNA编辑位点不一致的重要原因。
图5粗根茎莎草细胞器基因组PCGs中RNA编辑位点预测及验证
5、MTPT序列转移:线粒体DNA (mtDNA)中通常含有来源于质体DNA的序列,称为线粒体质体DNA (MTPT)。根据核苷酸序列相似性,在粗根茎莎草的线粒体DNA中鉴定出28个可能来源于cpDNA的MTPT,长度从36到1,464 bp不等(图6)。MTPT总长度为10,186 bp,占cpDNA的5.47%。其中19个为叶绿体基因(大部分为基因片段)。mt1和mt2分别有7个和21个MTPT,总长度为8,710 bp,占mtDNA的0.94%。令人惊奇的是,叶绿体中的trnT-GGU被转移到mtDNA上,并转化为trnM-CAT,说明在序列转移过程中可能发生碱基突变。另外,一些来自叶绿体的小片段序列是较大片段序列的子集或在线粒体DNA中多次出现,表明这些片段在转移整合后可能在mtDNA内经历了多次独立的转移整合、复制和重组。
图6粗根茎莎草质体DNA向线粒体基因组的转移事件。外弧代表mt1、mt2和cpDNA,内弧代表相应的转移MTPT
6、系统发育分析:为了确定粗根茎莎草的系统发育地位,以楝科的红椿(Toona ciliata)和香椿(T. sinensis)为外类群,基于线粒体和叶绿体共用基因,采用最大似然法(ML)分析了9个近缘种的进化关系。根据11个植物种共用的27个线粒体PCG构建的系统发育树。如图 7 A所示。结果表明,在莎草科中,与粗根茎莎草亲缘关系最近的是香附子(C. rotundus),其次是黄香附(C. esculentus),距离最远的物种是C. brevicullis。根据68个叶绿体PCG构建的系统发育树(图7B)表明,两棵系统发育树的整体结构相同,进一步证实了这4种莎草属植物的进化关系。系统发育分析还表明,莎草科与灯心草科亲缘关系较近,而禾本科亲缘关系较远。进一步研究发现,灯心草科的线粒体具有rps10和rps14,而莎草科和禾本科则没有。莎草科和灯心草科的叶绿体缺乏clpP和ycf15,而莎草科缺少rpl23,但有两个ycf68基因。同一科中细胞器功能基因的丢失、添加和复制事件的发生与系统发育聚类的结果一致。
图7 粗根茎莎草与10个其他物种的系统发育关系。(A)和(B)分别是基于27个线粒体和 68个叶绿体共享的基因构建的系统发育树
7、莎草科细胞器基因组共线性分析:对4种莎草属植物细胞器基因组共线区域的分析发现,存在大量同源共线片段。粗根茎莎草与香附子、粗根茎莎草与黄香附、黄香附与C. breviculis之间分别有62、60和47个线粒体DNA长度大于5,000 bp的共线性块(表 S21)。粗根茎莎草与香附子、粗根茎莎草与黄香附、黄香附与C. breviculis之间分别有8、14和6个叶绿体DNA长度大于5,000 bp 的共线性块。然而, 粗根茎莎草与香附子之间的8个共线性块长度> 10,000 bp,而黄香附和C. breviculis之间的共线性块长度不到10,000 bp。此外,粗根茎莎草与香附子是所有共线性块中最长的,分别为 53,854 bp和 47,814 bp,这表明物种关系越近,共线性块就越长。
同时,莎草科mtDNA(或cpDNA)的共线区块排列位置存在差异,表明与近缘种相比,粗根茎莎草的细胞器基因组发生了广泛的基因组重排(图 8)。另外,粗根茎莎草的mtDNA和cpDNA的某些区域与其他物种不具有同源性,表明它们仅存在于粗根茎莎草的细胞器基因组中。
图8莎草科4种植物细胞器基因组间的共线性比对,(A)和(B)分别为mtDNA和cpDNA的共线性分析
8、核苷酸多样性:核苷酸多样性(Pi)可用于评估不同物种和种群间核苷酸序列的遗传差异,选择变异性高的区域作为种群的潜在分子标记。对9种近缘植物进行了细胞器基因的Pi分析,结果表明,变异性最高的线粒体基因为rns(Pi=0.23425),其次是atp8(Pi=0.1664)和mttB(Pi=0)(图 9A)。在线粒体PCG中,仅7个基因的Pi>0.10,其余24个基因的Pi值在0至0.07535之间,表明粗根茎莎草大多数线粒体基因的核苷酸序列高度保守。叶绿体PCGs的Pi值范围为0至0.24609,其中51个基因小于0.10(图 9B)。infA(Pi = 0.24609)表现出最大的变异性最保守的基因是accD(Pi = 0.00293)和ycf2(Pi = 0)。此外,4个叶绿体rRNA基因的Pi值均小于0.05,而3个线粒体rRNA基因的Pi值均大于0.108,这表明匍匐草叶绿体rRNA基因核苷酸序列比线粒体保守得多。
图9九个近缘物种细胞器基因组中基因的核苷酸多样性。(A)线粒体基因的Pi值。(B)和(C)表示叶绿体基因的Pi值
9、PCG的Ka/Ks分析:Ka/Ks (又称dN/dS)表示非同义替换率(Ka)与同义替换率(Ks)之比,用于衡量不同物种进化过程中蛋白质的选择压力。当Ka/Ks>1时,基因受到正向选择。当Ka/Ks=1时,基因发生中性进化。当Ka/Ks<1时,基因受到负向或纯化选择。为了评估粗根茎莎草近缘植物PCGs所受到的选择压力,我们计算了27个线粒体基因和68个叶绿体基因的Ka/Ks值。结果如图10A 所示,21个线粒体PCG的Ka/Ks < 1,尤其是atp1(Ka/Ks = 0.0746)和cox1(Ka/Ks = 0.07223),表明这些基因经过了纯化选择,具有相对稳定的蛋白质功能。相比之下,atp6、atp9、ccmC、ccmFN、rpl16和rps3的平均Ka/Ks 值> 1,atp9(Ka/Ks = 2.15)和atp6(Ka/Ks = 1.61)受到强烈的正向选择。与线粒体基因相比,叶绿体中rps7和rrn16的平均Ka/Ks值大于1,而其余66个基因的Ka/Ks值小于1(图10B和C),表明叶绿体中的大多数PCG表现出负选择,并且在进化过程中高度保守。
图10 九个近缘物种细胞器基因组中PCGs的Ka/Ks分析(A)线粒体PCGs的Ka/Ks。(B)和(C)表示叶绿体PCGs的Ka/Ks
结论
本研究利Illumina和Nanopore测序平台,首次组装了粗根茎莎草(C. stoloniferus)的线粒体和叶绿体基因组,这也是莎草科的第四个完整的线粒体DNA。PCR扩增和Sanger测序证实了粗根茎莎草(C. stoloniferus)的线粒体DNA拥有两个环状DNA,其中mt2拥有一个15,034 bp的反向互补序列,证实了莎草科复杂基因组结构的真实性。此外,还通过比较分析探讨粗根茎莎草(C. stoloniferus)细胞器基因组的基因组成、重复序列、密码子偏好性、RNA编辑和核苷酸多样性。共观察到28个MTPTs来源于cpDNA,长度为8,710 bp,占mtDNA的0.94%。选择压力结果表明,线粒体的atp6、atp9、ccmC、ccmFN、rpl16和rps3以及叶绿体的rps7和rrn16发生了潜在的正向选择,揭示这些基因可能在粗根茎莎草(C. stoloniferus)对沿海环境的适应中发挥作用。基因组进化和共线性分析表明,粗根茎莎草(C. stoloniferus)与香附子(C. rotundus)之间的亲缘关系最近。该结果将有助于研究人员了解莎草科细胞器基因组的特点,为进一步阐明莎草科的进化关系奠定基础。
温馨说明
1、惠通生物针对叶绿体、线粒体测序项目组装结果准确,可以提供定制化高级分析,欢迎联系我们获取小基因组文章专业解决方案,助力文章发表。
2、惠通生物小基因组服务电话:18926264030
欢迎关注物种分类及进化研究
深圳市惠通生物科技有限公司,成立于2016年,技术成员在生物信息方面均有10年以上分析经验,在小基因组项目(叶绿体、线粒体、病毒)上形成强劲技术优势并可提供定制化高级分析内容。成立至今已服务客户单位200余家包括中国科学院植物研究所、中国科学院昆明植物研究所、华南农业大学、浙江大学、中国人民解放军疾病预防控制中心、武汉水生生物研究所等科研单位。合作老师发表小基因组SCI文章逾200篇,发表在《BMC Plant Biology》、《forests》、《 Frontiers in Plant Science》、《Frontiers in Microbiology》、《molecules》、《International Journal of Biological Macromolecules》、《Plant Genome》、《International Journal of Molecular Sciences》、《Infectious Diseases of Poverty》、《Insect Science》、《genes》、《frontiers in Veterinary Science》《Frontiers in Immunology》等杂志。