BMC Plant Biology|黄杞属的叶绿体基因组促进了胡桃科物种系统发育进化研究

文摘   2024-08-30 09:00   广东  

摘要

黄杞属(Engelhardia,胡桃科)在东亚热带和亚热带地区具有重要生态和经济价值。尽管之前的研究基于多个分子标记对黄杞属的物种划分和系统地理分布进行了深入探讨,但在胡桃科中,Engelhardia的质体基因组进化和系统发育关系仍需全面评估。在本研究中,我们对来自八个Engelhardia物种的14个样本及外群马尾树(Rhoiptelea chiliantha)的质体基因组进行了测序,并结合36个胡桃科和六个外群物种的已发布数据以解析系统发育关系。此外,还进行了质体基因组的比较分析,以研究Engelhardia及整个胡桃科的质体基因组进化。
13个Engelhardia质体基因组在基因组大小、基因和顺序上高度相似,展现出典型的四分体结构,长度从161,069 bp到162,336 bp不等。三个突变热点区域(TrnK-rps16、ndhF-rpl32和ycf1)可作为进一步系统发育分析和物种鉴定的有效分子标记。插入和缺失(InDels)可能是胡桃亚科(Juglandoideae)和Engelhardioideae质体基因组进化的重要驱动因素。共识别出十个密码子作为胡桃科的最优密码子,突变压力主要影响密码子的使用。在胡桃科中,78个编码蛋白基因经历了宽松的净化选择,只有rpl22和psaI基因显示出正选择(Ka/Ks > 1)。系统发育结果充分支持Engelhardia作为一个单系群,包括两个亚属,并将胡桃科划分为三个亚科。黄杞属起源于晚白垩世,并在晚始新世多样化,而胡桃科起源于早白垩纪,并在白垩纪中期分化。系统发育和分化时间并未支持黄杞属进化历史中发生快速辐射的观点。
我们的研究充分支持了对黄杞属物种的分类处理以及对胡桃科的三个亚科的划分,并确认了使用质体基因组序列进行系统发育分析的有效性。此外,我们的结果还为进一步研究黄杞属及整个胡桃科的质体基因组进化过程、速率和模式奠定了基础。   
黄杞属的质体基因组促进了胡桃科物种系统发育进化研究
Plastome evolution of Engelhardia facilitates phylogeny of Juglandaceae
时间:2024 杂志:BMC Plant Biology 影响因子:5.3 分区:1/2区

研究方法

1、植物材料和DNA提取
本研究中,从目前已确认的八种黄杞属物种(E. anminiana、E. fenzelii、E. hainanensis、E. roxburghiana、E. serrata、E. spicata、E. spicata var. rigida和E. villosa)以及一种外群物种马尾树(Rhoiptelea chiliantha)中共收集了13个物种,采集地点位于热带和亚热带亚洲。每个样本的新鲜叶片用硅胶干燥以便后续的DNA提取。使用植物DNAzol试剂从所有植物材料中提取了高质量的基因组DNA。有关分类、标本编号、采集者和GenBank登录号的详细信息列在表1中。

2、DNA测序和叶绿体基因组组装和基因注释
每个样本的高质量DNA,在BGISEQ-500平台(BGI,中国深圳)测序。质量控制去除Phred评分低于30的原始reads,保留高质量序列用于基因组组装,使用GetOrganelle软件进行组装 。组装所用的命令行如下:get_organelle_reads.py -1 forward.fq -2 reverse.fq -o plastome_output -R 15 -k 21,45,65,85,105 -F plant_cp。所有目标叶绿体基因组序列使用Geneious Prime 2021软件(http://www.geneious.com/)手动编辑进行连接,使用Carya sinensis(MN892516)和Rhoiptelea chiliantha(MT701585)的叶绿体基因组作为参考基因组。同时,使用CPGAVAS2在线网站(http://www.herbalgenomics.org/cpgavas)预测所有叶绿体基因组中编码和非编码基因的类型和结构。最终通过比较Geneious Prime 2021和CPGAVAS2来确定所有样本的叶绿体基因组注释结果。最后,使用CPGView可视化叶绿体基因组图谱。13个新生成的完整叶绿体基因组序列已提交至GenBank(登录号见表1)。另外,从NCBI GenBank库下载了43个其他物种的叶绿体基因组,并使用之前的方法重新注释,GenBank登录号见表S1。   

3、叶绿体基因组结构特征的比较分析
我们使用这些新测序的黄杞属物种叶绿体研究黄杞属的基因组变异。比较基因组分析采用了两种方法:(1)使用MAVUE和mVISTA比较叶绿体基因组序列的相似性。使用Geneious Prime 2021软件中的Mauve对13个叶绿体基因组进行序列重排检测,并使用在线软件mVISTA中的LAGAN模型对13个序列进行比对。(2)展示IR区域的扩展和收缩比较,通过在线网站IRScope(https://irscope.shinyapps.io/irapp/)进行可视化。

4、重复序列检测
生物体的基因组,特别是高等生物的基因组,包含大量的重复序列,这些序列可以根据其在基因组中的分布模式分为分散重复序列(DRS)和串联重复序列(TRS)。首先,使用REPuter软件预测了八种黄杞属物种叶绿体基因组中的DRS。通过以下参数识别正向、反向、回文和互补重复序列:重复单位长度≥30 bp,序列一致性≥90%(Hamming distance=3)。然后,使用串联重复序列(TRF)分析网站(https://tandem.bu.edu/trf/trf.html)预测叶绿体基因组中的TRS。最后,使用MISA软件识别简单序列重复(SSR),将单核苷酸、双核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的最小重复阈值分别设置为10、5、4、3、3和3。

5、核苷酸多态性和突变位点分析
我们根据Carya、Engelhardia和Juglans的Pi值分析了核苷酸多态性。使用Geneious Prime 2021中的mafft对叶绿体基因组进行比对,参数设置默认。使用DnaSP v6.0计算从叶绿体基因组提取的蛋白编码基因、非编码基因和基因间区域的Pi值,以显示属水平的核苷酸多样性。为了消除同一物种不同个体的干扰,我们仅选择E. hainanensis_HN01、E. fenzelii_TTD01和E. roxburghiana_BPZ11作为E. hainanensis、E. fenzelii和E. roxburghiana的代表物种。参数设置为:window length=600 bp,step size=200 bp。之后,在Geneious Prime 2021软件中定位和统计对应的位点,并将Pi值大于0.01的序列片段用作候选高变异区域。   

为了全面比较Carya、Engelhardia和Juglans叶绿体基因组的基因组变异,我们计算了基因间隔、外显子、内含子和RNA基因中SNVs和插入缺失(InDels)位点的总数、长度和百分比。对于Engelhardia物种,我们仅保留同一物种中的一个个体进行核苷酸多态性分析。为了绘制SNVs和InDels数据的密度条形图,我们使用TBtools中的Genome Varscan插件,检测参数设置为:线程数(CPU)为2,基因组序列差异标准(Diff)为千分之一,VarRange为0到1,000,000。Carya、Engelhardia和Juglans与选定的参考序列R. chiliantha进行比对,然后输出变异位点信息。

6、密码子使用偏好
不同物种以不同频率使用不同的密码子,并且会存在一定的偏好。研究科或属之间密码子使用模式的差异可以帮助我们有效理解物种的遗传演化模式。此外,探索植物叶绿体基因组的密码子使用模式有助于研究植物在不同演化模式下的适应机制。除了对胡桃科的整体分析外,我们还分析了Engelhardioideae、Juglandoideae和Rhoipteleoideae。使用编码长度超过300 bp且起始密码子为ATG的同源基因分析密码子偏好。使用CodonW软件(http://codonw.sourceforge.net/)计算T3s、C3s、A3s、G3s、CAI、CBI、Fop、ENC和GC值。根据计算的相关值绘图:(I)以ENC为y轴,GC3s为x轴绘制图,以评估碱基组成对密码子使用偏好的影响,观察到的ENC值与预期ENC值进行比较,使用以下公式:ENC = 2 + GC3s + 29/[GC3s² + (1—GC3s)²];(II)使用[A3/(A3 + T3)]作为y轴,[G3/(G3 + C3)]作为x轴绘制坐标图,以评估遗传突变和自然选择对密码子使用偏好的影响。所有筛选出的基因根据ENC值整体进行测序。选择上、下5%的基因样本,定义为低表达组和高表达组,并计算每组的RSCU值。计算低表达组和高表达组之间的RSCU差异。RSCU > 1且△RSCU > 0.08的密码子定义为最佳密码子。   

7、胡桃科物种的系统发育关系
使用Geneious Prime 2021中的MAFFT v 7.308对叶绿体基因组进行了比对。采用最大似然(ML)法和贝叶斯(BI)法进行胡桃科物种的系统发育重建。通过Modeltest v3.7确定ML和BI分析的最佳核苷酸替代模型,其中完整的叶绿体基因组数据模型为GTR + I + G,BI分析使用CIPRES Science Gateway web server提供的RAxML-HPC v8.1.11和MrBayes v3.2.3在线工具进行。ML分析采用默认设置,进行1000次重复。BI树的设置为5000000迭代,采用GTRGAMMA模型,同时进行马尔可夫链蒙特卡罗(MCMC)运行,两个平行运行每1000代取样。前25%的树被丢弃作为烧入。剩余的树用于生成同源树。

8、胡桃科物种叶绿体基因组的进化分析
我们使用Morella rubra和其他50种选定的胡桃科物种的蛋白编码序列进行成对比对,观察了Ks(同义)、Ka(非同义)替代和Ka/Ks比率。使用M. rubra作为参考,与不同物种叶绿体的每个基因进行成对比对。使用Geneious Prime 2021提取80个共同的蛋白编码基因,并使用DnaSP v6.0计算Ka和Ks替代。此外,为了检测对具有不同功能的整个叶绿体基因的选择压力,将CDS基因分为与光合作用相关、自我复制相关和其他功能基因(表S1)。最后,我们根据不同功能分类或分类群绘制了CDS基因的Ka/Ks值的箱线图,并标记了组间差异的显著性。所有分析使用R版本4.3.0(https://www.R-project.org/)。

9、分歧时间估计和化石校准
我们基于80个编码序列(CDS)并结合四个化石的校准,估计了胡桃科物种的分歧时间。核苷酸替代模型与上述MrBayes参数相同。在设置为Yule过程特性树模型之前,将分子钟设置为对数正态松弛分子钟。对于MCMC程序,链长度为5 × 10^8代,每10000代取样。所有选项在BEAUTi v1.10.4中设置,导出为XML文件,并在BEAST v1.10.4中运行。在Tracer v.1.6(http://beast.bio.ed.ac.uk/Tracer/)中检查马尔可夫链的收敛性,并在去除前50%代burn-in后合并链。所有参数的有效样本量(ESS)超过200。使用FigTree v1.4.3(http://tree.bio.ed.ac.uk/software/figtree/)可视化每个节点的平均节点年龄和95%的最高后验密度(HPD)区间(上限和下限),并估计分支长度和分歧时间。   
         

 

表1 本研究中测序的黄杞属(Engelhardia)物种和Rhoiptelea chiliantha的分类、标本编号和GenBank登录号

主要结果

1、黄杞属物种叶绿体基因组的特征
黄杞属物种的完整叶绿体基因组长度略有不同,范围从161,069-162,336 bp,表现出四分体结构,包括一个大单拷贝(LSC)区域(89,927-91,637 bp)、两个反向重复(IR)区域(25,813-26,016 bp)和一个小单拷贝(SSC)区域(18,790-19,203 bp)(图1,表2)。在新测序的叶绿体基因组中共识别出134个基因,包括88个蛋白编码基因(CDS)、两个假基因(Ψycf1、Ψrps19)、37个转运RNA(tRNA)和八个核糖体RNA(rRNA)(表2)。所有Engelhardia物种的IRb区域中的ycf1(Ψycf1)和IRa区域中的rps19(Ψrps19)被识别为假基因。在这些基因中,有18个含有内含子的基因,其中三个基因rps12、clpP和ycf3有两个内含子,其余基因包含一个内含子(trnA-UGC、trnG-UCC、trnI-GAU、trnK-UUU、trnL-UAA、trnV-UAC、rpl2、rpl16、rps16、rpoC1、atpF、ndhA、ndhB、petB和petD)。这些新生成的黄杞属物种叶绿体基因组已存入GenBank(登录号见表1)。   

黄杞属物种叶绿体基因组的整体GC含量为35.8%–36.0%,编码序列(CDS)区域的GC含量为37.2%-37.3%。LSC(大单拷贝)区域的GC含量(33.2%-33.6%)和SSC(小单拷贝)区域的GC含量(29.3%-29.6%)均低于IR(反向重复)区域的GC含量(42.6%-42.7%)。

图1 黄杞属物种叶绿体基因组的基因组图谱。

物种名称显示在左上角,基因组图包括5个圈。从内到外,第一圈(A)显示正向和反向重复,通过红色和绿色弧线连接。第二圈(B)显示串联重复,用蓝色线段表示。第三圈(C)显示微卫星序列,用绿色和黄色线段表示。第四圈(D)显示大单拷贝(LSC)、小单拷贝(SSC)和反向重复(IRa和IRb)。第五圈(E)显示基因组的GC含量。基因分布在最外圈(F),可选的密码子使用偏好显示在基因名称后的括号中。圈内和圈外显示的基因分别以顺时针和逆时针方向转录。不同功能组的基因用不同颜色表示。   

 

    

表2 13个新组装的Engelhardia叶绿体基因组和一个Rhoiptelea chiliantha叶绿体基因组特征

         

 

2、黄杞属物种叶绿体比较基因组分析
对所有黄杞属物种的叶绿体基因组进行mVISTA和Mauve比对,显示出高度的共线性。研究发现,黄杞属物种叶绿体基因的组成和序列高度一致,且在序列中未检测到DNA片段的倒位或易位。序列一致性相对较低的区域包括rps16_trnQ-UUG、trnS-GCU_trnG-UCC、trnT-GGU_psbD、trnF-GAA_ndhJ、ndhK_ndhC、accD_psaI、petA_psbJ和ndhF_trnL-UAG。黄杞属物种中的大多数DNA序列变异发生在非编码区域,如基因间隔区域和基因内含子区域,LSC和SSC区域之间的序列差异显著高于IR区域。

通过分析黄杞属物种叶绿体基因组中LSC、SSC、IRa和IRb序列的边界差异,发现内边界差异较小。没有发生大的区域扩展和间隔区域的缩短,这与该属叶绿体的保守特征一致(图2)。所有物种中的ycf1基因跨越了SSC/IRa区域,SSC中的ycf1长度为4623-4729 bp,IRa中的长度为1004-1104 bp。在IRb/SSC边界附近形成了假基因(Ψycf1),并在所有黄杞属物种中观察到短的Ψycf1片段延伸到SSC区域。Ψycf1和ndhF的重叠仅在E. anminiana、E. spicata和E. villosa中被检测到。rps19基因在所有黄杞属物种中跨越LSC/IRb区域,并在IRa/LSC边界形成了假基因(Ψrps19)(图2)。   

图2 13个黄杞属物种叶绿体基因组中SSC、LSC和IR区域的边界位置比较。靠近或跨越边界的基因用黄色框表示。       

 


3、黄杞属物种叶绿体基因组中的重复序列
叶绿体基因组重复序列包括散在重复和串联重复。散在重复进一步分为四种类型:正向重复、反向重复、互补重复和回文重复。使用REPuter软件识别出在13个Engelhardia叶绿体基因组中存在2,368个重复序列,包括24-47个正向重复、7-16个反向重复、21-31个回文重复、1-4个互补重复和89-163个串联重复(图3)。大多数串联重复存在于非编码区域,如基因间隔区和内含子区域。总体而言,Engelhardia中的串联重复更为普遍,占所有重复类型的约60.52%。相反,互补重复相对较少,仅占1.01%。

本研究中,通过MISA在线软件对SSR进行了统计分析,共在13个Engelhardia叶绿体基因组中检测到1,530个SSR位点。不同个体之间SSR的总数变化不大,范围从111(E. roxburghiana_JFL02)到127(E. villosa)。这些叶绿体SSR(ptSSR)中,大多数为单核苷酸重复,占所有SSR的71.24%,其次是双核苷酸(13.07%)、三核苷酸(5.69%)、四核苷酸(4.97%)和三核苷酸重复(4.64%),而六核苷酸重复最少,仅占0.39%(图3)。A/T型单核苷酸是最丰富的SSR,占98.44%,仅检测到17个G/C单核苷酸重复,这也导致叶绿体中A和T的富集。大多数SSR位于LSC区域(72.88%),而分布在SSC(19.67%)和IR(7.45%)区域的SSR比例较小。此外,大多数SSR(87.84%)分布在IGS和内含子中,而仅有12.16%位于编码序列中(图4)。   

图3 对13个黄杞属物种叶绿体基因组中重复序列的分析:A. 分散重复序列的统计;B. 简单序列重复(SSR)的统计;C. 不同类型SSR的统计;D. 不同类型SSR的整体比例统计。

图4 在13个黄杞属物种叶绿体基因组中简单序列重复(SSR)的分布:A. LSC、SSC、IR区域及所有CDS中SSR数量统计;B. 不同区域检测到的SSR整体比例统计;C. 检测到的CDS和非编码序列中SSR的整体比例统计。

4、Carya、Engelhardia和Juglans叶绿体比较基因组分析基因组变异
Carya、Engelhardia和Juglans叶绿体比较基因组的分析基因组变异表明,Engelhardia的可变性高于Carya和Juglans(图5)。在Engelhardia中,有18个高度可变区域,Pi值>0.010,包括trnH-trnK、trnK-rps16、rps16-psbK、trnG-atpI、rpoB-trnT、trnT-psbD、psbC-trnM、rps4-trnT、trnL-ndhJ、ndhC-trnV、petA-psbJ、psbE-rpl33、rps11-rps8、rps3-rpl2、trnN-ndhF、ndhF-ccsA、ndhA和ndhH-ycf1,而Carya和Juglans分别只有7个和8个高度可变区域。其中,trnK-rps16、ndhF-rpl32和ycf1是这三个属共有的高变异热点区域(图5)。   
图5 Carya、Engelhardia和Juglans叶绿体基因组的核苷酸多样性和变异分布。曲线描述了基因组比对中π值的波动(虚线标记了π值为0.010),而曲线下方的方框代表SNVs(上部)、缺失和插入(下部)的分布。灰色阴影层表示IR区域的近似范围。

         

 

使用R. chiliantha作为参考,我们对Juglandoideae和Engelhardioideae的叶绿体基因组中的基因组变异进行了分享,包括单核苷酸变异(SNVs)、插入和缺失(InDels),并发现不同物种之间存在很大差异(表S5a)。在所有收集的物种中,共识别出115,213个SNVs、9,502个插入(1-274 bp)和10,428个缺失(1-2,468 bp)。在叶绿体基因组水平上,SNVs、缺失和插入的数量在不同个体之间变化不大,Juglandaceae的平均值分别为15.03、1.36和1.24,Carya为11.84、1.04和0.93,Engelhardia为17.48、1.48和1.64,Juglans为17.20、1.70和1.28。在这三种类型的基因组变异中,IR区域每千碱基的变异数量最少,Juglandaceae的平均值为1.71、0.15和0.09,Carya为1.81、0.13和0.11,Engelhardia为1.66、0.20和0.10,Juglans为1.70、0.14和0.05。LSC区域每千碱基的SNVs、缺失和插入数量最多,Juglandaceae的平均值为9.04、0.97和0.93,Carya为6.17、0.70和0.63,Engelhardia为10.62、1.01和1.23,Juglans为11.30、1.30和1.04。这些结果共同表明,IR区域比单拷贝区域更为保守。   

所有基因组结构变异都被映射到基于叶绿体基因组构建的系统发育树上,Carya(插入事件:132-199次;缺失事件:135-236次)、Engelhardia(186-364;155-311)和Juglans(149-230;192-331)发生的插入事件和缺失事件的时间差异很大。因此,Carya的结构变异少于Engelhardia和Juglans。Engelhardia物种之间的结构变异范围相对较大,特别是在E. serrata和E. villosa中,E. serrata有329个插入和306个缺失,E. villosa有364个插入和311个缺失。

这些识别出的InDels的相应基因组位置被映射并定位到Juglandoideae和Engelhardioideae的叶绿体基因组中。结果发现,Juglandaceae中90%的InDels位于内含子(35%)和基因间区域(55%),Carya中92%的InDels位于内含子(43%)和基因间区域(49%),Engelhardia中88%的InDels位于内含子(33%)和基因间区域(55%),而Juglans中91%的InDels位于内含子(31%)和基因间区域(60%)(图6)。   

图6 Carya、Engelhardia和Juglans叶绿体基因组中位于基因间隔、外显子、内含子和RNA基因上的SNVs、缺失和插入的平均数量

         

 

5、胡桃科叶绿体基因组的密码子使用分析
比较50个长度超过300 bp的胡桃科叶绿体基因组的编码序列,发现有两个密码子的RSCU值为1,分别是AUG和UGG,分别编码蛋氨酸(Met)和色氨酸(Trp)(表S6a)。有29个密码子的RSCU值大于1,其中16个以U结尾,12个以A结尾,这在Engelhardioideae、Juglandoideae和Rhoipteleoideae中是相同的(表S6a)。以U或A结尾的密码子是这三个亚科叶绿体中的优选密码子(图S6)。大多数胡桃科叶绿体基因组的基因密码子偏好没有显著差异(图S6)。然而,编码序列中第三个碱基的A/T含量显著高于G/C含量,T3s(0.4748–0.4782)> A3s(0.4399–0.4438)> G3s(0.1695–0.1722)> C3s(0.1613–0.1649)(表S6b)。我们发现Carya ovata和Carya palmeri的ENC、GC3s和GC值最高,而Platycarya strobilacea的值最低。在这三个亚科中,属内的密码子偏好没有显著差异(表S6b)。

进一步计算并绘制了三个亚科编码基因的密码子使用频次,包括ENC、Fop、CBI和CAI(表S6c)。CAI值在0.09到0.31之间,psbA、rbcL和psbD的CAI值最高,而rpl20、rpl18和rps8的CAI值最低。大多数CBI值范围在-0.23到0.23之间,最高的是psbA、psbD和rbcL,最低的是ndhF、ndhG和rps14。大多数Fop值在0.26到0.55之间,最高的是psbA、psbD和rbcL,最低的是ndhG、ndhF和petD。大多数ENC值集中在35.71到60.6之间,最高的是ycf3、ycf2和rpl2,最低的是rps18、petD和rps14(表S6c)。三个亚科的叶绿体基因组中高表达的基因是ycf2、rpoC1和rpoC2,低表达的基因是rps18、petD和rps14(表S6d)。结合表S4a中29个RSCU值大于1的高频密码子,最终确定了10个共同的最佳密码子,分别是CUU、GUU、UCU、UCA、CCU、CCA、GCU、AAU、CGA和GGA,且均以A或U结尾(表S6d)。   

密码子偏好指数(CBI)与最佳密码子使用频率(Fop)之间存在正相关关系,相关系数最高为0.97(表S6e)。CAI与CBI之间、CAI与Fop之间的相关系数也较高,分别为0.72和0.76,显示出正相关。此外,T3s/C3s、T3s/A3s、T3s/G3s、T3s/GC3s、T3s/GC、C3s/A3s、C3s/G3s、A3s/G3s、A3s/CAI、A3s/CBI、A3s/Fop、A3s/ENC、A3s/GC3s、A3s/GC、G3s/CAI、G3s/CBI、G3s/Fop、CAI/GC等之间存在负相关。其中,A3s/CAI显示出最高的负相关程度,相关系数为-0.57(图S7)。三个亚科的结果与整个胡桃科相似,最高的相关系数是CBI和Fop,其次是CAI与CBI之间以及CAI与Fop之间的相关系数(图S7)。ENC值与T3s、C3s、G3s和GC3s呈正相关,而与A3s呈负相关。我们的结果表明,同义密码子的第三个碱基含量与基因表达水平密切相关,T3s、C3s和G3s与基因表达呈正相关,而A3s与基因表达呈负相关(表S6e,图S7)。

所有筛选出的基因编码序列的ENC值范围从35.71到60.6。ENC频率使用公式(ENCexp-ENCobs)/ENCexp计算,范围从-0.25到0.28。在-0.1到0.1范围内有2,051个ENC频率,接近预期的ENC值(表S6f)。基于标准曲线公式ENC = 2 + GC3 + 29/[GC32 + (1 − GC3)2],我们将ENC作为纵坐标,GC3s作为横坐标绘制散点图(图7)。发现大多数基因位于标准曲线附近或上方(图7A)。然而,我们还发现所有物种中六个基因(rpl16、rps18、cemA、psbA、rps14和ycf3)的观察ENC值显著偏离标准曲线(图7A,B)。在所有基因中,ycf3的ENC值最高,而rps18和rpl16的ENC值最低(图7B;表S6f)。

PR2图用于分析编码氨基酸的密码子第三位的四种碱基组成,横坐标为G3/(G3 + C3),纵坐标为A3/(A3 + T3)。结果显示,在胡桃科的蛋白编码序列中,第三位密码子的A/T和G/C(嘧啶与嘌呤)使用略有不同(图7C)。PR2图显示,在36个胡桃科叶绿体基因组的CDS的第三位密码子的A/T和G/C使用存在轻微的不平衡,特别是在四个CDS(psbA、rpl20、rpl16和rps8)中(图7C)。第三和第四象限中的基因数量多于第一和第二象限,且分布在第四象限的基因数量大于分布在其他三个象限的基因数量,因此G和T的使用频率最高(图7C)。   

图7 ENC和PR2图显示了50种胡桃科物种叶绿体基因组中蛋白编码基因的情况。A. ENC图显示这些叶绿体中蛋白编码基因的观察和预期ENC值与GC3s值的关系。B. 比较两个不同气候区的ENC差异。C. PR2图显示50种胡桃科叶绿体中蛋白编码基因的碱基组成特征。红色表示来自Engelhardioideae物种的基因;绿色表示来自Juglandoideae物种的基因;蓝色表示来自Rhoipteleoideae物种的基因。

         

 

6、胡桃科的CDS选择压力分析
为了分析八种胡桃科物种的蛋白编码序列之间的进化压力,计算了80个蛋白编码序列(CDS)的Ka/Ks值。结果显示,78个基因的Ka/Ks值几乎都小于1,只有rpl22和psaI的Ka/Ks值大于1。我们还发现,rps16仅在胡桃科和Engelhardioideae中受到正选择。对于所有胡桃科样本,光合作用相关基因的Ka/Ks值显著低于自我复制相关基因和其他基因(图8A,表S7b)。在功能分类基因中,除了Engelhardioideae和Juglandoideae之间光合作用相关基因的差异外,其他Ka/Ks值没有显著差异(图8C,表S7c)。   
图8 对50种胡桃科物种的叶绿体基因同源基因的进化压力分析。


A比较三亚科中光合作用相关基因、自我复制相关基因和其他蛋白编码基因的Ka/Ks值。B 比较三亚科中光合作用相关基因、自我复制相关基因和其他蛋白编码基因的基因同源体的Ka/Ks值。*, p < 0.05; **, p < 0.01; ***, p < 0.001; NS, p > 0.05。C 显示Juglandoideae、Engelhardioideae和Rhoipteleoideae亚科中CDS基因的Ka/Ks值的热图。     

 

7、胡桃科的系统发育分析
本研究中,使用红橡树(Quercus rubra,Fagaceae)作为外群,基于完整的叶绿体基因组(排除一个倒位重复拷贝)的胡桃科物种的最大似然(ML)树和贝叶斯推断(BI)树显示出几乎相同的拓扑结构(图S8)。系统发育结果表明,胡桃科主要分为三个组,包括Juglandoideae、Engelhardioideae和Rhoipteleoideae亚科,支持率非常高(BS = 100%,PP = 1)。系统发育树进一步支持了7个主要分支,分别对应于7个属,即单系的Carya、Juglans、Pterocarya、Cyclocarya、Platycarya、Engelhardia和Rhoiptelea。

在Juglandoideae中有两个主要支系,支系I为Carya,支系II包括Juglans、Pterocarya、Cyclocarya和Platycarya。在ML树中,支系I内部的支持率(BS = 63-100%)低于支系II(BS = 66-100%)。Carya物种被分为两个组,C. hunanensis、C. kweichowensis、C. sinensis、C. polianei、C. tonkinensis和C. cathayensis被归为一组,而其余12个物种被归为另一组。Juglans被分为三个组,即Juglans/Dioscaryon组、Cardiocaryon组和Rhysocaryon组。Juglans/Dioscaryon组包括J. regia和J. sigillata,Cardiocaryon组包括J. mandshurica、J. ailanthifolia和J. hopeiensis,Rhysocaryon组包括J. cinerea、J. nigra、J. hindsii、J. major和J. microcarpa。Pterocarya被分为两个组,一个组包括P. fraxinifolia、P. stenoptera和P. hupehensis,另一个组包括P. macroptera var. insignis和P. tonkinensis。Cyclocarya paliurus是Cyclocarya的单一物种,根据系统发育关系与Pterocarya关系密切。   

Engelhardioideae的物种关系密切,进一步分为两个主要支系,与Engelhardia(支系I)和Psilocarpeae(支系II)一致,支持率非常高(BS = 100%,PP = 1)。支系I包括E. spicata、E. spicata var. rigida、E. hainanensis、E. serrata、E. anminiana和E. villosa。支系II包括E. roxburghiana和E. fenzelii,这两者是姐妹种。Rhoipteleoideae亚科仅包括R. chiliantha,是单一属和单一物种。

8、胡桃科的分歧时间和历史多样化
通过使用多个化石校正点来估计胡桃科的分化时间,结果显示胡桃科的crown节点约为97.69百万年前(95%最高后验密度(HPD):95.49-100.58百万年前),其在白垩纪早期时期与Myricaceae分化(图9)。三个亚科,即Rhoipteleoideae、Engelhardioideae和Juglandoideae,分别在89.28百万年前(95% HPD:85.6-92.96百万年前;白垩纪中期)和73.59百万年前(95% HPD:69.01-78.13百万年前;晚白垩世)分化(图9)。   

图9 基于80个蛋白编码基因的胡桃科分化时间校准系统发育树。使用带有4个化石先验的松弛分子钟模型估计的平均分歧时间(红色星)。节点上的蓝色条表示围绕平均分歧时间的95%最高后验密度(HPD)区间。节点按年龄编号。图中显示了胡桃科的属和亚科。     

 

胡桃科大部分属在46.20-73.59百万年前分化。Engelhardioideae亚科两个支系的分化时间大约在27.64-46.11百万年前,主要发生在早始新世到中渐新世。系统发育和分歧时间不支持Engelhardia在进化历史中发生快速辐射。在Juglandoideae亚科中,Carya的crown节点年龄估计为64.98百万年前(95% HPD:60.49-69.70百万年前);Platycarya为60.51百万年前(95% HPD:56.32-64.91百万年前),发生在晚古新世;Cyclocarya paliurus为54.10百万年前(95% HPD:50.84-57.41百万年前)。Pterocarya和Juglans的分化估计为46.29百万年前(95% HPD:43.43–49.63百万年前),发生在中始新世。Juglandoideae亚科大部分属在46.29-64.98百万年前分化,发生在中古新世到早始新世相对温暖干燥的气候中(图9)。

讨论

1、黄杞属物种叶绿体基因组的比较分析
在本研究中,来自八种Engelhardia的13个个体的叶绿体基因组被最新测序、注释和比较。结果显示,所有Engelhardia物种均具有典型的四分体结构,基因组大小相似,约为161 kb(161,069-162,336 bp),叶绿体基因组的GC含量为35.8%-36.0%,与之前获得的胡桃科叶绿体基因组的序列长度和组成相似。通过比较Engelhardia叶绿体基因组各部分的GC含量,发现IR区域的GC含量高于LSC和SSC区域,而高GC含量有助于基因组的稳定性,因此IR区域的保守性可能与GC含量有关。
使用mVISTA和Mauve比对所有Engelhardia物种的叶绿体基因组,显示出很好的共线性。序列中未检测到DNA片段的倒位或易位,这与叶绿体基因组的保守性一致。通过分析Engelhardia叶绿体基因组中LSC、SSC、IRa和IRb序列的边界差异,发现Engelhardia叶绿体基因组的边界差异较小,这与Carya的相对保守的IR边界模式相似。在Engelhardia中,ycf1基因包含两个拷贝,一个位于SSC/IRa边界,是一个完整基因,另一个位于IRb/SSC边界,以假基因Ψycf1的形式存在,不再编码蛋白质。同样,由于边界效应的存在,Ψrps19存在于IRa/LSC边界。
重复序列在基因序列和基因间隔中普遍存在,不仅保护编码序列,还维持基因组的稳定性。叶绿体基因组的SSR具有丰富的多态位点,广泛用于分子标记、品种鉴定等研究。本研究检查了散在重复和串联重复,发现Engelhardia中的串联重复更为常见(60.52%)。在我们的研究中,检测到Engelhardia中有24个互补重复,这一结果与其他胡桃科物种一致。几乎所有SSR的重复单元均由A和T碱基组成,这与Yi等人的先前研究一致。这些叶绿体SSR可以为Engelhardia提供候选分子标记,有助于种群遗传学和进化研究,以及其分子育种和保护。

DNA条形码是一种新型物种鉴定技术,使用标准短基因区域作为标记,以快速、准确和高效地识别物种。Zhang等人使用了五个叶绿体区域(psbA-trnH、trnL-trnF、rps16、trnS-trnG和rpl32-trnL)、一个核DNA区域(nrITS)和11个核简单序列重复(nSSR)进行Engelhardia的物种鉴定。在我们的研究中,我们使用完整的叶绿体基因组对Engelhardia进行核苷酸多态性分析,以寻找更多潜在的分子标记。结果显示,所有物种的IR区域的遗传多态性低于LSC和SSC区域,编码区序列比非编码区序列更保守,这与大多数被子植物的发现相似。然而,我们仍然在Engelhardia中发现了18个高度可变区域,包括trnK-rps16、ndhF-rpl32和ycf1,这些区域在Carya和Juglans中也高度可变。它们可以用于Engelhardia的物种鉴定,甚至用于胡桃科的物种鉴定。   

2、叶绿体基因组在两个亚科中的结构变异比较
以R. chiliantha为参考,我们对Juglandoideae和Engelhardioideae的叶绿体基因组中的基因组变异进行了表征,包括单核苷酸变异(SNVs)、插入和缺失(InDels)。尽管不同物种之间存在差异,但总体上保持了保守性。通过比较不同区域的基因组变异,我们发现IR区域每千碱基的变异数量最少,且比单拷贝区域更为保守,基因比基因间区域更为保守,这与基因组的特征一致。将这些突变定位到叶绿体基因组中,发现大多数插入和缺失分布在内含子和基因间区域。叶绿体中基因组结构变异的不均匀分布表明,它们可能会产生负面影响,并且可以通过净化选择轻易消除。

结构变异不仅可能影响基因组结构的异质性,还可能影响Juglandoideae和Engelhardioideae叶绿体中蛋白编码基因的进化。通过对蛋白编码基因中InDels的长度分析,发现3,993个Engelhardia中的InDels中,只有1,200个是3的倍数,而Carya和Juglans分别有1,428/5,670和1,248/4,764个InDels。这一发现表明,InDels移码的负选择可能不会真正影响叶绿体蛋白编码基因,这与其他开花植物的六个核基因组观察到的结果相反。通过将结构变异映射到叶绿体中蛋白编码基因的外显子和RNA基因,进一步确认了叶绿体基因组结构变异的普遍性,表明InDels可能是Juglandoideae和Engelhardioideae叶绿体基因进化的重要驱动因素。   

3、胡桃科叶绿体基因组中的密码子使用偏好和基因进化
胡桃科叶绿体基因组的密码子使用模式在探索其进化过程中起着重要作用。在我们的研究中,调查了胡桃科叶绿体基因组的密码子偏好。编码相同氨基酸的多个同义密码子的使用频率不相等,这一现象被称为密码子使用偏好。相对同义密码子使用(RSCU)可以直接反映密码子使用的偏好。因此,计算了所有选定叶绿体基因组的RSCU值。我们发现大多数密码子的第三个碱基以A或U结尾,这一结果与Crataegus、Pisum和Miscanthus等研究的结果一致,表明植物叶绿体中的第三个碱基可能具有相似的使用模式。通过构建高表达和低表达基因集,将RSCU > 1和ΔRSCU > 0.08的密码子定义为最佳密码子。然后,确定了胡桃科叶绿体基因组的九个最佳密码子,均以A或U结尾。一般而言,G和C(或A和T)在第三个密码子碱基上按比例分布,表明物种的密码子使用偏好受到突变压力的影响;如果在密码子的第三个碱基上分布不均,则表明密码子使用偏好受到自然选择压力的影响。因此,推测胡桃科叶绿体基因组序列中的密码子偏好不仅受到碱基突变的影响,还受到自然选择压力的影响。Engelhardioideae、Juglandoideae和Rhoipteleoideae物种的基因在ENC和PR2图中以不同颜色呈现。这三亚科植物的密码子使用偏好的主要驱动因素没有显著差异。

我们发现密码子偏好指数(CBI)与最佳密码子使用频率(Fop)之间存在正相关关系,相关系数最高为0.97,表明胡桃科叶绿体基因组中的密码子使用模式可能是由进化过程中最佳密码子使用频率决定的。在胡桃科及其两个亚科(Juglandoideae、Engelhardioideae)中,ENC值与T3s、C3s、G3s和GC3s呈正相关。然而,ENC值与A3s呈负相关。ENC值可用于确定基因的相对表达水平,因此我们推测胡桃科及其两个亚科(Juglandoideae、Engelhardioideae)同义密码子的第三个碱基含量与基因表达水平密切相关,T3s、C3s和G3s与基因表达呈正相关,而A3s与基因表达呈负相关。在Rhoipteleoideae亚科中,C3s、G3s和GC3s与基因表达呈正相关,而T3s和A3s与基因表达呈负相关。   

在胡桃科的叶绿体基因组中,有50个蛋白编码基因的长度超过300 bp。这些筛选出的基因编码序列的ENC值范围从35.71到60.60。根据ENC值的范围,20(完全偏倚)到61(无偏倚)之间的值,当ENC值小于35时,基因或基因组的密码子使用具有强烈的偏倚。基于这两个特征,我们发现胡桃科叶绿体中蛋白编码基因的密码子使用偏倚较弱。共有2051个ENC频率比值在-0.1到0.1之间(表S6f),接近预期的ENC值,表明大多数基因的预期ENC值与实际值之间的差异很小。结果显示,同义密码子第三个位置的碱基含量与基因表达密切相关。密码子第三个碱基的GC含量(GC3s)被认为最可能直接反映密码子使用模式,并可能是导致密码子使用偏倚的重要因素。以ENC为纵坐标,GC3s为横坐标绘制的散点图探讨了密码子使用的主要特征(图7)。当散点位于标准曲线附近时,表明密码子偏好受到突变压力的影响;反之,则表明密码子使用偏好受到自然选择等因素的影响。发现大多数散点位于曲线附近(图7),表明突变对密码子偏倚的影响更大。进一步的ENC图分析显示,大多数基因的ENC值接近预期值(图7A),这表明这些基因的密码子使用偏倚与GC3有关,突变是主要影响因素。此外,一些基因(rpl16、rps18和rps14)的ENC值远低于预期曲线(图7),这也证实了自然选择对这些基因密码子偏好的影响。

由于自然选择和碱基突变的影响,PR图绘制分析可以显示基因组中编码基因在使用第三个密码子碱基时的偏好。如果第三个密码子发生碱基突变,则同义密码子AT和CG在基因或基因组中的比例相等。相反,如果存在选择压力,一些“优先”用于翻译的密码子将被更频繁地使用。对胡桃科及其三个亚科的PR图分析显示,蛋白编码序列第三个碱基的A/T和G/C选择存在差异,使用G和T(嘌呤)碱基的频率更高(图7C),表明主要受到选择压力的影响。基于ENC图分析和PR图分析,自然选择和突变共同影响胡桃科叶绿体的密码子使用模式,其中突变压力起主导作用,这与Oncidium Gower Ramsey的结果一致。   

同义和非同义核苷酸替代模式对基因进化研究具有重要价值。由于纯化选择的影响,非同义核苷酸的替代率低于同义核苷酸,因此在大多数情况下Ka/Ks比率小于1。为了更清楚地了解胡桃科叶绿体的适应性进化,我们计算了蛋白编码基因的Ka/Ks比率。我们的结果显示,只有ycf1的Ka/Ks比率大于1,其余79个基因的Ka/Ks比率均小于1,表明存在强烈的纯化选择压力(表S7a)。我们还注意到,rps16仅在胡桃科和Engelhardioideae中受到正选择。作为植物叶绿体细胞器中的自我复制相关基因,rps16对植物的生存至关重要。被正选择的rps16基因可能在Engelhardioideae物种的适应过程中发挥关键作用。Engelhardioideae和Juglandoideae亚科之间的光合作用相关基因存在差异(图8C,表S7b),这可能是由于温带Juglandoideae亚科与热带Engelhardioideae亚科之间光合适应的差异。这些基因在叶绿体中的分布表明,SSC和LSC区域中的大多数基因经历了比其他叶绿体基因组区域更大的选择压力,而IR区域则更为保守。此外,不同功能的基因进化速率不同,参与光合作用的基因在叶绿体中的选择压力通常低于与自我复制和其他功能相关的基因,导致基因表达和功能的差异。

4、胡桃科的系统发育关系
植物分类学传统上基于形态特征,但形态常常受到环境和平行进化等因素的影响,因此也需要分子证据。基于核基因和叶绿体基因片段,前人对Engelhardia的系统发育关系进行了相关研究,但这些叶绿体基因片段没有足够的信息来区分密切相关的物种。在我们的研究中,基于50个胡桃科样本和来自 Myricaceae、Betulaceae及Fagaceae 的6个物种构建了最大似然(ML)和贝叶斯推断(BI)系统发育树。根据两种不同算法(ML和BI)构建的系统发育树呈现出几乎相同的拓扑结构。

胡桃科被分为三个组,包括Juglandoideae、Engelhardioideae和Rhoipteleoideae亚科,并具有非常高的支持率(BS = 100%,PP = 1)。首先,Juglandoideae亚科的五个主要分支与五个属完全对应,即Carya、Juglans、Pterocarya、Cyclocarya和Platycarya,所有这些属都有很高的支持率(BS = 100%,PP = 1)。根据果实形态,这五个属被分为两类,包括有翅和无翅类型,其中Pterocarya、Cyclocarya和Platycarya属于有翅类型,而Carya和Juglans属于无翅类型。根据系统发育树的结果,发现Juglans与Pterocarya之间的系统发育关系更为接近。尽管这两个属的果实形态完全不同,但Carya和Juglans的果实形态相似,系统发育关系较远。其次,Engelhardioideae亚科的物种关系密切,被分为两个主要支系,与Engelhardia(支系I)和Psilocarpeae(支系II)一致,并得到了强有力的支持(BS = 100%,PP = 1)。支系I包括E. spicata、E. spicata var. rigida、E. hainanensis、E. serrata、E. anminiana和E. villosa。支系II包括E. roxburghiana和E. fenzelii,这两者是姐妹种。第三,R. chiliantha是Rhoipteleoideae亚科中唯一的物种,在系统发育关系中位于胡桃科的基底,同时也是中国的濒危特有物种。   

5、探索胡桃科的起源和进化关系
在之前的研究中,基于化石数据,胡桃科的crown节点年龄约为84百万年前,发生在白垩纪。我们的结果表明,胡桃科的分化时间约为97.69百万年前(95% HPD:95.49-100.58百万年前),使用的是来自化石植物Budvaricarpus serialis的较早化石时间节点(约85百万年前)。三个亚科Rhoipteleoideae、Engelhardioideae和Juglandoideae相继在89.28百万年前(95% HPD:85.61-92.96百万年前)和73.59百万年前(95% HPD:69.01-78.13百万年前)分化。

Juglandoideae亚科大约在69.01到78.13百万年前分化,跨越白垩纪到古新世。北热带假说为Juglandoideae亚科的起源和多样性提供了合理的解释,即在温暖的古新世和始新世期间,Juglandoideae亚科的物种形成并迅速多样化,通过北大西洋陆桥和白令陆桥从北美扩散到欧洲和亚洲。然而,古新世极热期后发生的全球降温导致大多数物种灭绝。Cylocarya和Platycarya是东亚的特有种,而Pterocarya主要分布在南俄罗斯的高加索和东亚地区。Carya和Juglans在欧亚大陆的分布范围较广,这可能与它们坚果状的果实形态有关,有利于动物的传播和传播。根据我们的结果,Carya和Juglans的分化时间约为64.98百万年前,Juglans和Pterocarya的分化时间约为46.29百万年前,Pterocarya和Cyclocarya的分化时间约为54.10百万年前。因此,我们推测Juglandoideae亚科内的分化事件发生在很久以前,并经历了漫长的进化过程。   

Engelhardioideae亚科的两个支系的分化时间约为27.64到46.11百万年前,主要发生在早始新世到中渐新世。Engelhardia果实的最早化石记录出现在南美洲和北美洲,最古老的Alatonucula ignis化石在阿根廷的早始新世地层中被发现。同时,在美国阿拉斯加的中新世地层中发现了一种化石(Palaeocarya olsoni)。这意味着这些分类群在始新世期间广泛存在于北半球和南半球的部分地区。或许由于古新世的高温,Engelhardia的物种广泛分布于高纬度地区。根据在中国海南岛晚始新世地层中发现的最早Palaeocarya果实化石,表明Engelhardia植物在晚始新世开始占据热带亚洲,而物种多样性在渐新世和中新世时期出现。

总之,我们的研究使用80个编码序列(CDs)准确估计了胡桃科物种的分化时间。我们发现胡桃科物种具有复杂的进化历史和物种多样性,这可能受到地理变化、气候变化和动物共同进化的影响。   

 

结论

本研究分析了新测序的八种黄杞属(Engelhardia)物种的叶绿体基因组特征,并澄清了叶绿体基因组的基本结构为典型的四分体结构。发现了三个突变热点区域,可以作为推断系统发育分析和物种鉴定的潜在分子标记。InDels可能是Juglandoideae和Engelhardioideae叶绿体进化的重要驱动因素。自然选择和突变共同影响了胡桃科及其三个亚科的密码子使用模式,其中突变压力起主要作用。系统发育结果充分支持Engelhardia作为一个单系群,包括两个组,以及胡桃科分为三个亚科。分化时间分析揭示Engelhardia起源于晚白垩世,并在晚始新世多样化,而胡桃科起源于早白垩纪早期,并在白垩纪中期分化。总体而言,本研究表明,叶绿体基因组序列提供了变异信息,有助于解析系统发育关系,并帮助理解物种如何适应多样的生态栖息地。   

温馨说明

 1、惠通生物针对叶绿体、线粒体测序项目组装结果准确,可以提供定制化高级分析,欢迎联系我们获取小基因组文章专业解决方案,助力文章发表。

 2、惠通生物小基因组服务电话:18926264030



欢迎关注物种分类及进化研究



  深圳市惠通生物科技有限公司,成立于2016年,技术成员在生物信息方面均有10年以上分析经验,在小基因组项目(叶绿体、线粒体、病毒)上形成强劲技术优势并可提供定制化高级分析内容。成立至今已服务客户单位200余家包括中国科学院植物研究所、中国科学院昆明植物研究所、华南农业大学、浙江大学、中国人民解放军疾病预防控制中心、武汉水生生物研究所等科研单位。合作老师发表小基因组SCI文章逾200篇,发表在《BMC Plant Biology》、forests》、《 Frontiers in Plant Science》、《Frontiers in Microbiologymolecules》、《International Journal of Biological Macromolecules》、《Plant Genome》、《International Journal of Molecular Sciences》、《Infectious Diseases of Poverty》、《Insect Science》《genes》、《frontiers in Veterinary Science》《Frontiers in Immunology》等杂志。

物种分类及进化研究
《物种分类及进化研究》专注于物种分类及进化研究,主要研究技术为植物叶绿体基因组测序,植物线粒体基因测序,动物线粒体基因组测序,真菌线粒体基因组测序,真菌基因组测序。我们会定期通过网络,汇总物种分类及进化相关研究进展,解读相关研究论文。
 最新文章