​水生草本植物水禾(Hygroryza aristata)的线粒体基因组中高度活跃的重复介导重组

文摘   科学   2024-08-16 09:02   湖南  

摘要

在本研究中,我们对水禾的细胞器基因组进行了测序和组装,包括线粒体基因组(587,847 bp)和质体基因组(135,675 bp)。线粒体基因组可以重组成各种构象,由25个重复对(13个SR、6个MR、1个LR和5个CR)介导。LR1和SR5能够与其他重叠群结合,形成复杂的重复单元,从而促进进一步的同源重组。不同物种的同源重组率差异很大,但这些重复对的长度与它们介导的重组率之间仍存在明显的正相关性。线粒体基因组整合了来自叶绿体的七个完整的蛋白质编码基因。两种细胞器的密码子使用模式相似,第三个密码子明显偏向C和T。禾本目的基因图谱显示rpl6(琥珀酸脱氢酶亚基(sdh3和sdh4))已全部丢失。此外,与PACMAD进化枝相比,BOP进化枝保留了更多可变基因。

背景

水禾,又名浮竹,是一种多年生水生草本植物,因其海绵状膨胀的叶鞘能够漂浮在缓慢流动的淡水水体表面而闻名。水禾仅原产于东南亚热带地区。然而,由于原生分布范围有限、栖息地破坏和破碎化,以及广泛用作鱼和牲畜饲料,该物种的稀有度正在迅速增加。2021年,它被列为中国国家二级保护野生植物。同时,由于其独特的美学品质,该物种受到世界各地水族爱好者的广泛青睐,在其原生范围之外构成了一些入侵风险。近年来,人们对水污染的担忧日益加剧,使浮竹作为水体净化的天然材料受到了前所未有的关注。此外,它还是木脂素和吲哚生物碱等化合物的来源,这些化合物因其抗炎和抗氧化特性而被用于传统药物。然而,对其遗传信息的研究严重缺乏。目前,只有一个完整的水禾叶绿体记录可用,严重阻碍了该物种的保护和研究工作。

水生草本植物水禾(Hygroryza aristata)的线粒体基因组中高度活跃的重复介导重组  
Highly active repeat-mediated recombination in the mitogenome of the aquatic grass Hygroryza aristata
时间:2024 杂志:BMC Plant Biology 影响因子:5.3 分区:1/2区

植物有两种细胞器:叶绿体(cp)和线粒体(mt)。叶绿体可以被视为生态系统的基石,是通过光合作用进行碳固定的重要细胞器。研究证实,植物线粒体对呼吸、代谢、程序性细胞死亡(类似于动物线粒体)至关重要,并在细胞质雄性不育育种中发挥重要作用,是育种研究中不可或缺的组成部分。与植物叶绿体和动物线粒体的相对紧凑和保守的基因组相比,植物线粒体基因组表现出独特的特征,包括大小变化很大、频繁的基因组重排、通过细胞内和水平转移从各种来源掺入DNA,以及广泛的RNA编辑位点。植物线粒体基因组的变异甚至可以在单个物种内发生显着波动。尽管大多数线粒体基因组在物理图谱上可以绘制为单环状结构,即“主环”模型,但更多的实验证据证实,这并不是体内线粒体的主要结构。相反,它们不断参与由重复对介导的动态同源重组(HR),从而形成各种小尺寸形式的动态混合,包括分支线性、环状、线性、降解、彗星和分支环状结构等。HR是一种重要的、进化上保守的同源依赖性DNA修复过程,用于消除潜在的有害损伤,特别是双链断裂(DSB)。HR也存在于质体中,尽管频率较低。大多数已发表的植物线粒体基因组含有至少一对重复序列,可作为分子间或分子内重组的位点,从而产生多种替代排列(同工型)。有人提出,较大的重复序列可以频繁地在分子内或分子间重组,而较小的重复序列可能导致细微的重排。然而,基于长测序读取的定量研究表明,不同物种之间存在显著差异。   

材料和方法

1、植物材料和基因组测序:水禾(Hygroryza aristata)样品采自武汉,通过组织培养保存于中国科学院水生生物研究所。采用改良的CTAB法从新鲜叶片中提取基因组DNA。纯化的DNA用于制备 Illumina文库和Nanopore文库。Illumina文库在Illumina Hiseq4000平台上测序。原始读取通过Fastp过滤。Nanopore文库在PromethION P48测序仪上进行测序。为了确保我们的数据足以进行细胞器的组装,我们使用Jellyfish和 GenomeScope根据k聚体评估整个基因组的大小。

2、细胞器基因组组装和注释:使用GetOrangelle组装叶绿体基因组,以Illumina全基因组测序(WGS)数据作为输入。为了检测水禾线粒体基因组中可能促进重组的重复序列并深入了解其在生物体内的可变构象,我们采用了一种复杂的组装策略。1使用Flye和Unicycler以及默认参数来初步组装纳米孔长读段。2)使用BLASTn以1e-5的e值为阈值,针对被子植物编码的全套线粒体蛋白质编码基因搜索所有重叠群。3)然后,我们使用44个候选重叠群作为参考,利用BWA-MEM2从 Illumina WGS数据中识别潜在的线粒体读段。4)随后,利用SPAdes(k -mer = 27、53、71、87、99、111、119、127)对提取的Illumina读段进行从头组装。5)然后通过删除覆盖深度小于10倍的边来简化组装图。此外,使用Bandage的交互式可视化界面手动删除叶绿体和核衍生节点。在此过程中,我们检测到了几个可能介导HR的重复序列,它们表现出多重连接和加倍的覆盖深度。6)最后,在Nanopore长读段的帮助下,我们成功获得了水禾的完整线粒体基因组,为单个环状分子(即“主环”模型)。   

使用GeSeq对cp和mt基因组进行注释,参考之前发布的水禾cp基因组(NCBI 登录号 NC_058302.1)和可用禾本目线粒体基因组。此外,使用tRNAscan-SE以默认设置验证 tRNA。使用Geneious Prime对PCG进行手动验证和编辑。最后,使用OGDRAW将两个圆形细胞器可视化。

3、基因组重组检测:在组装线粒体基因组的过程中,我们检测到了25个可能促进HR的重复序列。为了确认HR的发生并评估重复序列长度与其相关重组频率之间的相关性,将纳米孔长读长映射到这些假定的构象上。每个重复序列都有两条路径表示一级构象(m1和m2),两条路径表示二级构象(s1和s2)。利用minimap2,将纳米孔长读长分别与这四种假设构象比对。每条假设路径都包括重复序列及其相邻的重叠群。如果相邻的重叠群短于1 kb,则包括一个额外的重叠群以确保比对准确性。只有与整个重复序列比对并且包含重复序列两侧至少100 bp区域的读段才被认为支持该特定构型。如果两条路径支持同一种构象(m1 和m2、s1和s2),则只确认计数最高的路径。m1/m2的重组频率(F m )计算为max(m1|m2)。类似地,s1/s2的重组频率(Fs)计算为max(s1|s2)。重组率由min(F m |F s )/(F m +F s )决定。因此,根据这种计算方法,重组率应在0到50%之间。同时,在研究重复序列的跨物种变异时,我们还纳入了另外10种被子植物,这些被子植物在之前的研究中已经过重组频率的定性评估。   

4、细胞器基因转移:目前,由于缺乏已发表的核基因组,因此只有两种细胞器基因组可用于识别水禾中的细胞内序列迁移。为了识别可能在细胞器之间转移的同源序列,我们使用BLASTn比较了cpDNA和mtDNA,使用GeSeq提取并注释已识别的转移DNA片段。随后,使用Tbtools可视化。

5、重复序列分析:我们分析了两种细胞器中三种不同类型的重复序列。(1)使用MISA识别简单序列重复(SSR),也称为微卫星,单核苷酸重复、二核苷酸重复、三核苷酸重复、四核苷酸重复、五核苷酸重复和六核苷酸重复(2)利用在线工具REPuter识别四种类型的分散重复,即正向(F)、回文(P)、反向(R)和互补(C)重复。(3)使用TRF识别串联重复元件。

6、密码子使用偏好性:提取了总共51个cp CDS和34个mt CDS。使用EMBOSS计算了这些基因的基本组成属性,包括整体GC含量、GC1/2/3(密码子第一、第二和第三个碱基位置的GC含量)、GC12(GC和GC2的平均值)以及GC3s(同义密码子第三碱基位置的GC含量,不包括Met、Trp和三个终止密码子)。随后,使用CodonW进行密码子使用分析,包括计算有效密码子数(ENC)和确定相对同义密码子使用率(RSCU)。

7、RNA编辑位点:为了识别PCG中出现的RNA编辑位点,我们从NCBI (SRR16192102) 下载了转录组数据。然后,我们使用BWA-MEM2将RNA测序数据映射到从细胞器基因组中提取的PCG。随后,使用REDItools分析每个位点的碱基组成和覆盖率。对于高拷贝叶绿体PCG,需要最低20倍覆盖率和至少10%的读取支持才能被视为RNA编辑位点。但是,对于低拷贝数和低表达的线粒体PCG,覆盖率阈值放宽至10倍。

8、系统发育分析:我们利用所有可用的禾本目线粒体基因组进行系统发育分析。由于这些基因组中的注释信息不完整,并且缺少许多核心基因,我们对它们进行了重新注释。随后,我们获得了一个由32个基因组成的数据集,其中包括24个核心基因和8个可变基因。使用 MAFFT对每个基因进行比对,并在连接之前手动修剪。利用IQ-TREE进行系统发育分析,选择TVM + F + I + I + R2 模型作为最佳拟合的核苷酸替换模型。   

根据系统发育分析结果,我们选取与水禾亲缘关系最近的两个稻属物种(O. rufipogon和O. sativa )研究其线粒体基因组的结构变化。首先使用BLASTn程序对基因组进行两两比较,然后仅保留长度超过1,000 bp的同源区域,最后使用RIdeogram进行可视化。

主要研究结果

1、线粒体基因组组装和注释:通过全基因组测序生成了23.60 Gb Illumina 读数和22.54 Gb Nanopore读数。水禾的整个基因组大小估计约为319.08 Mb。6.43 Gb Illumina 短读段的一个子集被鉴定为可能来自线粒体基因组,随后用于从头组装。由于存在大量重复序列,初始组装图呈现出复杂的构象。然而,利用ONT长读段使我们能够将线粒体基因组表示为单个环状分子587,847 bp(图1),这明显大于陆地植物线粒体基因组的平均长度(404.02 kb)。叶绿体和线粒体基因组的覆盖深度分别为822.3×和159.5×(仅考虑Illumina reads),线粒体基因组的GC含量为44.63%(图1),明显高于同物种叶绿体基因组的GC含量(39.03%)。

在水禾的线粒体基因组中,我们注释了一整套24个核心基因(图 1),包括5个ATP合酶基因,9个NADH脱氢酶基因,此外还有一个叶绿体衍生的ndhB,4个细胞色素C生物合成基因,3个细胞色素C氧化酶基因,泛醇细胞色素c还原酶,一个转运膜蛋白和一个成熟酶。线粒体基因组中的可变基因包括三个核糖体蛋白大亚基以及叶绿体衍生的rpl2和rpl23,十个核糖体蛋白小亚基以及叶绿体衍生的rps7)。   

图1水禾线粒体基因组图谱

2、重复序列介导同源重组:在Illumina短读长组装过程中,我们在初始图中检测到20个重复序列(SR1-SR13、MR1-MR6、LR1),这些序列具有多个连接和两倍的覆盖深度,从而形成了复杂的线粒体基因组结构。其中,除LR1和MR3外,其余重复序列的重组频率较低,低于 15%。由于没有来自ONT读数的支持证据证实SR8和SR10的二级配置,因此它们都被认为是假阳性或在介导重组方面无效。

LR1产生的两种构象(主要:contig7-LR1-contig8/contig31-LR1-contig32;次要:contig7-LR1-contig32/contig31-LR1-contig8)出现的频率几乎相等(385/363)(图 2)。在任一构象中,LR1都可以与其他contig结合形成重复(图2)。例如,在我们的主环模型中,contig7-LR1-contig8(CR1)和contig31-LR1-contig32(CR2)(图2A),或contig8-LR1-contig31(CR3)和contig7-LR1-contig32(CR4)(图2B)。上述4个contigs的测序深度约为平均深度的2倍(contig7:278.3×;contig8:252.0×;contig31:248.3×;contig32:226.9×),但LR1的深度是平均深度的4倍(474.8×),同时,SR5-contig29还形成了一个组成重复序列,即CR5。   

图2 LR1介导的两种构象的示意图

重复序列的长度与相应的基因组重组率呈明显的正相关关系(r  =0.58,p  <0.01;图 3)。在水禾中,这种相关性更为明显(r  =0.74,p  <0.01)。超过1000 bp的6个重复序列(LR1、CR1-CR5)都表现出较高的重组率(>0.3)。理论上,这6个重复序列可以产生64种不同的高频构象。   

图3点图描绘了重复对的长度及其同源重组率

3、细胞器基因组之间序列交换(MTCP):在进化过程中,线粒体基因组倾向于合并来自其他细胞内基因组的片段并将其整合到自己的基因组中。线粒体基因组的特定重叠群显示出高于平均水平的深度(contig25:1723.0×;contig28:1776.6×;contig29:1492.7×;contig48:1679.5×),它们来自叶绿体基因组。这表明这两个细胞器之间存在显著的序列转移。通过比较水禾的两个细胞器,我们鉴定了六个线粒体叶绿体DNA 序列(MTCP)(图 4),其中四个来自叶绿体的倒置重复(IR)区域并对应于上面提到的高深度重叠群。这解释了为什么这些重叠群的深度大于mt和cp基因组平均深度的总和。这6个MTCP的总长度为20,684 bp,分别占mt和cp基因组总长度的3.52%和15.25%。这6个叶绿体长片段内的许多完整的基因被转移到线粒体基因组中。这些转移包括九个蛋白质编码基因然而,尽管mtDNA中存在另外七个完整的cp PCG,但在转录组数据中没有发现它们表达的证据。   

图4水禾两种细胞器基因组之间的同源序列

4、重复序列分析:在质体组中鉴定了23个简单序列重复(SSR),在线粒体组中鉴定了145个。在这两种细胞器中,分散重复的频率都高于SSR,质体组中有67个,线粒体组中有681个。其中,线粒体组中大于1 kb的分散重复有89个(13.07%)。此外,没有检测到反向(R)或互补(C)重复。相对于核基因组中的高频率出现,串联重复元件在水禾的线粒体基因组中仅发现了35次,占线粒体DNA总长度的0.51%。

5、密码子使用偏好性和RNA编辑:线粒体基因组中PCG的GC含量如下:GC1(48.21%)> GC2(42.84%)>GC3(38.07%)(表S5)。此外,GC1明显高于整个基因组的平均GC含量(44.63%;图1)。虽然两种细胞器对每种氨基酸共享相同的最常用密码子,但线粒体基因组中的有效密码子数(ENC)仍然明显高于质体基因组中的密码子数(55.45>50.61),表明线粒体基因组表现出较弱的密码子偏好。   

将RNA测序数据映射到PCG上时,发现mt PCG的平均覆盖度仅为3.72,而cp PCG的相应值为59.90。这表明mt PCG的表达水平明显低于cp PCG。由于mt PCG的表达水平低,因此仅鉴定出2个mt基因和3个编辑位点,这比叶绿体基因(14个基因和61个编辑位点)少得多。此外,mt中这三个编辑位点的编辑效率均为1,这表明不能排除个体间基因突变的可能性。

6、系统发育分析:水禾所属的BOP进化枝的拓扑结构为[稻亚科,(竹亚科,早熟禾亚科)](图 5)。所分析的大多数物种都含有全套24个核心特有线粒体基因。此外,所有物种都保留了以下基因:3个rRNA基因,rps3、rps4、rps7、rps12、rps13和rpl16。但是,没有sdh3和sdh4的存在。狗牙根×非洲狗牙根丢失的基因最多,包括5个核心基因(atp1、atp4、matR、nad4L和nad9)和10个可变基因,并且也是禾本科中替换速度最快的。

图5禾本目系统发育树和基因图谱

尽管存在明显的结构变异和重排,水稻和野生稻的线粒体基因组之间仍存在丰富的同源序列,后者中基本没有发现独特的片段(图 6);虽然水禾属与稻属于同一亚科,但水禾的线粒体基因组中只有27.10%的序列与稻属有同源性,且大多数位于蛋白质编码区。   

图6水禾与两种稻属植物的共线性

结论

我们利用组织培养法成功培育了水禾,为保护这一濒危物种的种质资源提供了一种新方法。借助Nanopore长读长技术,我们量化了25个重复对(13个SR、6个MR、1个LR和5个CR)介导的同源重组率,并将水禾的线粒体DNA组装为主环模型。通过结合之前对其他10种被子植物的量化研究,尽管物种之间存在差异,但我们证实了重复序列的长度与其相应的重组率之间存在明显的正相关性。在这些物种中,水禾的构象最为复杂,其中6个重复对的长度超过1000 bp,其HR率超过0.3。同时,本研究发现的复杂重复序列对也是前所未有的,它们对水生高等植物线粒体基因组的进化具有重要意义,有助于更深入地了解植物线粒体基因组中重复序列介导的重组模式。水禾的叶绿体基因组的插入序列大部分来自倒置重复区域,总共包含9个完整的蛋白质编码基因,其中两个发生了假基因化,其余七个在线粒体基因组中没有表达的迹象。这两种细胞器基因组都表现出相似的密码子使用偏向,但mtDNA中的PCGs显示出更均衡的同义密码子使用。禾本目线粒体基因组的基因图谱表明rpl6、sdh3和sdh4基因完全丢失,而稻属与水禾属相比保留了更多数量的可变基因。   

温馨说明

 1、惠通生物针对叶绿体、线粒体测序项目组装结果准确,可以提供定制化高级分析,欢迎联系我们获取小基因组文章专业解决方案,助力文章发表。

 2、惠通生物小基因组服务电话:18926264030


欢迎关注物种分类及进化研究



  深圳市惠通生物科技有限公司,成立于2016年,技术成员在生物信息方面均有10年以上分析经验,在小基因组项目(叶绿体、线粒体、病毒)上形成强劲技术优势并可提供定制化高级分析内容。成立至今已服务客户单位200余家包括中国科学院植物研究所、中国科学院昆明植物研究所、华南农业大学、浙江大学、中国人民解放军疾病预防控制中心、武汉水生生物研究所等科研单位。合作老师发表小基因组SCI文章逾200篇,发表在《BMC Plant Biology》、forests》、 Frontiers in Plant Science》、《Frontiers in Microbiologymolecules》、International Journal of Biological Macromolecules》、《Plant Genome》、International Journal of Molecular Sciences》、《Infectious Diseases of Poverty》、《Insect Science》genes》、《frontiers in Veterinary Science》《Frontiers in Immunology》等杂志。

物种分类及进化研究
《物种分类及进化研究》专注于物种分类及进化研究,主要研究技术为植物叶绿体基因组测序,植物线粒体基因测序,动物线粒体基因组测序,真菌线粒体基因组测序,真菌基因组测序。我们会定期通过网络,汇总物种分类及进化相关研究进展,解读相关研究论文。
 最新文章