摘要
背景
黄渤海是北太平洋温带海草栖息地之一。先前研究发现,该地区普遍存在3个属的8种海草:大叶藻属Zostera、虾海藻属Phyllospadix和川蔓藻属Ruppia。目前,共有3个属5个种的完整细胞器基因组(cp和mt基因组)已经发表。水平基因转移 (HGT)是指遗传物质在同一细胞内或不同生物体之间细胞器之间的移动。细胞器间基因转移被认为是长期进化过程的一个关键属性。以往对海草的研究主要集中于基因从细胞器向核基因组的转移。因此,海草物种细胞器间的基因转移需要进一步研究。
在真核细胞中,除细胞核外,只有线粒体和叶绿体拥有自己的遗传物质。这些细胞器独立于核基因组而进化。大多数开花植物的cp基因组在大小、基因组成和基因组织方面通常是保守的。然而,某些分类群的cp基因组发生了显著重排,可能是由于倒置重复(IR)边界的倒位和变化。除了cp基因组重排之外,cp基因的丢失在被子植物的各个谱系中也经常发生。值得注意的是,被子植物cp基因组中的基因丢失是一个持续的过程。缺失的cp基因可能已转移到mt和核基因组中,或者已完全丢失。与cp基因组相比,被子植物的mt基因组大小差异很大。此外,这些mt基因组表现出多样的结构和形式,如环状、线状或分枝状。因此,分析植物mt基因组的结构具有挑战性,因为存在广泛的基因组重组、假基因化或基因丢失、mt和核基因组之间的基因转移事件,以及它们不同的大小和结构。因此,对植物完整的mt和cp基因组进行比较分析对于理解其细胞器基因组进化至关重要。
本研究从头组装了中华川蔓藻的cp和mt基因组。尽管中华川蔓藻的cp基因组已经发表,但我们首次成功测序了mt基因组。此外,我们还对基因丢失、细胞器间基因转移、基因重排和序列分歧进行了系统分析,为海草物种的分子进化提供了有价值的见解。
黄渤海海草叶绿体到线粒体的水平基因转移
Horizontal gene transfer from chloroplast to mitochondria of seagrasses in the yellow–Bohai seas
时间:2024 杂志:Genomics 影响因子:3.4 分区:2/2区
研究方法
1、植物取样、DNA提取和细胞器基因组测序
从黄渤海海域选取了4种具有代表性的海草,包括2种大叶藻(矮大叶藻和大叶藻),1种虾海藻(红纤维虾海藻)和1种川蔓藻(中华川蔓藻)。本研究对中华川蔓藻的细胞器基因序列进行了测序,并从NCBI中获得了矮大叶藻和大叶藻和红纤维虾海藻的序列数据。NCBI访问并下载了7种单子叶植物的DNA测序数据。
中华川蔓藻的幼叶采自中国东营(采样地点位置:119.1253 E, 37.4324 N)(图 6)。使用 TRIzol® 试剂(Invitrogen)进行总基因组DNA提取。按照制造商的说明,使用Illumina TruSeq文库制备试剂盒制备具∼500 bp DNA插入片段的双端文库。随后,在IlluminaNovaSeq 6000平台上对文库进行测序,以150 bp双端读取的形式生成原始数据。构建长片段文库,利用Qubit进行质量检查,然后在ONT平台上进行测序。
图6.中华川蔓藻叶、花序和根
2、中华川蔓藻线粒体基因组的从头组装
在线粒体基因组组装之前,使用Trimmomatic对Illumina测序的原始数据进行过滤。为了进行比对,使用Minimap2在默认设置下将ONT产生的所有长读长映射到密切相关物种大叶藻的线粒体基因组上,从而开发了成对映射格式(PAF)文件。比对质量大于20的比对读长被鉴定为同源,并被视为潜在的线粒体序列。然后使用GetOrganelle和Canuv在默认设置下对干净的双端读长和同ONT 长读长进行从头组装。通过使用BLASTN将使用GetOrganelle和Canu组装的草图重叠群与大叶藻的mt CDS进行比较,确定了候选的线粒体基因组重叠群。最终的线粒体基因组序列是通过在重叠指标的指导下手动连接所选的重叠群而生成的。使用sprai包中的“check_circularity.pl”脚本验证组装的循环性,该脚本可在http://zombie.cb.ku-tokyo.ac.jp/sprai/上找到。
使用BWA将短Illumina读段和长ONT读段与mt基因组比对,然后删除未映射的读段、具有多个映射的读段和PCR重复。然后准备二进制比对/映射(BAM) 格式的排序文件,以获得mt和cp基因组的覆盖范围。使用BAM文件作为参考,在Integrative Genomics Viewer (IGV) 中手动检查这些组装的保真度。
3、中华川蔓藻cp基因组的从头组装
使用FastQC对原始测序读段进行质量控制。使用Trimmomatic修剪低质量或冗余读段 (Q < 20)。然后将修剪后的读段导入GetOrganelle,它使用SPAdes作为核心从头组装程序。中华川蔓藻(NC_088726.1)的可用cp基因组序列被用作重新组装的基础,以产生几个潜在的cp基因组组装。随后使用BLASTN比较来参考E值截止为10^-5的cp基因组,验证最终cp基因组组装的准确性,特别关注IR的顺序和连续性,并在必要时手动调整。使用sprai包中的“check_circularity.pl”脚本评估cp组装体的环状性 ( http://zombie.cb.k.utokyo.ac.jp/sprai/ )。然后根据参考cp基因组重组和比对cp组装体,并使用BLASTN自比对来划定LSC、IR和SSC区域的边界。
4、细胞器基因组注释
GeSeq在线工具和BLASTN对细胞器基因组进行注释。使用中华川蔓藻(NC_088726.1) 和大叶藻(NC_035345.1)作为参考对cp和mt基因组进行注释。使用Snap Gene Viewer ( https://www.snapgene.com/ )手动校正蛋白质编码基因中的起始/终止密码子和外显子/内含子边界,并以参考基因模型为指导。最后,使用Organellar Genome DRAW (OGDRAW) 程序对cp和mt基因组进行图形可视化。cp和mt基因组序列已分别以登录号PP438604 和PP438605保存在GenBank中。
5、基因丢失和水平基因转移分析
所有被检测物种中存在的核心基因都被排除在分析之外。其余基因在物种间表现出存在或不存在差异,表明存在基因丢失或获得。从剩余的基因中验证了物种间变异的存在与否。使用RIdeogram R包及其默认参数绘制热图。
使用BLASTn工具比较了四种海草的cp和mt基因组序列。然后使用TBtools中实现的 Circos包可视化所有基因组上的MTPT分布。使用GeSeq注释序列以识别由MTPT编码的基因。此外,使用长读测序确认了与这些MTPT相关的迁移事件。当MTPT由长读支持并且两侧是mtDNA时,表明MTPT整合到线粒体基因组中。
6、基因排列比较
使用Mauve软件对四种海草的细胞器基因组进行比对。然后,使用默认参数通过GeSeq将共线性区域可视化。
7、K2p、Ka/Ks和Pi分析
使用Kimura-2参数模型和MEGA X软件计算每个PCG同源物之间的遗传距离。使用MAFFT对PCG序列进行比对,并使用基于MLWL的Ka/Ks计算版本分析四种海草(中华川蔓藻、大叶藻、矮大叶藻和红纤维虾海藻)的Ka/K比率。使用Python和R软件绘制图表。使用MAFFT(对四种海草的同源基因序列进行比对。随后,使用DnaSP5计算每个基因的遗传变异,特别是Pi。
主要研究结果
1、海草细胞器的组成
在本研究中,使用Illumina 和Oxford Nanopore Technologies (ONT)测序平台对中华川蔓藻的cp和mt基因组(图 1)进行了测序。通过Illumina 测序共获得41,770,748个和 6,263,158,620 bp碱基(Q30 = 92.03 %)。同样,通过Nanopore 测序共获得1,366,251 个读段,包含89.8亿个碱基。子读段的N50 为18,078 bp,N90为2398bp。这些数据促进了细胞器基因组的组装,实现了cp基因组8136倍的深覆盖度和mt基因组2086倍的深覆盖度。
使用点图将新测序的cp基因组与已发表的基因组进行比较。除了基因组提取和组装外,两个cp基因组的基因结构、基因大小和基因含量均无差异。我们发现两个cp基因组表现出高度共线性,仅在6个SNP位点有所不同。因此,中华川蔓藻cp基因组表现出高度的保守性。海草的四个cp基因组具有典型的结构,包括一个由83,224–88,952 bp组成的大单拷贝(LSC),一个由8823–19,047 bp组成的小单拷贝(SSC),以及两个由24,628–25,915 bp组成的IR。中华川蔓藻、红纤维虾海藻、矮大叶藻和大叶藻的cp基因组大小分别为158,897 bp、152,726 bp、146,090 bp和143,877 bp;4种海草cp基因组总GC含量为35.46–36.18%,其中IRs最高(41.95–42.72 %),其次是LSC(32.67–33.86 %),SSC最低(27.99–29.44 %)。四种海草的cp基因组经过注释,含有116–136个基因,包括78–88个蛋白质编码基因(PCG),8个核糖体RNA(rRNA)基因和30–40个转移RNA(tRNA)基因。
在中华川蔓藻(图 1)、红纤维虾海藻和矮大叶藻的线粒体基因组中均解析出单个环状分子,但大叶藻的线粒体基因组为线性。mtDNA长度在中华川蔓藻中为256,174 bp,在红纤维虾海藻中为 178,929 bp,在矮大叶藻中为221,614 bp,在大叶藻中为191,481 bp (表 1)。总计在中华川蔓藻mt基因组中注释了44个基因,包括28个蛋白质编码基因 (PCG)、10个tRNA和6rRNA 基因;在红纤维虾海藻中注释了44个基因,包括26个PCG、15个tRNA 和3个rRNA基因矮大叶藻中注释了50个基因,包括29个PCG、18个tRNA和3rRNA 基因;大叶藻中注释了38个基因,包括25个PCG、10个tRNA和3个rRNA基因。中华川蔓藻、红纤维虾海藻、矮大叶藻和大叶藻线粒体基因组中总体 GC 含量分别为49.63 %、46.26 %、48.69 %和45.14 %。值得注意的是,rRNA基因(rrn18、rrn26、rrn5)在中华川蔓藻mt基因组中以双拷贝出现,这与大多数rRNA基因通常的单拷贝出现情况相矛盾(表 2)。
图1.中华川蔓藻线粒体基因组图谱。圆圈内的基因按顺时针方向读取,圆圈外的基因按逆时针方向读取。基因根据其功能用不同颜色标记。里面最深的灰色表示GC含量,而较浅的灰色表示AT含量。
表1.本研究分析的物种完整mt和cp基因组的一般信息
表2.中华川蔓藻mt基因组中的注释基因
2、海草细胞器基因组中的基因丢失
为了探索海草细胞器基因组中的基因丢失,对海草物种与其他单子叶植物(紫萍、花蔺、石刁柏、海枣、牛筋草、水稻和玉米)的基因含量进行了比较分析。结果表明,大多数cp-ndh基因在水鳖科的cp基因组中缺失,cp-rps19基因在大叶藻科的cp基因组中丢失(图2A)。值得注意的是,cp-pet和cp-psb基因在大叶藻的cp基因组中丢失。与四种海草的cp基因组相比,mt基因组表现出大量的基因丢失(图2B)。除红纤维虾海藻中的mt-rpl16基因外,所有被检测的海草中均缺失mt-rpl 基因。总体而言,在进化过程中,四种海草中的大多数核糖体基因和mt-rps基因都丢失了。
图2.这些物种细胞器中存在的基因标示如下:红色框表示存在c基因,橙色框表示存在mt基因,白色框表示不存在该基因。红色突出显示的分类单元代表大叶藻科,蓝色代表大叶藻科,紫色代表绿粉藻科,黄色代表水鳖科,绿色代表非海洋单子叶植物。
3、海草细胞器基因组之间的水平基因转移
为了确定缺失的cp基因是否转移到了mt基因组中,我们对它们的细胞器基因组之间的水平基因转移进行了分析。结果表明,丢失的cp基因没有转移到mt基因组中。对cp和 mt基因组进行了BLASTn分析,以识别同源序列,然后提取并注释。这些片段中的大多数是从cpDNA转移到mtDNA的,尽管对于少数具有高序列相似性的tRNA基因,转移方向无法明确确定。因此,我们将这些称为线粒体质体序列(MTPT)。此外,通过长读测序验证了这些片段从cpDNA的迁移,并将其整合到中华川蔓藻的mtDNA中。
在4种海草的cp和mt基因组之间共鉴定出17–48个MTPT,总长度从18,520 bp到 55,880 bp不等(图 3)。最长的序列(5839 bp)由rps7、ndhB、trnL-CCA和ycf2组成,它从cp基因组转移到了mt基因组的基因间隔区(IGS)。cp基因组片段占mt基因组的比例各不相同:大叶藻为29.18 %,矮大叶藻为25.13 %,红纤维虾海藻为13.80 %,中华川蔓藻为7.20 %,其中大叶藻mt基因组中所占比例最高。转移序列主要发现于线粒体基因组的rRNA或IGS区域。值得注意的是,在线粒体基因组中检测到了几个完整的质体衍生的PCG,包括atpH、rbcL、atpB、atpE、atpF、ndhB、petD、rpoC1和rpl23。此外,还检测到了三个基因片段(rbcL、atpB、atpE),它们可能在大叶藻中作为整体一起转移到线粒体基因组中。此外,剩余的MTPT被鉴定为质体rRNA和tRNA的一部分。这些发现强调了海草中DNA从叶绿体到线粒体的大量转移。
图3.mt和cp基因组之间的共享序列分别用蓝色和绿色弧线表示。内圆弧线表示MTPT片段。外圆标签(黑色和灰色)分别表示完整基因和部分基因。(A)大叶藻、(B)矮大叶藻、(C)红纤维虾海藻和(D)中华川蔓藻。
4、细胞器基因组重排和同源区域分析
为了研究四种海草细胞器基因组结构的进化,对它们的同源区域进行了鉴定和比较。中华川蔓藻、大叶藻、矮大叶藻和红纤维虾海藻的cp基因组表现出明显的共线性,除了由倒位重复区域导致的倒位 (图 4 A)。具体来说,中华川蔓藻在SSC和IR区域显示出不同的排列,其特征是rpl32-ndhF-ycf1-trnN-GUU-trnR-ACG和trnR-ACG-trnN-GUU-ycf1-ndhF片段之间的倒置。与cp基因组相比,这四种海草的mt基因组表现出更大的复杂性和多变性(图 4 B)。在大叶藻和矮大叶藻之间共鉴定出27个共线区块,在红纤维虾海藻和矮大叶藻之间共鉴定出28个共线区块,在红纤维虾海藻和中华川蔓藻之间共鉴定出28个共线区块。这些共线区块分散在整个线粒体基因组中,表明发生了多次结构重排的不同事件。
随后,通过分析四种海草基因组中直系同源基因的基因组位置,评估了重排对基因簇的潜在破坏。因此,在海草物种中观察到基因顺序的低保守性(图 4 C)。仅检测到由两个或三个基因组成的五个共线基因簇。两个基因簇(nad5-trnC-GCA和rrn18-rrn5)为四个物种所共有,三个基因簇(atp6-trnE-UUC-trnQ-UUG、ccmFn-rps7和ccmFc-trnD-GUG-cox1)为两个物种所共有。
图4.(A)四种海草的cp基因组的同源区域。(B)四种海草的mt基因组的同源区域。(C)四种海草的线粒体基因组之间的保守基因块。
5、核心PCG的变异和演化速率
为了探究四种海草之间的遗传变异,计算了它们的mt基因组中的Kimura 2参数(K2p)、非同义(Ka)和同义(Ks)替换率以及核酸多样性(pi)。在分析的23个共享PCG中,atp4在四种海草中显示出最大的遗传距离,其次是matR(图5A)。nad1基因在四种海草中的遗传距离最小,表明该基因具有较高的保守性。大多数核心PCG的Ka/Ks比率低于1,表明这些基因经历了纯化选择。相反,atp4、atp8、ccmFc和nad5的比率大于1,表明这些基因受到了正向选择压力(图5B)。核心PCGs的全局分析表明,matR基因表现出最高的变异水平,其次是atp4、atp8、rps7和ccmFn(图5C)。相反,ccmC和nad1基因表现出明显较低的遗传变异,表明这些基因是高度保守的。
图5. ( A)四种海草的K2p小提琴图。(B)四种海草的Ka/Ks比率箱线图。(C)四种海草的Pi值线图。
结论
本研究报道了中华川蔓藻的完整细胞器基因组。丢失的cp基因没有通过水平基因转移转移到mt基因组。基因重排分析揭示了中华川蔓藻cp基因组中以前未发现的大型倒位。鉴定出四个受正向选择的基因和五个可变区,为DNA标记的开发提供了参考。虽然需要额外的湿实验室验证,但这项研究为海草物种的适应性进化提供了重要见解,并为未来的研究开辟了可能的方向。
温馨说明
1、惠通生物针对叶绿体、线粒体测序项目组装结果准确,可以提供定制化高级分析,欢迎联系我们获取小基因组文章专业解决方案,助力文章发表。
2、惠通生物小基因组服务电话:18926264030
欢迎关注物种分类及进化研究
深圳市惠通生物科技有限公司,成立于2016年,技术成员在生物信息方面均有10年以上分析经验,在小基因组项目(叶绿体、线粒体、病毒)上形成强劲技术优势并可提供定制化高级分析内容。成立至今已服务客户单位200余家包括中国科学院植物研究所、中国科学院昆明植物研究所、华南农业大学、浙江大学、中国人民解放军疾病预防控制中心、武汉水生生物研究所等科研单位。合作老师发表小基因组SCI文章逾200篇,发表在《BMC Plant Biology》、《forests》、《 Frontiers in Plant Science》、《Frontiers in Microbiology》、《molecules》、《International Journal of Biological Macromolecules》、《Plant Genome》、《International Journal of Molecular Sciences》、《Infectious Diseases of Poverty》、《Insect Science》、《genes》、《frontiers in Veterinary Science》《Frontiers in Immunology》等杂志。