IF5.2|基于过滤的DNA富集方法和Nanopore测序获得甘蔗植原体的完整基因组序列

文摘   2024-05-10 09:01   湖南  

摘要

植原体是限制于韧皮部的植物病原体,如甘蔗白叶(SCWL)植原体,它们给甘蔗工业带来了巨大的经济损失。由于植原体无法在体外培养,对它们的研究一直受到限制。然而,随着基因组测序技术的发展,人们正在深入研究植原体的各个方面。在本研究中,我们为甘蔗白叶(SCWL)植原体开发了一种DNA富集方法,通过Illumina测序评估了DNA富集的效果,并利用Illumina和Nanopore测序技术获得了与中国甘蔗白叶相关的"Candidatus Phytoplasma sacchari"分离株SCWL1的完整基因组序列。Illumina测序分析表明,从总叶DNA中只有1.21%的测序reads映射到SCWL1基因组,而从富集DNA中有40.97%的测序reads映射到SCWL1基因组。分离株SCWL1的基因组包括一个538,951 bp的环状染色体和一个2,976 bp的质粒。我们在环状染色体上鉴定到459个蛋白编码基因、2个完整的5S-23S-16S rRNA基因操纵子、27个tRNA基因和一个不完整的潜在移动单元(PMU)。基于测序基因组的系统发育分析、平均核苷酸同一性(ANI)和数字DNA-DNA杂交(dDDH)值显示,SCWL植原体和甘蔗青枯(SCGS)植原体属于同一个植原体物种。

本研究提供了一种用于植原体测序的基因组DNA富集方法。此外,我们报告了首个"Ca. Phytoplasma sacchari"分离株的完整基因组,为进一步研究"Ca. Phytoplasma sacchari"分离株的进化关系和致病机制提供了重要基础。

基于过滤的DNA富集方法和Nanopore测序获得"Candidatus Phytoplasma sacchari"的完整基因组序列
Complete genome sequence of “Candidatus Phytoplasma sacchari” obtained using a filter-based DNA enrichment method and Nanopore sequencing
时间:2024 杂志:Frontiers in Microbiology 影响因子:5.2 分区:2区

研究方法

1、植原体来源
2018年,从云南临沧收集了表现SCWL症状的甘蔗(Saccharum officinarum L.)样品。这些样品在云南省农业科学院甘蔗研究所的无虫温室中进行保存和繁殖。本研究使用的是ROC22甘蔗品种。

2、叶片基因组DNA提取
采用SDS法从甘蔗叶片中提取基因组DNA。提取的DNA用1%琼脂糖凝胶电泳检测,并使用Qubit® 3.0荧光计进行定量。

3、SCWL植原体DNA富集
将约5 g的甘蔗叶片剪成小块,在1 × PBS缓冲液中研磨成匀浆。将匀浆置于50 ml离心管中,12,000 rpm离心5分钟。弃去上清,沉淀用50 ml 1 × PBS缓冲液重悬,重复3次。将悬浮液依次通过100、70、40、10和5 μm的过滤膜。将滤液12,000 rpm离心5分钟,弃去上清。加入20 μl DNase I(3 units/μl)、20 μl 10 × DNase I反应缓冲液和200 μl ddH2O,混匀。37°C孵育10分钟,然后加入40 μl EDTA(25 mmol/L),65°C孵育10分钟。12,000 rpm离心5分钟,弃去上清,用Ezup柱式细菌基因组DNA纯化试剂盒提取DNA,按照说明书操作。进行3个生物学重复。

4、文库构建和测序
本研究采用Illumina短读长和Nanopore长读长两种测序技术进行基因组测序。对于Illumina测序,使用0.2 μg富集DNA作为输入材料构建测序文库,采用NEBNext® Ultra™ DNA文库制备试剂盒按照说明书操作。测序在Illumina NovaSeq 6000平台上进行,获得150 bp双端reads。对于Nanopore测序,使用2.5 μg总DNA作为输入材料构建测序文库,采用ONT连接试剂盒,在PromethION测序仪上进行测序。(样本在深圳市惠通生物科技有限公司测序)

5、基因组组装和注释
使用Unicycler软件进行组装。首先,使用高质量的Illumina数据(Q30 > 85%)进行组装,获得高质量的基因组contigs。然后,使用Nanopore数据连接这些高质量的contigs,获得完整基因组。最后,使用Pilon软件结合Illumina数据校正组装的基因组,获得最终的高精度基因组序列。使用BWA 将Illumina测序reads比对到SCWL1基因组,评估SCWL植原体DNA富集的效果。使用Bamdst分析测序深度。采用Prokka进行基因组注释,包括使用Prodigal、Aragorn、RNAmmer和Infernal预测开放阅读框(ORF)、tRNA、rRNA和ncRNA。使用KEGG、COG、NR、UniProt、GO、Pfam、RefSeq和TIGRFAMs数据库进行功能注释。

6、系统发育分析
系统发育分析中,比较了14个完整的植原体基因组和"Ca. Phytoplasma sacchari"分离株SCGS的草图基因组。使用OrthoMC识别同源基因簇,MUSCLE进行多序列比对,然后将其连接成一个超级比对矩阵。利用MEGA X中的最大似然法构建系统发育树。使用EzBioCloud的orthoANI工具计算平均核苷酸同一性(ANI)。使用Genome-to-Genome Distance Calculator (GGDC 3.0; https://ggdc.dsmz.de/ggdc.php#)计算数字DNA-DNA杂交值。

         

 

主要结果

1、"Ca. Phytoplasma sacchari"分离株SCWL1基因组的一般特征
研究分析结果显示,"Ca. Phytoplasma sacchari"分离株SCWL1的基因组由一个环状染色体和一个质粒组成,染色体长538,951 bp,G+C含量为20.54%(图1),质粒长2,976 bp,G+C含量为21.00%。染色体包含459个编码序列(CDS)、两个完整的5S-23S-16S rRNA基因操纵子和27个tRNA基因(表1和图1)。两个16S rRNA基因序列的同一性为100%。CDS的总长度为413,403 bp,平均长度为901 bp,占染色体总长度的76.71%。   

图1 "Candidatus Phytoplasma sacchari"分离株SCWL1染色体圈图。
从外到内的环分别为:(1)标尺。(2和3)正向和反向链上的编码序列。(4)rRNA基因(红色)和tRNA基因(黑色)。(5)GC含量(高于平均值:红色;低于平均值:蓝色)。(6)GC偏移指数(正:紫色;负:橙色)。

表1 "Candidatus Phytoplasma sacchari"分离株SCWL1基因组的一般特征

2、评估SCWL分离株DNA富集方法
通过Illumina测序评估了SCWL植原体DNA富集方法的效果。对叶片中的富集DNA和总DNA进行Illumina测序。经过质量控制评估,分别获得了平均421.95万和1686.93万条clean reads(表2)。从总DNA中只有平均20.44万条reads比对到SCWL1基因组,占所有clean reads的1.21%,而从富集DNA中有平均174.45万条reads比对到SCWL1基因组,占所有clean reads的40.97%(图2)。从总DNA获得的最高测序覆盖度为99.13%,从富集DNA获得的最高测序覆盖度为100%(表2)。   
         

 

表2 Illumina测序数据

         

 

图2 "Candidatus Phytoplasma sacchari"分离株SCWL1基因组的测序reads比例


3、蛋白编码基因的功能注释
为了获取基因全面的功能信息,使用8个数据库对SCWL1基因组中的蛋白编码基因进行了注释。使用KEGG数据库注释了200个基因,并根据KEGG通路进行分类(图3)。代谢中基因数最多的是全局和概述图(116个基因)和碳水化合物代谢(41个基因);在遗传信息加工中,翻译(72个基因)和复制与修复(49个基因)富集了最多的基因。使用COG数据库注释了348个基因,并将其分配到21个功能类别(图4)。最丰富的功能类别是COG分类J(翻译、核糖体结构和生物合成)。根据GO数据库,我们注释了378个基因,分为3个功能类别(生物过程、细胞成分和分子功能)。每个功能类别注释最多的前20个GO terms如图5所示。生物过程、细胞成分和分子功能terms富集最多的分别是翻译、质膜成分和细胞质,以及ATP结合。Nr数据库(424个基因)和RefSeq数据库(424个基因)注释的基因数最多。在NR数据库中,389个基因被注释为"Ca. Phytoplasma sacchari"基因组,占所有注释基因的91.75%。   
         

 

图3 "Candidatus Phytoplasma sacchari"分离株SCWL1基因组的KEGG通路注释分类图

         

 

图4 "Candidatus Phytoplasma sacchari"分离株SCWL1基因组的COG注释分类图    

图5 "Candidatus Phytoplasma sacchari"分离株SCWL1基因组的GO注释分类图

4、代谢通路
与其他植原体分离株一样,SCWL1分离株缺乏许多编码三羧酸循环、氧化磷酸化、戊糖磷酸途径和F1F0 ATP合酶的基因。也缺乏编码磷酸烯醇式丙酮酸依赖的糖磷酸转移系统(PTS)、己糖激酶和糖转运系统(malE、malG和malF)的基因。与"Ca. Phytoplasma mali"分离株AT基因组类似,SCWL1分离株基因组中只存在5个糖酵解相关基因(Pgi、PfkA、FbaA、TpiA和PykF)(图6)。尽管SCWL1基因组没有糖酵解通路相关基因,但存在编码苹果酸或柠檬酸转运蛋白(citS)、苹果酸酶(sfcA)、丙酮酸脱氢酶多酶复合物(pdhA、pdhB、pdhC和pdhD)和一个假定的磷酸丙酮酰转移酶(pduL)的基因(图6)。此外,在SCWL1基因组中发现了柠檬酸裂解酶基因簇(citXFEDG),编码apo-柠檬酸裂解酶磷酸核糖基-脱磷-CoA转移酶(citX)、柠檬酸裂解酶的α亚基(citF)、β亚基(citE)和γ亚基(citD),以及2-(5′-三磷酸核糖基)-3′-脱磷辅酶A合成酶(citG)。
         

 

   

图6.SCWL1分离株基因组中与能量产生通路相关基因的注释。红色标记的蛋白质表示在SCWL1基因组中存在;虚线表示该反应涉及的酶缺失。

5、潜在的移动单元(PMU)和效应基因
PMU在植原体基因组中很常见。在SCWL1基因组中发现了一个大小为23.6 kb的PMU,包含tra5、tmk、dnaB和dnaG(图7)。植原体PMU区域的其他核心基因,如ssb、rpoD和himA,散布在该分离株的整个基因组中。在PMU区域,注释到两个不完整的hflB基因和一个不完整的dnaG基因。在SCWL1分离株基因组中没有发现与植原体效应蛋白TENGU、SAP05、SAP11和SAP54同源的蛋白。
         

 

图7 "Candidatus Phytoplasma sacchari"分离株SCWL1中的潜在移动单元(PMU)。
dnaG,DNA引物酶;tra5,IS3家族转座酶;hflB,ATP依赖的Zn蛋白酶;tmk,胸苷酸激酶;dnaB,复制性DNA解旋酶
         

 

6、系统发育关系
对SCWL1分离株和14个植原体基因组的比较分析发现存在191个单拷贝蛋白。基于这些单拷贝蛋白的序列串联构建的系统发育树显示,SCWL1分离株与SCGS分离株最为相近(图8)。全长16S rRNA基因序列比较分析表明,SCWL1和SCGS分离株的序列同一性为99.87%。在整个基因组水平上,SCGS与SCWL1的平均核苷酸同一性(ANI)值为98.80%,数字DNA-DNA杂交(dDDH)值为89.50%。   

图8 基于191个单拷贝蛋白串联连接比对推断的植原体最大似然系统发育树


讨论

在本研究中,我们开发了一种新的方法来富集SCWL植原体分离株的DNA,比之前建立的方法更简单快捷。简单来说,该方法如下:首先,通过研磨甘蔗叶片释放SCWL植原体;然后,通过多次洗涤去除在研磨过程中释放的宿主DNA,并通过串联过滤去除宿主组织和细胞,最后使用DNase I消化残余的宿主DNA。最后提取过滤后的SCWL植原体细胞的基因组DNA。Illumina测序结果显示,富集DNA的SCWL植原体reads数量显著增加,平均测序深度和覆盖度等数据也优于使用总叶DNA的结果。尽管通过富集DNA测序获得的reads中有40.97%比对到SCWL1分离株基因组,但非SCWL植原体reads仍占很大比例。这可能是因为在最终DNA提取步骤(过滤过程)中,仍存在许多内生微生物和宿主植物细胞器。尽管这是本研究开发的富集方法的局限性,但该方法不需要昂贵的设备和试剂,操作方便快捷,富集DNA可满足Illumina测序要求。   

随着测序成本的降低和新一代测序(NGS)等多种测序技术的发展,植原体基因组可以轻松测序,并产生大量测序数据,从而实现更高的覆盖度和更完整的基因组。第三代测序技术的出现可以产生更长的reads,使基因组组装更加容易。植原体基因组富含重复序列,仅使用二代测序数据进行组装很困难。本研究中,尽管使用富集DNA进行Illumina测序的覆盖度达到100%,但仅使用Illumina测序数据无法成功组装SCWL1分离株的基因组。最近几项研究通过结合二代和三代测序技术获得了完整的植原体基因组(Wang等,2018;Debonneville等,2022;Huang等,2022)。本研究中,虽然使用富集DNA进行二代测序,但由于DNA浓度较低,不适合用于三代文库制备和测序,因此我们使用总叶DNA进行了Nanopore测序。尽管结合二代和三代测序不需要基因组富集,但使用总叶DNA进行Illumina测序无法完全覆盖SCWL1分离株的基因组。Nanopore测序的准确性低于Illumina测序,这意味着如果仅使用Nanopore测序数据,组装基因组的准确性将降低。因此,适当富集植原体DNA对于植原体基因组测序是必要的。

早期,植原体基因组大小估计为530-1350 kb,GC含量为21-33%。最近的研究报告了完整植原体基因组的大小为576-960 kb(Wei和Zhao,2022)。本研究中,SCWL1染色体大小为538,951 bp,是迄今报道的最小的完整植原体染色体,预测的GC含量和编码基因数也是所有已报道的完整植原体基因组中最少的。与"Ca. Phytoplasma mali"分离株AT类似,SCWL1分离株的染色体也呈现规则的GC偏移模式。由于"Ca. Phytoplasma mali"分离株AT基因组缺乏所有糖酵解相关基因,因此提出它利用苹果酸作为碳和能源来源(Kube等,2008)。本研究中,SCWL1分离株基因组也缺乏糖酵解相关酶,但存在编码将苹果酸转化为乙酸的酶。因此,SCWL1分离株可能不依赖于糖酵解来产生能量,而是利用苹果酸-乙酸转化通路作为糖酵解的替代途径,成为其主要的碳源获取和能量产生方式。   

随着基因组测序技术的进步,基于全基因组序列对植原体的分类和系统发育可以得到阐明。使用基因组数据对原核生物进行分类的公认最低标准是,同种分离株的ANI值应大于95-96%,DDH值应大于70%(Richter和Rosselló-Móra,2009;Chun等,2018)。2022年,修订版的"Ca. phytoplasma"物种定义指南提出了95%的全基因组ANI标准用于"Ca. phytoplasma"物种划分(Bertaccini等,2022)。前期研究曾提出SCGS分离株为新的"Ca. Phytoplasma sacchari"分类单元(Kirdat等,2021)。最近的多位点序列分型显示,SCGS和SCWL植原体分离株属于"Ca. Phytoplasma sacchari"的不同种群,但这一分类缺乏基因组水平的证据(Abeysinghe等,2016;Zhang等,2023)。本研究从基因组水平分析了SCGS和SCWL分离株的系统发育关系,发现它们基因组间的ANI和dDDH值高于"Ca. phytoplasma"物种分类的阈值。由于目前只有两个"Ca. Phytoplasma sacchari"分离株的基因组可用,为进一步阐明"Ca. Phytoplasma sacchari"的进化关系和种群结构,需要对该属更多分离株进行基因组测序;这可以利用本研究开发的富集方法进行。

总结

为提高植原体测序效率,我们开发了一种基于过滤的SCWL植原体基因组富集方法。该方法增加了Illumina测序获得的植原体reads数量。这不仅有助于启动更多"Ca. Phytoplasma sacchari"基因组测序项目,也为其他植原体物种基因组DNA的富集提供了重要参考。SCWL1分离株的基因组序列是16SrXI群植原体分离株的首个完整基因组序列,促进了对16SrXI群基因组特征的深入理解。此外,"Ca. Phytoplasma sacchari"SCWL1分离株的染色体是已知完整基因组植原体中最小的环状染色体。本研究还提供了基因组证据,证明SCGS植原体和SCWL属于同一植原体物种。SCWL1分离株完整基因组的获得,将有助于未来对"Ca. Phytoplasma sacchari"分子进化和致病机理的研究。   

温馨说明

 1、惠通生物针对叶绿体、线粒体测序项目组装结果准确,可以提供定制化高级分析,欢迎联系我们获取小基因组文章专业解决方案,助力文章发表。

 2、惠通生物小基因组服务电话:18926264030


欢迎关注物种分类及进化研究



  深圳市惠通生物科技有限公司,成立于2016年,技术成员在生物信息方面均有10年以上分析经验,在小基因组项目(叶绿体、线粒体、病毒)上形成强劲技术优势并可提供定制化高级分析内容。成立至今已服务客户单位200余家包括中国科学院植物研究所、中国科学院昆明植物研究所、华南农业大学、浙江大学、中国人民解放军疾病预防控制中心、武汉水生生物研究所等科研单位。合作老师发表小基因组SCI文章逾200篇,发表在forests》、 Frontiers in Plant Science》、《Frontiers in Microbiologymolecules》、International Journal of Biological Macromolecules》、《Plant Genome》、International Journal of Molecular Sciences》、《Infectious Diseases of Poverty》、《Insect Science》genes》、《frontiers in Veterinary Science》《Frontiers in Immunology》等杂志。      

物种分类及进化研究
《物种分类及进化研究》专注于物种分类及进化研究,主要研究技术为植物叶绿体基因组测序,植物线粒体基因测序,动物线粒体基因组测序,真菌线粒体基因组测序,真菌基因组测序。我们会定期通过网络,汇总物种分类及进化相关研究进展,解读相关研究论文。
 最新文章