病毒是目前已知具有极高多样性的生物实体。病毒通常通过宏基因组组装序列进行研究,但基因组的不完整性妨碍了全面和准确的分析。因此,进一步提升宏基因组数据拼接得到的病毒基因组的完整性和质量显得尤为重要。
因此,宏病毒组分析中最常见的一个问题的就是,如何获得既完整又准确性高的vOTUs序列?
2024年2月6日,《Nature Microbiology》期刊上发表了加州大学伯克利分校陈林兴博士的研究文章——“COBRA improves the completeness and contiguity of viral genomes assembled from metagenomes”。该研究通过分析基于宏基因组拼接过程中出现的基因组片段化问题,基于重叠的序列重组(COBRA)通过de Bruijn图解决组装断点并连接contig。通过分析海洋病毒和土壤病毒数据集,验证了COBRA能够准确拼接高质量完整病毒基因组,表明COBRA比传统的Binning工具实现了更高的基因组准确性。
通过分析231个公布的淡水宏基因组,COBRA帮助识别出7334个噬菌体簇,其中约83%代表新的噬菌体物种,且约70%的噬菌体基因组为环状,而在COBRA分析前只有34%;④COBRA还促进了对巨大噬菌体(≥200kbp)的采样,其中最大的噬菌体基因组长度达到717kbp。通过改善Rotsee Lake的噬菌体基因组,COBRA为宏转录组数据提供了背景,揭示了巨大噬菌体、whiB编码噬菌体以及cysC-和cysH-编码噬菌体的原位活动情况。总之,COBRA 改善了病毒基因组组装的连续性和完整性,从而提高了基因内容、多样性和进化分析的准确性和可靠性。
a.高质量的“自环”和“扩展环”基因组数量。b.COBRA用于生成扩展高质量和环状基因组序列的质量。基因组的质量通过CheckV进行评估。c.COBRA序列的长度及其对应的“扩展部分”高质量基因组和“扩展环”基因组的序列。d.病毒基因组的聚类。条形图显示(1)识别为噬菌体、病毒噬菌体、真核病毒和未确定(“其他”)的簇的数量。图中还显示了7334个噬菌体簇的详细信息,包括(2)环状和高质量代表性基因组的数量,(3)它们的长度分布,(4)每个簇中的基因组数量,(5)在每个簇中检测到的位点数量,以及(6)每个簇的分类注释。Caudo,Caudoviricetes。“Caudo; other”表示除列出的科外的其他科。“Caudo; unknown”表示所有只能在Caudoviricetes级别上分类的科。e.本研究通过与已发布基因组的比较,识别的噬菌体物种基因组的新颖性。在6046个新报告的噬菌体物种基因组中,4109个是环状的,1937个是高质量的。
a.本研究中新报告的来自淡水宏基因组的巨大噬菌体的数量和长度,以及通过COBRA连接的相应序列(≥10 kb)。b.基于核心结构蛋白的连接序列构建的巨大噬菌体的系统发育。内环中的彩色条纹表示基因组的来源(已发布或本研究中)。中环中的彩色条纹表示重建噬菌体基因组的栖息地。外环中的彩色条纹表示基因组的预测分类。大多数(>80%)基因组在本研究中重建的亚类用红色突出显示。两个基因组大小超过700 kb的噬菌体(一个已发布,一个来自本研究)用红星标出。c.结合DNA和RNA分析的Rotsee湖巨大噬菌体在六个样本中的检测和转录谱。黑点表示对应样本中巨大噬菌体的RNA RPKM大于DNA RPKM。d.来自不同采集地点的相似巨大噬菌体的基因组比较。展示了三对作为例子(参见扩展数据图9以获取Mauve比对)。结构蛋白基因用紫色表示,其相应的注释包括在内,DNA代谢相关基因用粉色表示。
参考文献