Wittouck S, et al. (2024). SCARAP: scalable cross-species comparative genomics of prokaryotes. Bioinformatics, btae735.
(2024年12月11日发表)
摘要参考翻译:原核生物比较基因组学目前主要依赖于两项关键的计算任务:泛基因组推断和核心基因组推断。泛基因组推断涉及将一组基因组中的基因聚类为基因家族,从而进行全基因组关联研究和进化史分析。核心基因组代表了几乎存在于所有基因组中的基因家族,是推断高质量系统发育所必需的。针对物种水平数据集,已经开发出了快速的泛基因组推断工具。然而,目前适用于更多样化数据集的工具速度较慢,扩展性较差(scale poorly)。在此,我们介绍SCARAP,它是一个包含三个模块的程序,用于比较基因组学分析:一个快速、可扩展的泛基因组推断模块,一个直接核心基因组推断模块,以及一个对代表性基因组进行子采样的模块。与现有工具相比,SCARAP泛基因组模块的速度快了一个数量级,而准确性却不相上下。通过将核心模块的结果与从全泛基因组中提取的核心基因组进行比较,对核心模块进行了验证。采样模块证明了基因组采样的快速性和新颖性。将SCARAP应用于包含31,000多个乳杆菌目(Lactobacillales)基因组的数据集,展示了其提取具有代表性的泛基因组的能力。最后,我们将基因固定频率(gene fixation frequency)这一新颖的概念应用于该泛基因组,结果表明,在物种中普遍存在但很少固定的乳杆菌基因往往编码噬菌体功能。
SCARAP工具包可通过https://github.com/swittouck/scarap公开获取。
探索乳杆菌的泛基因组
点击下方“阅读原文”可跳转至文章页面,下载PDF文件查看英文全文。
声明:本内容未向其他微信公众号投稿。