AsgeneDB:一个经过整理的砷代谢同源基因数据库及用于宏基因组注释的计算工具

学术   2024-08-27 15:16   江苏  

AsgeneDB: a curated orthology arsenic metabolism gene database and computational tool for metagenome annotation

DOI:10.1093/nargab/lqac080

概要

砷(As)是自然界中分布最普遍的有毒类金属。微生物介导的砷代谢在全球砷生物地球化学过程中扮演重要角色,极大地改变了其毒性和生物可利用性。虽然元基因组测序可能推进我们对不同环境中微生物群落砷代谢能力的理解,但由于公共同源性数据库中砷代谢基因家族的覆盖率低和定义不准确,准确的元基因组砷代谢分析仍然具有挑战性。研究开发了一个手动策划的砷代谢基因数据库(AsgeneDB),包含来自59个砷代谢基因家族的400,242个代表性序列,这些家族隶属于46个门类的1653个微生物属。AsgeneDB对人工基因数据集实现了100%的注释敏感性和99.96%的注释准确性。然后,我们将AsgeneDB应用于各种栖息地(淡水、温泉、海洋沉积物和土壤)的元基因组中砷代谢的功能和分类学分析。结果显示,与其他数据库相比,AsgeneDB大幅提高了来自不同环境的元基因组短读序列的映射比率。AsgeneDB提供更准确、更全面、更快速的砷代谢基因分析。此外,此研究开发了一个R包,Asgene,以促进元基因组测序数据的分析。因此,AsgeneDB和相关的Asgene包将大大促进在各种环境中微生物群落中砷代谢研究。

核心数据库构建

使用基于之前研究改进的流程来构建AsgeneDB。由于同源性数据库中砷代谢基因的覆盖率非常有限,我们主要通过文献搜索检索了更全面和新的砷代谢遗传信息。也参考了KEGG中的砷代谢基因。总之,文献中提到的并在KEGG中明确描述的在砷代谢中起作用的基因被选为我们的目标基因。通过为每个参与砷代谢途径的基因家族创建和完善关键词,从Swiss-Prot和TrEMBL数据库下载目标蛋白序列。为确保AsgeneDB的准确性,每个基因家族的种子序列根据其注释和其他序列的相似性进行了手动检查,特别是对于Swiss-Prot中没有参考序列的序列。对于每个基因家族,使用USEARCH(版本11.0)在30%的全局一致性截止值下,将TrEMBL数据库中的蛋白序列搜索并聚类成不同组。然后进行最近邻聚类程序,将序列聚类成组。然后再次检查异常组,以确认其在TrEMBL数据库中的注释信息,并删除异常序列。剩余的序列随后被保留为核心数据库中的砷代谢基因家族。

完整数据库构建

在核心数据库创建后,将包括COG、arCOG、KOG、eggNOG和KEGG在内的同源性数据库与核心数据库进行比较。比较数据库有两个目的。第一个目的是增加核心数据库的全面性。第二个目的是识别同源基因家族并将其包含在完整数据库中,从而减少数据库搜索中的假阳性。此外,从细菌、古菌和真核生物的NCBI RefSeq数据库(相同蛋白组)中识别、提取并合并相应的序列(砷代谢基因家族)。通过将核心数据库与NCBI RefSeq进行比较(选项:-evalue 1e-6 -id 60),确定AsgeneDB中砷代谢功能物种的覆盖率。使用TaxonKit确定序列的完整分类级别信息。最后,将序列ID和基因与分类信息匹配,生成分类文件。砷代谢基因家族和同源基因家族的序列通过cd-hit在100%一致性下进行聚类。所有代表性序列和相关信息经过检查后用于构建AsgeneDB。

砷代谢基因的元基因组分析

为了便于元基因组测序数据的分析,提供了一个R包(Asgene)用于元基因组比对(核酸或蛋白序列)、基因丰度标准化和所有样本的统计。数据库AsgeneDB内置于R包Asgene中。因此,用户只需输入几个参数(例如搜索工具、工作路径、工具搜索参数和文件类型)即可自动分析并输出统计结果。Asgene提供了示例数据集用于分析的输入和输出,以帮助用户更好地理解包的使用方法。用户可以选择基因丰度统计(选项:丰度)以每千碱基每百万读数(RPKM)标准化读数计数,以消除样本间测序深度和参考序列长度的差异。此外,如果用户选择功能物种统计(选项:分类学),则可以自动生成样本中每个砷代谢基因的驱动物种在不同分类级别上的统计结果。Asgene包可在github上获取(https://github.com/XinweiSong/Asgene)。我们的工作可用于分析元基因组数据,提供不同环境中不同分类级别上的功能基因家族水平和功能微生物群落组成的功能概况。

AsgeneDB的敏感性、准确性和运行时间评估

使用来自NCBI GeneBank数据库的人工数据集,包括81,631个砷代谢基因序列和54,403个与砷代谢基因高度相似的序列,评估AsgeneDB的敏感性、准确性和运行时间。人工数据集中包含41个砷代谢基因和10个同源基因,用于计算假阳性和假阴性率。被注释为砷代谢基因或被错误地分配到不正确的基因家族的同源基因序列被视为假阳性注释。属于砷代谢基因但未被分配的序列被计为假阴性注释。使用DIAMOND对人工数据集进行搜索,与KEGG、COG、arCOG、KOG和AsgeneDB数据库进行比较,e-value ≤10^-4,一致性 >30%,以比较这些数据库在注释准确性方面的表现。每个查询序列只输出一个最佳匹配度的结果(选项:-max-target-seqs 1)。所有搜索指定一个线程(选项:-p 1或–cpu 1)以计算注释数据集的时间。

AsgeneDB与其他同源性数据库的优势比较

具有高覆盖率:AsgeneDB包含59个砷代谢基因亚家族,而其他主要公共同源性数据库(如KEGG、COG、eggNOG、arCOG和KOG)中只有少于三分之一的基因亚家族被发现。AsgeneDB还包含了其他五个常用同源性数据库中缺失的几个关键砷代谢基因家族。具有更高度的敏感性、准确性和快速注释通过构建人工微生物群落并评估AsgeneDB、KEGG、COG、arCOG、KOG和eggNOG,发现AsgeneDB对砷代谢基因的注释具有100%的敏感性和99.96%的准确性。AsgeneDB的运行时间也比其他数据库短。

AsgeneDB中基因家族和途径

AsgeneDB针对五个砷代谢途径(即砷运输、砷(V)呼吸、砷(V)还原、砷(III)氧化和砷(去)甲基化途径)。砷运输途径包括22个基因家族,总共有284,186个代表性序列和386个同源性族群。砷(V)呼吸途径包含arrA和arrB基因家族,共有1,498个代表性序列编码砷酸盐呼吸还原酶。砷(V)还原途径包括arsC、acr2和GstB等基因家族,共有100,357个序列和84个同源性族群。砷(III)氧化途径负责砷(III)氧化的基因家族有15个,总共有92,183个序列和39个同源性族群。砷(去)甲基化途径涉及arsM、As3mt和arsI三个基因家族,共有7,862个序列和24个同源性族群。

As代谢基因和途径在AsgeneDB中的分类组成

AsgeneDB覆盖了46个细菌、古菌和真菌的门类和1,653个属。在砷运输途径中,AsgeneDB覆盖了33个细菌门类和1,141个属。在砷(V)呼吸途径中,主要涉及Halobacteria(古菌)、Betaproteobacteria(变形菌门)、Deltaproteobacteria(δ-变形菌纲)和Gammaproteobacteria(γ-变形菌纲)等。在砷(V)还原途径中,主要涉及Proteobacteria(变形菌门)、Actinobacteria(放线菌门)、Firmicutes(厚壁菌门)和Bacteroidetes(拟杆菌门)。在砷(III)氧化途径中,主要涉及Proteobacteria(变形菌门)、Actinobacteria(放线菌门)、Firmicutes(厚壁菌门)和Bacteroidetes(拟杆菌门)。在砷甲基化和去甲基化功能序列中,主要涉及Rhodopseudomonas(变形菌门)、Symbiobacterium(厚壁菌门)、Dehalogenimonas(绿弯菌门)和Streptomyces(放线菌门)等。

AsgeneDB在元基因组功能和分类分析中的应用

AsgeneDB和其他五个同源性数据库(KEGG、eggNOG、COG、arCOG和KOG)被应用于淡水、温泉、海洋沉积物和土壤中砷代谢的分类和功能分析。AsgeneDB检测到的砷代谢基因家族数量在四个栖息地中从13到46不等,显著多于其他五个数据库。AsgeneDB显著提高了与其他五个数据库相比的元基因组映射率。砷代谢基因的丰度可能会受到生态系统和地理位置的影响,结果表明了砷代谢微生物群落的生物地理分布差异。在五个代谢途径中,砷运输途径是最丰富的,而砷(V)呼吸途径是最不丰富的。在四个栖息地中,海洋沉积物和土壤的砷代谢微生物群落最为相似。淡水样本中的砷代谢驱动微生物群落的多样性最低。

根际互作生物学研究室 简介

根际互作生物学研究室是沈其荣院士土壤微生物与有机肥团队下的一个关注于根际互作的研究小组。本小组由袁军教授带领,主要关注:1.植物和微生物互作在抗病过程中的作用;2 环境微生物大数据整合研究;3 环境代谢组及其与微生物过程研究体系开发和应用。团队在过去三年中在 Nature Communications,ISME J,Microbiome,SCLS,New Phytologist,iMeta,Fundamental Research, PCE,SBB,JAFC(封面),Horticulture Research,SEL(封面),BMC plant biology等期刊上发表了多篇文章。欢迎关注 微生信生物 公众号对本研究小组进行了解。


撰写:赵向阳

修改:文涛

排版:刘炜烨

审核:袁军

团队工作及其成果 (点击查看)

了解 交流 合作



    • 小组负责人邮箱 袁军:junyuan@njau.edu.cn;

    • 小组成员文涛:taowen@njau.edu.cn等

    • 团队公众号:微生信生物 添加主编微信,或者后台留言。


    • 加主编微信 加入群聊

      目前营销人员过多,为了维护微生信生物3年来维护的超5500人群聊,目前更新进群要求:

      • 1.仅限相关专业或研究方向人员添加,必须实名,不实名则默认忽略。

      • 2.非相关专业的其他人员及推广宣传人员禁止添加。

      • 3.添加主编微信需和简单聊一聊专业相关问题,等待主编判断后,可拉群。

      • 微生信生物VIP微信群不受限制,给微生信生物供稿一次即可加入(群里发送推文代码+高效协助解决推文运行等问题+日常问题咨询回复)。

    • 团队关注

    • 团队文章成果

    • 团队成果-EasyStat专题

    • ggClusterNet专题

    • 袁老师小小组


微生信生物
根际互作生物学研究室是沈其荣院士土壤微生物与有机肥团队下的一个关注于根际互作的研究小组。本小组由袁军教授带领,主要关注:1.植物和微生物互作在抗病过程中的作用 2 环境微生物大数据整合研究3 环境代谢组及其与微生物过程研究体系开发
 最新文章