PCycDB:一个用于快速分析磷循环基因的全面且准确的数据库

学术   2024-08-20 10:18   江苏  

PCycDB: a comprehensive and accuratedatabase for fast analysis of phosphoruscycling genes

DOI:10.1186/s40168-022-01292-1

概要总结

磷是地球上最重要的大量营养素之一,微生物(包括细菌和古菌)在所有生物和生态系统中的磷循环中扮演关键角色。尽管宏基因组测序技术迅速发展,但我们对关键磷循环基因(PCGs)和微生物(PCMs)及其生态功能的综合理解仍然不清楚。一个主要挑战是缺乏一个全面且注释准确的磷循环功能基因数据库。本研究构建了一个覆盖139个基因家族和10个磷代谢过程的精心策划的磷循环数据库(PCycDB),包括一些以前被忽视的PCGs,例如编码磷酸盐不敏感磷酸酶的pafA、与亚磷酸盐相关的ptxABCD基因,以及用于2-氨基乙基膦酸盐转运的新型aepXVWPS基因。与其它同源数据库相比,PCycDB在分析PCGs方面更为准确、全面,且分析速度更快。使用PCycDB分析了来自代表性自然和工程环境的磷循环微生物群落,并表明PCycDB可以应用于不同环境。研究证明了PCycDB是一个强大的工具,可以提高我们对环境中微生物驱动的磷循环的理解,具有高覆盖率、高准确性和快速分析宏基因组测序数据的能力。PCycDB可在https://github.com/ZengJiaxiong/Phosphorus-cycling-database上获取。

分析方法

磷循环数据库构建:我们开发了一种改进的方法来构建PCycDB,该方法整合了UniProt、arCOG、COG、eggNOG、KEGG以及NCBI古菌和细菌RefSeq数据库。最初收集的PCG家族(例如,pafA、gcd、pstSCAB、phoA)和功能描述是基于先前文献的。KEGG是一个综合的数据库资源,用于分析生物系统的基因功能和效用。因此,我们参考了KEGG数据库中的众多磷代谢途径(例如,丙酮酸代谢、五碳糖磷酸途径)来获取微生物代谢过程的PCG家族(例如,pps、deoB、purD)和功能描述。候选PCGs首先通过关键字搜索从SwissProt数据库中提取,该数据库已手动注释。

对于那些序列没有包含在Swiss-Prot中的基因家族(例如,pbfA、phoX和aepVXWPS),我们根据文献手动从IMG数据库中检索它们。此外,我们还包括了在Flavobacterium johnsoniae DSM2064中鉴定的两个新的phoA基因(Fjoh_3187和Fjoh_3249)。然后,基于它们的注释仔细检查候选PCGs,以确保开发数据库的可靠性。另外,对于那些从TrEMBL数据库提取但没有完整手动注释的PCG序列,它们通过使用USEARCH v.11.0进行自我对齐,使用30%的全局一致性,然后通过最近邻聚类程序生成PCG家族的核心数据库。核心数据库扩展到包括arCOG、COG、eggNOG和KEGG的四个同源数据库中,使用USEARCH v.11.0进行全局一致性为30%的搜索。手动检查它们从对齐表中获得的注释结果,识别、提取并整合PCGs的代表性序列和同源物(图1b)。由于从eggNOG和KEGG检索到的某些基因家族的代表性序列(例如,gnd、ppk、pstB、purFDNTL)与核心数据库的平均一致性超过95%,这些序列通过CD-HIT在95%的一致性下进行聚类,以使PCycDB更具兼容性。NCBI RefSeq数据库被用来通过使用USEARCH v.11.0进行80%的全局一致性搜索,提高数据库的全面性和完整性。值得注意的是,由于NCBI RefSeq数据库中有大量的序列,因此在这一步中应用了严格的截止值(即80%)。所有氨基酸代表性序列和非目标同源物在100%的一致性下通过CD-HIT去冗余和聚类。最后,所有代表性序列和同源物被选取来构建PCycDB。

模拟基因数据集:由于NCycDB是一个手动策划的氮循环基因家族数据库,那些氮循环基因序列被选为PCycDB验证的真正阴性。然后,构建了一个包含139个PCG家族(12,972个序列)和68个氮循环基因家族(219,091个序列)的模拟基因数据集(附加文件2:Simulated_gene_dataset.fasta),并与PCycDB使用DIAMOND进行了比较,e值设定为≤ 10−5,以估计PCycDB的准确性。尽管为了提高可信度排除了NCycDB的同源序列,但应注意一些基因具有多种功能。例如,编码磷酸盐调节子感应蛋白的phoR在BacMet数据库中被定义为苯甲氯化物抗性基因。因此,一些氮循环基因也可能被视为PCGs,导致假阳性。为了评估PCycDB的准确性,我们根据以下公式计算了准确性、阳性预测值(PPV)、特异性、灵敏度和阴性预测值(NPV)。

PCycDB的构建与基因家族鉴定

成功构建了PCycDB,一个包含139个关键磷循环基因(PCG)家族和10个磷代谢过程的数据库。这些家族包括之前被忽视的基因,如编码磷酸盐不敏感磷酸酶的pafA基因,与亚磷酸盐相关的ptxABCD基因,以及涉及2-氨基乙基膦酸盐转运的新型aepXVWPS基因。

与其他数据库的比较PCycDB数据库的准确性

通过与模拟基因数据集的比较,PCycDB显示出极高的注释准确性,阳性预测值(PPV)、灵敏度、特异性和阴性预测值(NPV)分别达到了96.1%、99.9%、99.8%和99.9%。与现有的同源数据库相比,PCycDB在分析PCGs方面更为全面、准确,并且分析速度更快。PCycDB平均检测到的PCG家族数量(117个)多于arCOG(62.6个)、COG(91.5个)、eggNOG(89.2个)和KEGG(91.2个)。

模拟基因数据集验证及模拟群落验证

使用随机森林分析评估PCycDB的准确性,结果表明,一致性和命中长度是区分真阴性和假阳性的两个最重要因素。使用30%的一致性阈值时,PPV和特异性分别为85.0%和98.9%。

通过包含50个微生物基因组的模拟群落进一步验证PCycDB,发现在30%的一致性阈值下,所有基因组都被高估。在70%的一致性阈值下,基因组的检测比率接近1,表明这个阈值适合于基因组注释。

不同环境中的PCGs分析及功能多样性揭示

PCycDB被应用于分析来自七个不同栖息地(包括深海、富营养湖、红树林、海水养殖、表层海洋、多年冻土和污水处理厂)的PCGs。结果表明,PCGs在不同环境中普遍存在,且其组成在不同栖息地间有所变化。

PCycDB的应用揭示了自然和工程生态系统中磷循环微生物群落的功能多样性。嘌呤和嘧啶代谢是调节磷周转的最丰富途径,其次是转运蛋白和双组分系统,表明所有栖息地中对磷的需求量很大。


根际互作生物学研究室 简介

根际互作生物学研究室是沈其荣院士土壤微生物与有机肥团队下的一个关注于根际互作的研究小组。本小组由袁军教授带领,主要关注:1.植物和微生物互作在抗病过程中的作用;2 环境微生物大数据整合研究;3 环境代谢组及其与微生物过程研究体系开发和应用。团队在过去三年中在 Nature Communications,ISME J,Microbiome,SCLS,New Phytologist,iMeta,Fundamental Research, PCE,SBB,JAFC(封面),Horticulture Research,SEL(封面),BMC plant biology等期刊上发表了多篇文章。欢迎关注 微生信生物 公众号对本研究小组进行了解。


撰写:赵向阳

修改:文涛

排版:刘炜烨

审核:袁军

团队工作及其成果 (点击查看)

了解 交流 合作



    • 小组负责人邮箱 袁军:junyuan@njau.edu.cn;

    • 小组成员文涛:taowen@njau.edu.cn等

    • 团队公众号:微生信生物 添加主编微信,或者后台留言。


    • 加主编微信 加入群聊

      目前营销人员过多,为了维护微生信生物3年来维护的超5500人群聊,目前更新进群要求:

      • 1.仅限相关专业或研究方向人员添加,必须实名,不实名则默认忽略。

      • 2.非相关专业的其他人员及推广宣传人员禁止添加。

      • 3.添加主编微信需和简单聊一聊专业相关问题,等待主编判断后,可拉群。

      • 微生信生物VIP微信群不受限制,给微生信生物供稿一次即可加入(群里发送推文代码+高效协助解决推文运行等问题+日常问题咨询回复)。

    • 团队关注

    • 团队文章成果

    • 团队成果-EasyStat专题

    • ggClusterNet专题

    • 袁老师小小组



微生信生物
根际互作生物学研究室是沈其荣院士土壤微生物与有机肥团队下的一个关注于根际互作的研究小组。本小组由袁军教授带领,主要关注:1.植物和微生物互作在抗病过程中的作用 2 环境微生物大数据整合研究3 环境代谢组及其与微生物过程研究体系开发
 最新文章