ANA基因组数据库(ANAgdb)
ANA进化阶由早期发育的被子植物谱系组成,包括无油樟目(Amborellales)、睡莲目(Nymphaeales)和木兰藤目(Austrobaileyales),在进化上具有重要地位。在此,我们开发了ANAgdb,一个专门针对ANA进化阶的综合多组学数据库,网址为 www.anagenome.cn。ANAgdb整合了6个物种的10个详细注释的基因组,涵盖了三个基部被子植物目,包含123个学名的分类学信息,重新分析了167个RNA-Seq和9个sRNA-Seq数据集,并汇集了过去十年ANA进化阶研究论文。为了便于访问,我们设计了四个可访问的模块,包括基因组、转录组、miRNA和分类学。此外,还实现或部署了八个内置工具,包括基因搜索、BLAST、JBrowse、引物设计、基因注释、基因表达、文献和下载,以便于数据下载和浏览、基因功能探索和实验实践。我们相信ANAgdb将为植物研究社区提供重要支持。
摘要
背景
ANA进化阶涵盖了早期发育的被子植物谱系,包括无油樟目(Amborellales)、睡莲目(Nymphaeales)和木兰藤目(Austrobaileyales),代表了被子植物进化历史中的一个基础阶段。自从无油樟基因组的关键组装完成以来,该谱系的组学数据不断涌入,凸显了建立专门数据库的必要性。
结果
在此,我们介绍了ANA进化阶基因组数据库(ANAgdb,网址:https://anagenome.cn/),该数据库整合了11个基因组、167个转录组和10个miRNA数据集在内的多组学数据,以及ANA进化阶的广泛分类学信息。ANAgdb设计了一系列用户友好的工具,不仅便于数据的有效存储、查询和分析,还支持关键基因组和分类信息的整合与传播。
结论
通过整合全面的资源和工具,ANAgdb旨在显著推动系统发育基因组学和分类学研究,为研究人员探索这些古老植物谱系的遗传和形态多样性提供一个强大的平台。
背景介绍
ANA进化阶包括三个基部的被子植物谱系:无油樟目(Amborellales)、睡莲目(Nymphaeales)和木兰藤目(Austrobaileyales),它们在进化上具有重要地位。无油樟目由一个单属的植物属——无油樟属(Amborella)组成,仅包含一个物种:无油樟(Amborella trichopoda)。该物种原产于新喀里多尼亚的Grande-Terre,是澳大利亚东部的一个太平洋岛屿,因被认为是所有现存被子植物的姊妹物种而引起了植物学家的极大兴趣。睡莲目包括三个科:独蕊草科(Hydatellaceae)、莼菜科(Cabombaceae)和睡莲科(Nymphaeaceae),共计八个属和近90个物种。木兰藤目则由木兰藤科(Austrobaileyaceae, 含有Austrobaileya)、五味子科(Schisandraceae,含有Illicium, Kadsura, and Schisandra)及苞被木科(Trimeniaceae, 含有Trimenia)组成,包含的树木、灌木和木质藤本物种不足100种。ANA进化阶中的这些物种保留了一些祖先特征和发育过程,为探索被子植物的进化轨迹提供了独特视角。此外,对ANA进化阶的研究提供了关于现代被子植物在多样生态位中推动其广泛多样性和适应性背后的遗传和形态创新的重要见解。
自从完成无油樟的第一个参考基因组后,ANA进化阶内的多个基因组已被组装,显著推动了我们对被子植物早期进化的理解。同时,下一代测序技术的广泛应用产生了大量的RNA-seq和sRNA-seq数据集。此外,鉴于其独特的系统发育位置,详细的分类信息,如命名法、模式标本和模式产地,对于分类学研究至关重要。这些庞大的数据集需要一个专门的数据库来有效存储、查询、分析、整合和传播信息。
近年来,提供互动数据分析和可视化工具的网络数据库越来越受到欢迎,显著促进了各个领域的科学研究。一个在植物学领域产生重要影响的数据库示例是玉米基因组数据库(MaizeGDB,https://www.maizegdb.org/),该数据库整合了多样的组学数据、种质资源信息、多个分析工具和交流平台,有效推动了育种实践向4.0时代的发展。像生菜基因组数据库(LettuceGDB)和冬青基因组数据库(HollyGTD)等提供了一系列分析模块,使研究人员能够深入探索和可视化基因组、转录组、miRNA组、基因型和代谢组数据,为专注于生菜或冬青研究的专家提供了宝贵资源。然而,目前仍缺乏一个专门聚焦于ANA进化阶的综合性网络数据库。
在此,我们成功构建了ANA进化阶基因组数据库(ANAgdb,网址:https://www.anagenome.cn),这是一个综合性数据库,结合了公共可用数据和我们团队新生成的数据。ANAgdb托管多组学数据(基因组、转录组和miRNA组),并整合了特定于ANA进化阶的广泛分类信息。该数据库设计了用户友好的界面,便于导航和展示不同类型的数据。ANAgdb包括六个在线数据分析工具和一个数据下载页面,以增强用户的可访问性。因此,我们相信ANAgdb将为植物研究社区提供重要的支持。
实用性与讨论
数据库概述
ANAgdb整合了来自六个物种的11个经过注释的基因组组装,代表了早期分化的被子植物的三个目(图1)。它包括对167个RNA-Seq和10个sRNA-Seq数据集的重新分析,以及一套全面的分类信息,涵盖527个科学名称。为了提升用户的可访问性,ANAgdb提供了四个分层结构页面:基因组、转录组、miRNA和分类学(图S1)。此外,ANAgdb还提供六个内置工具,包括BLAST、JBrowse、基因搜索、基因注释、引物设计和文献检索,用于浏览、基因功能探索和实验实践。ANAgdb中的所有数据均可在数据页面上免费获取。
基因组
ANAgdb包括来自六个物种的共11个基因组组装,其中包括来自无油樟(A. trichopoda)的五个基因组组装、来自芡实(E. ferox)的两个基因组组装,以及来自其他四个物种的各一个基因组组装。在无油樟的五个基因组组装中,我们提供了一个几乎无缺口的染色体水平基因组组装,仅有13个缺口,显著超越了之前的组装,有着更好的连续性和完整性。在基因组页面,用户可以访问每个基因组组装的元数据(图2A)。所有相关信息,包括基因组序列和详细的基因组注释,可以通过FTP下载。此外,还开发了BLAST工具,以便于每个基因的同源搜索,使用户能够高效地搜索注释基因。
分类学
ANAgdb的分类学页面提供了ANA进化阶内527个科学名称的详细和系统的概述(图2B)。我们汇总表中的每个条目包括科学名称、命名缘由、参考文献和命名的分类状态。用户点击任何科学名称后,将被引导至一个详细页面,其中包含关于模式标本的信息。此外,该页面提供植物的开放获取图像。此资源旨在支持学术研究和一般植物教育
转录组
ANAgdb现在包括来自五个ANA进化阶物种的167个RNA-Seq文库的重新分析结果。这些文库涵盖了来自无油樟(A. trichopoda)的14种组织、来自莼菜(B. schreberi)的7种组织、来自芡实(E. ferox)的2种组织、来自蓝星睡莲(N. colorata)的7种组织,以及来自卢旺达睡莲(N. thermarum)的5种组织。在转录组页面,用户可以选择一个物种及其感兴趣的具体组织,并输入以逗号分隔的基因列表进行查询,然后点击“搜索”(图3A)。这些基因的表达模式通过交互式热图、折线图和汇总表展示。此外,该页面提供每个RNA-seq文库中所有基因的FPKM值,使其成为基因表达分析的宝贵资源。
miRNA
ANAgdb收集了来自公共数据库的无油樟(A. trichopoda)和蓝星睡莲(N. colorata)的sRNA-seq数据集。利用已建立的miRDeep-P2 pipeline,我们在无油樟中鉴定了186个属于109个家族的miRNA,在蓝星睡莲中鉴定了141个属于88个家族的miRNA。miRNA页面提供了每个物种特定的所有miRNA的汇总表,用户可以通过下拉列表轻松访问和切换(图3B)。点击miRNA条目将引导用户进入一个详细信息页面,其中包含基本基因组信息、簇信息、表达模式和miRNA的靶标。
工具
BLAS工具使用户能够通过直接在文本框中输入序列或上传Fasta格式文件来搜索ANA进化阶内物种基因组中的同源序列(图4A)。用户可以选择五种可用的BLAST算法:blastn、blastp、blastx、tblastn或tblastx,并使用高级选项设置详细参数。ANAgdb托管四个BLAST数据库,分别是基因组、mRNA、编码序列和蛋白质序列。BLAST搜索的结果以标准表格格式显示,包含可折叠字段,如查询名称、目标名称、得分、一致性、百分比和期望值,便于详细检查每个hit。
JBrowse是一个开源且全面的生物信息学工具,旨在可视化和整合多组学数据。在ANAgdb中,JBrowse用于展示所有组装的综合基因组信息和注释基因组数据集(图4B)。用户还可以上传个人数据,轻松浏览和探索特定信息,如基因位置和特定基因的表达水平。
ANAgdb上的基因搜索工具旨在高效检索特定基因的序列(图4C)。使用该工具时,用户首先从下拉列表中选择一个基因组组装。选择基因组后,用户输入基因标识符到文本框中。随后,弹出窗口将显示请求的基因序列。此外,该工具还显示基因结构,包括外显子、内含子及其对应的序列。
基因注释工具为ANAgdb中的每个基因提供广泛的功能注释(图4D)。它提供关于蛋白质家族、同源超家族、结构域、重复序列以及与特定基因相关的基因本体(GO)术语的详细信息。这些注释通过使用InterPro数据库进行的相似性搜索获得。该过程涉及将基因序列与数据库中的已知基因进行比较,以识别相似性并根据基因的功能和结构特性进行分类。这有助于研究人员更好地理解基因在更广泛生物学背景中的潜在作用和关系。
ANAgdb上的引物设计工具由primer3核心程序驱动,通过提供基于网页的PCR引物设计功能,增强了用户的实验能力(图4E)。该界面不仅提供传统的引物设计功能,还具备适合基因实验的创新特性。例如,用户只需输入基因ID即可自动加载基因组、mRNA或CDS序列到输入框中。该界面允许用户自定义多种引物设计参数。
ANAgdb上的文献工具提供了一个专业的搜索引擎,供用户访问聚焦于ANA进化阶的出版文献,包含13,402篇论文(图4F)。该工具通过允许用户按年、作者、标题、期刊和其他关键词进行关键词搜索,提高了文献筛选和整理的效率。此外,搜索结果提供了出版物全文的超链接,方便用户轻松访问相关研究。
结论
在本研究中,我们介绍了ANAgdb,这是首个专门针对ANA进化阶的数据库,整合了基因组、转录组、miRNA组和分类学数据,所有信息都通过用户友好的方式进行访问。鉴于ANA进化阶的重要性,它涵盖了被子植物中的早期分化谱系,ANAgdb将成为植物研究的有用资源,特别是增强我们对被子植物起源和进化轨迹的理解。
Cite this article
Guo, Z., Luo, S., Wang, Q. et al. ANAgdb: a multi-omics and taxonomy database for ANA-grade. BMC Plant Biol 24, 882 (2024). https://doi.org/10.1186/s12870-024-05613-4