ANAgdb：无油樟-睡莲-木兰藤多组学数据库

创业 2024-10-30 17:20 中国

ANA基因组数据库（ANAgdb）

ANA进化阶由早期发育的被子植物谱系组成，包括无油樟目（Amborellales）、睡莲目（Nymphaeales）和木兰藤目（Austrobaileyales），在进化上具有重要地位。在此，我们开发了ANAgdb，一个专门针对ANA进化阶的综合多组学数据库，网址为 www.anagenome.cn。ANAgdb整合了6个物种的10个详细注释的基因组，涵盖了三个基部被子植物目，包含123个学名的分类学信息，重新分析了167个RNA-Seq和9个sRNA-Seq数据集，并汇集了过去十年ANA进化阶研究论文。为了便于访问，我们设计了四个可访问的模块，包括基因组、转录组、miRNA和分类学。此外，还实现或部署了八个内置工具，包括基因搜索、BLAST、JBrowse、引物设计、基因注释、基因表达、文献和下载，以便于数据下载和浏览、基因功能探索和实验实践。我们相信ANAgdb将为植物研究社区提供重要支持。

摘要

背景

ANA进化阶涵盖了早期发育的被子植物谱系，包括无油樟目（Amborellales）、睡莲目（Nymphaeales）和木兰藤目（Austrobaileyales），代表了被子植物进化历史中的一个基础阶段。自从无油樟基因组的关键组装完成以来，该谱系的组学数据不断涌入，凸显了建立专门数据库的必要性。

结果

在此，我们介绍了ANA进化阶基因组数据库（ANAgdb，网址：https://anagenome.cn/），该数据库整合了11个基因组、167个转录组和10个miRNA数据集在内的多组学数据，以及ANA进化阶的广泛分类学信息。ANAgdb设计了一系列用户友好的工具，不仅便于数据的有效存储、查询和分析，还支持关键基因组和分类信息的整合与传播。

结论

通过整合全面的资源和工具，ANAgdb旨在显著推动系统发育基因组学和分类学研究，为研究人员探索这些古老植物谱系的遗传和形态多样性提供一个强大的平台。

背景介绍

ANA进化阶包括三个基部的被子植物谱系：无油樟目（Amborellales）、睡莲目（Nymphaeales）和木兰藤目（Austrobaileyales），它们在进化上具有重要地位。无油樟目由一个单属的植物属——无油樟属（Amborella）组成，仅包含一个物种：无油樟（Amborella trichopoda）。该物种原产于新喀里多尼亚的Grande-Terre，是澳大利亚东部的一个太平洋岛屿，因被认为是所有现存被子植物的姊妹物种而引起了植物学家的极大兴趣。睡莲目包括三个科：独蕊草科（Hydatellaceae）、莼菜科（Cabombaceae）和睡莲科（Nymphaeaceae），共计八个属和近90个物种。木兰藤目则由木兰藤科（Austrobaileyaceae, 含有Austrobaileya）、五味子科（Schisandraceae，含有Illicium, Kadsura, and Schisandra）及苞被木科（Trimeniaceae, 含有Trimenia）组成，包含的树木、灌木和木质藤本物种不足100种。ANA进化阶中的这些物种保留了一些祖先特征和发育过程，为探索被子植物的进化轨迹提供了独特视角。此外，对ANA进化阶的研究提供了关于现代被子植物在多样生态位中推动其广泛多样性和适应性背后的遗传和形态创新的重要见解。

自从完成无油樟的第一个参考基因组后，ANA进化阶内的多个基因组已被组装，显著推动了我们对被子植物早期进化的理解。同时，下一代测序技术的广泛应用产生了大量的RNA-seq和sRNA-seq数据集。此外，鉴于其独特的系统发育位置，详细的分类信息，如命名法、模式标本和模式产地，对于分类学研究至关重要。这些庞大的数据集需要一个专门的数据库来有效存储、查询、分析、整合和传播信息。

近年来，提供互动数据分析和可视化工具的网络数据库越来越受到欢迎，显著促进了各个领域的科学研究。一个在植物学领域产生重要影响的数据库示例是玉米基因组数据库（MaizeGDB，https://www.maizegdb.org/），该数据库整合了多样的组学数据、种质资源信息、多个分析工具和交流平台，有效推动了育种实践向4.0时代的发展。像生菜基因组数据库（LettuceGDB）和冬青基因组数据库（HollyGTD）等提供了一系列分析模块，使研究人员能够深入探索和可视化基因组、转录组、miRNA组、基因型和代谢组数据，为专注于生菜或冬青研究的专家提供了宝贵资源。然而，目前仍缺乏一个专门聚焦于ANA进化阶的综合性网络数据库。

在此，我们成功构建了ANA进化阶基因组数据库（ANAgdb，网址：https://www.anagenome.cn），这是一个综合性数据库，结合了公共可用数据和我们团队新生成的数据。ANAgdb托管多组学数据（基因组、转录组和miRNA组），并整合了特定于ANA进化阶的广泛分类信息。该数据库设计了用户友好的界面，便于导航和展示不同类型的数据。ANAgdb包括六个在线数据分析工具和一个数据下载页面，以增强用户的可访问性。因此，我们相信ANAgdb将为植物研究社区提供重要的支持。

实用性与讨论

数据库概述

ANAgdb整合了来自六个物种的11个经过注释的基因组组装，代表了早期分化的被子植物的三个目（图1）。它包括对167个RNA-Seq和10个sRNA-Seq数据集的重新分析，以及一套全面的分类信息，涵盖527个科学名称。为了提升用户的可访问性，ANAgdb提供了四个分层结构页面：基因组、转录组、miRNA和分类学（图S1）。此外，ANAgdb还提供六个内置工具，包括BLAST、JBrowse、基因搜索、基因注释、引物设计和文献检索，用于浏览、基因功能探索和实验实践。ANAgdb中的所有数据均可在数据页面上免费获取。

基因组

ANAgdb包括来自六个物种的共11个基因组组装，其中包括来自无油樟（A. trichopoda）的五个基因组组装、来自芡实（E. ferox）的两个基因组组装，以及来自其他四个物种的各一个基因组组装。在无油樟的五个基因组组装中，我们提供了一个几乎无缺口的染色体水平基因组组装，仅有13个缺口，显著超越了之前的组装，有着更好的连续性和完整性。在基因组页面，用户可以访问每个基因组组装的元数据（图2A）。所有相关信息，包括基因组序列和详细的基因组注释，可以通过FTP下载。此外，还开发了BLAST工具，以便于每个基因的同源搜索，使用户能够高效地搜索注释基因。

分类学

ANAgdb的分类学页面提供了ANA进化阶内527个科学名称的详细和系统的概述（图2B）。我们汇总表中的每个条目包括科学名称、命名缘由、参考文献和命名的分类状态。用户点击任何科学名称后，将被引导至一个详细页面，其中包含关于模式标本的信息。此外，该页面提供植物的开放获取图像。此资源旨在支持学术研究和一般植物教育

转录组

ANAgdb现在包括来自五个ANA进化阶物种的167个RNA-Seq文库的重新分析结果。这些文库涵盖了来自无油樟（A. trichopoda）的14种组织、来自莼菜（B. schreberi）的7种组织、来自芡实（E. ferox）的2种组织、来自蓝星睡莲（N. colorata）的7种组织，以及来自卢旺达睡莲（N. thermarum）的5种组织。在转录组页面，用户可以选择一个物种及其感兴趣的具体组织，并输入以逗号分隔的基因列表进行查询，然后点击“搜索”（图3A）。这些基因的表达模式通过交互式热图、折线图和汇总表展示。此外，该页面提供每个RNA-seq文库中所有基因的FPKM值，使其成为基因表达分析的宝贵资源。

miRNA

ANAgdb收集了来自公共数据库的无油樟（A. trichopoda）和蓝星睡莲（N. colorata）的sRNA-seq数据集。利用已建立的miRDeep-P2 pipeline，我们在无油樟中鉴定了186个属于109个家族的miRNA，在蓝星睡莲中鉴定了141个属于88个家族的miRNA。miRNA页面提供了每个物种特定的所有miRNA的汇总表，用户可以通过下拉列表轻松访问和切换（图3B）。点击miRNA条目将引导用户进入一个详细信息页面，其中包含基本基因组信息、簇信息、表达模式和miRNA的靶标。

工具

BLAS工具使用户能够通过直接在文本框中输入序列或上传Fasta格式文件来搜索ANA进化阶内物种基因组中的同源序列（图4A）。用户可以选择五种可用的BLAST算法：blastn、blastp、blastx、tblastn或tblastx，并使用高级选项设置详细参数。ANAgdb托管四个BLAST数据库，分别是基因组、mRNA、编码序列和蛋白质序列。BLAST搜索的结果以标准表格格式显示，包含可折叠字段，如查询名称、目标名称、得分、一致性、百分比和期望值，便于详细检查每个hit。

JBrowse是一个开源且全面的生物信息学工具，旨在可视化和整合多组学数据。在ANAgdb中，JBrowse用于展示所有组装的综合基因组信息和注释基因组数据集（图4B）。用户还可以上传个人数据，轻松浏览和探索特定信息，如基因位置和特定基因的表达水平。

ANAgdb上的基因搜索工具旨在高效检索特定基因的序列（图4C）。使用该工具时，用户首先从下拉列表中选择一个基因组组装。选择基因组后，用户输入基因标识符到文本框中。随后，弹出窗口将显示请求的基因序列。此外，该工具还显示基因结构，包括外显子、内含子及其对应的序列。

基因注释工具为ANAgdb中的每个基因提供广泛的功能注释（图4D）。它提供关于蛋白质家族、同源超家族、结构域、重复序列以及与特定基因相关的基因本体（GO）术语的详细信息。这些注释通过使用InterPro数据库进行的相似性搜索获得。该过程涉及将基因序列与数据库中的已知基因进行比较，以识别相似性并根据基因的功能和结构特性进行分类。这有助于研究人员更好地理解基因在更广泛生物学背景中的潜在作用和关系。

ANAgdb上的引物设计工具由primer3核心程序驱动，通过提供基于网页的PCR引物设计功能，增强了用户的实验能力（图4E）。该界面不仅提供传统的引物设计功能，还具备适合基因实验的创新特性。例如，用户只需输入基因ID即可自动加载基因组、mRNA或CDS序列到输入框中。该界面允许用户自定义多种引物设计参数。

ANAgdb上的文献工具提供了一个专业的搜索引擎，供用户访问聚焦于ANA进化阶的出版文献，包含13,402篇论文（图4F）。该工具通过允许用户按年、作者、标题、期刊和其他关键词进行关键词搜索，提高了文献筛选和整理的效率。此外，搜索结果提供了出版物全文的超链接，方便用户轻松访问相关研究。

结论

在本研究中，我们介绍了ANAgdb，这是首个专门针对ANA进化阶的数据库，整合了基因组、转录组、miRNA组和分类学数据，所有信息都通过用户友好的方式进行访问。鉴于ANA进化阶的重要性，它涵盖了被子植物中的早期分化谱系，ANAgdb将成为植物研究的有用资源，特别是增强我们对被子植物起源和进化轨迹的理解。

Cite this article

Guo, Z., Luo, S., Wang, Q. et al. ANAgdb: a multi-omics and taxonomy database for ANA-grade. BMC Plant Biol 24, 882 (2024). https://doi.org/10.1186/s12870-024-05613-4

http://mp.weixin.qq.com/s?__biz=MzI3MTE4MjIyMA==&mid=2247487003&idx=1&sn=3d898ef8302bf1e9b8597c4696a73c0d

进化随想

生物学的一切都是相比较而言

最新文章

bioRxiv | 禾本目比较基因组学分析揭示了禾草的代谢创新

IF=32.1 | Innovation 2024年发文量统计

Nature | AI撰写系统综述（systematic review）可行吗？

新书推荐 | Evolution Evolving——进化演变

Science | 地球生物基因组计划2032年前完成170万个物种参考基因组测序

ANAgdb：无油樟-睡莲-木兰藤多组学数据库

美洲满江红基因组

bioRxiv | 榕小蜂基因组助力揭示榕树-榕小蜂互利共生的秘密

颤杨：地球上最长寿生物量最大的生物的进化秘密

CNS三大出版社支持中文作者名展示

综述 | 基因重复驱动的演化：基因组学时代的回顾与展望

Nature Human Behaviour |中国的预聘长聘制对心理健康的影响

Science主编：中国向Science投稿的数量已经超过美国

Science vs Nature | 淀粉酶基因拷贝数目变异与农业社会的关联研究-竞争激烈

新书推荐 | 进化生物学百科全书-第2版（2025）

10份蝙蝠参考基因组阐明了病毒耐受性和疾病抵抗力的演化

什么是B染色体？重新审视先前的定义

Cell Genomics | 泥鳅单倍型基因组与呼吸空气相关基因的筛选

祝贺马红教授担任美国植物生物学家协会(ASPB)主席

Horticulture Research | 龙眼 Oligo FISH 设计巧思——降低一半oligo pool合成成本

Nature protocols | 动植物精细胞基因组测序分型与减数分裂重组位点检测

爬友狂喜！睫角守宫基因组发布——助力断尾后不再生机制研究

长篇综述：基因组时代的k-mer方法

Science杂志等了57天，就为给这篇文章配一个封面

关注！Scientific Data年发文量趋势

两栖动物基因组联盟——AGC：助推两栖动物基因组遗传研究与保护

The Plant Cell迎来新主编——Pablo Manavella

收藏帖！植物细胞遗传学与基因组学在线数据库资源

Nature? 茄属泛基因组揭示重复基因在作物育种中的作用和命运

Nature | 培养分类学家应该列为昆明生物多样性基金的优先事项

浙江大学赵云鹏团队有效界定天竺桂、普陀樟、浙江樟的物种界限

MBE | 陈华课题组开发HaploSweep：基于单倍型结构检测与区分近期的软硬选择性清除

Nature | 利用纳米孔进行蛋白质测序的探索

为什么像新加坡这样的城市国家能持续发现珍稀植物？

Science发文再谈病毒泄露事件

Nature | 发现一个寄生蜂新种（寄生成体果蝇）

南昌大学流域生态学研究所戎俊团队揭示重要木本油料植物油茶的杂交起源

GW：染色体水平基因组学数据的超快可视化工具

bioRxiv | 褐藻性染色体的起源与演化轨迹

Pangene：李恒开发泛基因图谱构建工具——探索群体基因组时代研究新方向

跳蚤蟾蜍、侏儒虾虎鱼和大黄蜂蝙蝠：研究人员致力于破解小型动物的演化之谜

Science | News: 蚯蚓的祖先从海洋过渡到陆地，或许与其重新洗牌的基因组有关

中国科学院昆明植物研究所周伟/李德铢研究团队揭示雌雄异株植物株高二态性对花粉和种子散布的影响

中国科学院南京地质古生物研究所史恭乐研究团队发现1500万年前热带季雨林中绽放的银缕梅

Nature | 单倍型群体基因组学揭示农业人口耐受高淀粉饮食与淀粉酶基因复制有关

禾本科盐草T2T基因组组装助力解析雌雄异株，B 染色体和耐盐的秘密

Nature Methods | SplitsTree：系统发生树（网络）的交互式分析与可视化

中国海洋大学方宗熙海洋生物进化与发育中心科研助理招聘

中国科学院植物研究所汪小全研究团队揭示：中国裸子植物采集史——过去、现在和未来

北京林业大学生态与自然保护学院董文攀研究团队揭示：系统发生多样性和种间竞争共同塑造木犀科女贞属物种多样性格局

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉