The Sapindaceae family, also known as the soapberry family, comprises over 140 genera and approximately 1,900 species, including economically important and popular fruit trees like lychee, longan, rambutan, and ackee; timber trees as the maple and buckeye; and other species that are prized for their abundant secondary metabolites, such as saponins from soapberry and seed oil from yellowhorn. The cover features the letters “SAP”, representing the Sapindaceae genome database SapBase, filled in with images of key species within the Sapindaceae. SapBase is an integrative genomic resource and analysis platform for the Sapindaceae family established by Li et al. (pages 1561–1570). SapBase provides a critical foundation for research on the diverse species within the Sapindaceae.
无患子科(Sapindaceae Juss.)归属于无患子目。该科植物包含141个属,覆盖1900多个种,大多分布在热带和亚热带地区,包括乔木、灌木,有时为草质或木质藤本。许多无患子科植物具有重要的经济价值,如荔枝、龙眼、文冠果、枫树、七叶树等。其中,荔枝是世界上第二重要的热带和亚热带果树,特别是在南亚地区具有很大的经济价值。近十年来,随着高通量测序技术和基因组技术的飞速发展,许多无患子科植物的全基因组序列已经得到解析,并伴随产生了海量组学数据。为了确保这些无患子科多组学数据的快速访问和最大化利用,亟需一个统一的数据平台来收集、管理和共享相关的数据资源。JIPB第66卷8期封面来自华南农业大学夏瑞团队题为“SapBase: A central portal for functional and comparative genomics of Sapindaceae species”的研究论文 (https://doi.org/10.1111/jipb.13680)。该研究构建了一个集数据访问、数据分析和结构可视化为一体的无患子科基因组数据库SapBase (Sapindaceae genome dataBase, www.sapindaceae.com),旨在提供:目前,SapBase已经收录7种无患子科物种的基因组资源,其中涵盖了16个全基因组序列(图1)。此外,从公开发表的约50项研究中收集了>400个重测序数据和~1000个RNA-seq数据。所有资源都通过统一的标准的分析流程进行处理与存储。SapBase提供了系列用户友好的使用界面与功能,公开向广大研究人员分享,以期让所有人能够便捷且高效地使用这些数据(图2)。图2. 收录数据与功能
SapBase不仅仅是一个数据存储与共享的中心,也是无患子科植物功能基因组学与比较基因组学的强大在线分析平台,覆盖了系列实用功能。作为一个多功能资源中心,SapBase提供了一个“Google-like”搜索引擎——Meta Search,用户可以使用任意关键词(包括但不限于:GeneID、Gene Name、功能注释、序列、保守结构域等)为基础进行检索(图3)。SapBase会自动识别输入内容,进行数据搜索,并返回最佳匹配结果。SapBase提供了一个强大的在线Blast功能,收录了已发表所有无患子科植物的16个全基因组信息。用户可以对这些物种进行核酸序列和蛋白序列的Blast分析(图4)。此外,考虑到果树作为非模式植物,许多基因都没有得到很好的功能注释。因此SapBase在Blast库中也收录了模式植物拟南芥的基因组信息以及SwissProt功能注释库,最大程度的方便用户对任意基因的功能进行探索。SapBase提供了一个使用的基因转换功能,用于将无患子科植物的基因映射到国内外研究最广泛的植物物种(例如拟南芥、水稻、柑橘、番茄等)中的最佳同源基因(图5)。
SapBase收录了目前所有公开的无患子科转录组数据,使用统一标准的分析流程对其进行表达量分析,开发了一个强大的在线基因表达分析系统,其包含三大功能模块:1)Spatiotemporal Expression in eFP功能提供了一组可交互的图形化热图,允许用户直观地探索任意基因在不同组织中的表达模式(图6);图6. Spatiotemporal Expression in eFP示例
2)Multiple Experiment Comparison功能以“Study”为单位进行划分,能够让用户任意探索感兴趣的基因或者基因集在不同实验,不同处理中的表达情况(图7)。图7. Spatiotemporal Expression in eFP示例3)Co-Expression。SapBase基于WGCNA对收录的公共转录组数据进行共表达网络分析,同样以不同的“Study”为单位,用户可以在这些不同的研究中查询某个基因的共表达情况(图8)。
用户只需要选定物种并提供基因ID,便能够通过Gene Location Viewer可视化无患子科植物中任意基因或基因集在染色体上的分布图(图9)。图9. Gene Location Viewer示例
用户能够通过输入基因ID,快速地在Synteny analysis功能中分析任意基因在无患子科物种中的共线性情况(图10)。
- Protein Interaction Network
在Protein Interaction Network功能中,用户可以进行蛋白质互作分析。SapBase提供了两种分析模式:a)探索任意基因在选定物种中所有可能的蛋白互作关系;b)探索任意指定基因集之间的蛋白互作关系(图11)。
SapBase基于iTAK软件对收录的所有无患子科物种进行了大规模的转录因子家族和激酶家族鉴定。用户可以通过Transcription Factors功能浏览和检索这些信息,点击某个感兴趣的转录因子家族,便可跳转查看该家族中包含的所有基因信息以及单个基因的详细信息(图12)。图12. Transcription Factors示例
Pathway Analysis支持用户快速地分析任意指定基因集合的KEGG通路分析,并通过可交互的通路图进行展示(图13)。
Homolog Find以拟南芥基因为基准,支持用户输入单个拟南芥基因或基因集,在所选定无患子科物种中进行同源基因鉴定。此外,还会进一步对拟南芥基因和鉴定得到的同源基因构建系统发育树,为用户提供可信度最高的同源基因鉴定结果(图14)。
sRNA Target Prediction提供了sRNA靶基因预测功能,支持两种预测模式:a)用户以fasta格式输入sRNA序列,选定要分析的物种,然后对该物种的所有基因进行靶基因预测分析;b)用户以fasta格式输入基因序列(或者直接输入基因ID),选定物种,从而预测输入基因中所有潜在的sRNA靶位点(图15)。图15. sRNA Target Prediction示例
引物设计是一个使用频率非常高的功能,SapBase提供了无患子科物种的引物设计模块,方便用户快速地进行引物设计(图16)。
为了方便共享SapBase收录的无患子科基因组信息,研究团队提供了一个用户友好的Download界面,以期用户能够便捷地获取任意感兴趣物种的基因组数据(图17)。综上,夏瑞课题组对公开发布的7个无患子科物种的基因组(包括16个完整的基因组序列)和相关组学数据进行了收集与分析,开发了无患子科基因组数据库——SapBase,为无患子科所有基因组资源提供一站式服务,确保研究人员在日常研究中能够方便、高效地访问和使用这些资源。作为一个长期的开发项目,SapBase将持续的维护和更新。研究团队有信心将其打造成无患子科和相关领域研究人员的数据中心和分析平台。
本论文以华南农业大学为第一完成单位,华南农业大学园艺学院夏瑞教授为通讯作者,已毕业硕士生李嘉威和陈程杰博士(现热科院品资所副研究员)为共同第一作者。曾灶海、吴锋琦、冯筠庭、刘博、麦迎晓、储心怡、魏婉春、李欣、梁演扬、刘元龙、徐婧参与了数据库的功能测试。该研究得到国家自然科学基金、广东省重点研发项目等资助。Li, J., Chen, C., Zeng, Z., Wu, F., Feng, J., Liu, B., Mai, Y., Chu, X., Wei, W., Li, X., et al. (2024). SapBase: A central portal for functional and comparative genomics of Sapindaceae species. J. Integr. Plant Biol. 66: 1561–1570.往期合集:
JIPB面向全球,刊发整合植物生物学研究的重要创新成果,包括宏观和微观领域有创新性的重要研究论文、综述、简讯、新资源、新技术和评论性文章等。2023年2年SCI_IF: 9.3,位于植物科学TOP 3.2%,SCI的Q1区。Scopus数据库中CiteScore: 18.0,位于植物科学TOP 2%。JIPB位于中国科学院期刊分区生物学大类1区和植物学小类1区,中国科协《植物科学领域高质量期刊分级目录》T1级,并入选中国科技期刊卓越行动计划。