我国作为大豆的发源地,拥有丰富多样的大豆种质资源。重视对这些资源的收集、研究和利用,并从中发掘出具有高产、优质等特性的关键基因,对于振兴和发展我国的大豆产业至关重要。随着高通量测序技术的迅速进步,目前在大豆基因组学领域已经积累了大量的遗传变异信息和其他多维组学数据。然而,现有数据库未能充分整合这些数据,影响了数据使用的效率。
为了解决这一问题,新推出的SoyOD(Soybean Omics Database)多组学数据库不仅发布了本研究的新组学数据,还综合了来自多个数据集的丰富信息,提供了大豆功能基因的数据和交互式在线工具包,极大地促进了大豆生物学的研究深度。
SoyOD数据库中的基因组模块汇集了59个已发布的高质量大豆基因组,其中包括6个多年生大豆基因组、47个染色体水平基因组和6个端到端(T2T)完整基因组。此模块下设有组装基因组、基因浏览、基因搜索、转录因子、转座子和同源基因等多个子模块(图1)。转录组模块则包含了1,097个转录组文库的数据,这些数据被映射到不同的参考基因组上,提供了关于组织表达模式、种子发育阶段、不同种质间的表达差异以及非生物和生物胁迫下的养分吸收和共表达关系的信息。
表型组模块收录了4,097个大豆种质资源的表型数据和大约2,500张表型图像,覆盖了225个不同的表型特征。用户可以基于种质资源的名称或ID以及感兴趣的特性来检索和收集相关信息,通过关联图像深入了解各种质资源的特点,从而减少品种混淆的可能性(图2)。群体模块中,数据库整理了3,904个种质资源的重测序数据,包括719,573个单核苷酸多态性(SNP)位点和753,361个插入缺失变异(InDels)。此外,在共线性模块里,通过比较基因组分析55个组装的基因组,揭示了结构变异和共线性信息。
相较于其他现有的大豆数据库,SoyOD提供了一个更全面的数据集合,包含最新的59个基因组、398,485条表型记录和1,097个转录组数据集,特别是其中940份大豆种质资源的高深度测序数据、162组种子发育时期的转录组测序数据、53种类别的表型测量数据及超过2,500张表型图片均源自本研究。SoyOD还设计了直观友好的用户界面,支持跨模块的交互操作,使用户能够便捷地查询基因注释、表达水平、同源基因和相关QTL信息。
浙江大学生命科学学院寿惠霞教授、陈铭教授,安徽省农科院作物所胡国玉副研究员为本文共同通讯作者;浙江大学生命科学学院在读博士生李杰、倪清扬为论文共同第一作者。本研究得到国家十四五重点研发计划“揭榜挂帅”项目(2021YFF1001204)、浙江省重点研发计划项目(2021C02057)等资助。