我们迫切需要大尺度植物学数据,以加深对群落组配、共存、生物地理学、进化和许多其他基本生物过程的了解。了解这些过程对于预测和处理人类与生物多样性之间的相互作用以及全球变化动态(如粮食和能源安全、生态系统服务、气候变化和物种入侵)至关重要。
植物信息与生态学网络(BIEN)数据库包含了前所未有的大量经过清理和标准化的植物学数据,其中有大约375,000个物种的8,100万条出现记录、大约93,000个物种的28个性状的915,000条性状观测数据、全球110,000个生态样地的共同出现记录,以及新世界物种的100,000个分布图和100个复制的系统发育图(每个系统发育图包含81,274个物种)。在这里,我们将介绍一个r软件包,它可以方便地访问这些数据。
BIEN R软件包允许用户访问BIEN数据库中的多种类型数据。该软件包中的函数通过将用户输入转化为经过优化的PostgreSQL函数来查询BIEN数据库。函数名称遵循约定俗成的惯例,以便于理解每个函数的作用。我们还开发了一个协议,用于为通过BIEN R软件包下载的数据提供定制的引文和标本馆致谢。
BIEN数据库的开发是生物数据整合、清理和标准化方面的一项重大成就。同样,BIEN R软件包也是开放科学的一个重要工具,它使每个人都能免费、方便地访问BIEN数据库。
1 引言
了解生物的分布和多样性有赖于大量标准化、可靠和全面的生物数据。此外,发展具有普遍性和预测性的生态理论也需要高质量的数据。对不同空间尺度的大量植物学数据的需求尤为迫切。尽管植物对生态系统的功能和服务至关重要,但与鸟类和哺乳动物等物种较少的类群相比,植物一直缺乏全面的数据集,而鸟类和哺乳动物则拥有大多数物种的性状、系统发育和分布区信息。粮食和能源安全、气候变化、物种入侵和生态系统服务等具有经济影响的关键问题需要了解全球植物生态和进化情况,并有能力预测这些因素将如何应对全球变化。
在大数据和开放科学时代,信息学面临的挑战是开发工作流程,以实现标准化并提供对不同和异构数据源的访问。生物学家提出的合成问题越来越需要在这些众多不同的数据源之间进行计算密集型整合。然而,数据的存在和可访问性只是问题的一部分。在整合数据之前,必须对其进行评估、清理和标准化。
植物信息与生态网络(BIEN;http://bien.nceas.ucsb.edu/bien/)数据库是一个前所未有的新世界植物数据整合与标准化集合。这是全球20个机构的50多位科学家共同努力的成果。BIEN数据库由一个工作流程构建而成,该流程执行三项基本任务。首先,它整合了多种来源的数据类型(如性状数据、出现记录、生态图谱数据,表1)(表S1-S3)。其次,利用开源工具评估和纠正分类错误,实现分类标准化,验证地理信息,并实现数据格式标准化。第三,生成物种水平分布模型和系统进化论。当前版本的BIEN数据库(截至2017年1月15日为BIEN 3.4)包含来自全球378,502个物种的81,108,996条出现记录。虽然数据范围遍及全球(图1和图2),但数据整合工作主要集中在新大陆(北美和南美,表2)。
BIEN数据库与其他生物多样性数据库的不同之处在于其包含的数据类型的广度(表1)、这些数据的整合、数据的验证和标准化程度以及附加元数据的数量。大多数其他数据库只关注单一数据类型,如TRY的性状数据和GBIF的出现记录,而BIEN则整合了多种数据类型,包括出现、样地、性状和系统发育数据。BIEN数据库中的数据还通过了标准化和验证程序,从而提高了数据质量和易用性。例如,BIEN的出现数据经过了GBIF未使用的额外分类和空间验证,与Traitbank不同的是,BIEN的性状单位和名称已经标准化。
BIEN数据库中包含的大量信息存放在加利福尼亚州圣巴巴拉的国家生态分析与综合中心(NCEAS)。该数据库是开放式的,既可以通过BIENdata.org上的图形用户界面(GUI)访问,也可以通过我们在此介绍的新开发的R软件包bien访问。BIENdata.org网站提供了一种用户友好的方式来可视化物种出现数据和分布图,并可一次下载单个物种的分布图、出现率和性状数据。如果用户有兴趣下载许多类群或地理位置的数据,并访问不同的数据组合,会发现BIEN R软件包是一种更灵活的方法。
2 数据清理与整合工作流程
正如2016年Enquist等所描述的,BIEN数据库的生成包括一个关联的工作流:(1)通过分类名称解析服务或TNRS纠正物种名称的拼写并将同义词更新为当前接受的名称,从而实现分类标准化;(2)检测并标记具有错误地理坐标的观测数据;(3)通过本地物种解析器(http://bien.nceas.ucsb.edu/bien/tools/nsr/)标记栽培种和非本地物种。如果坐标不在指定的政治区域内、纬度正好为0或90度、经度正好为0或180度或坐标点位于海洋中,则标记为错误坐标。对栽培品种和非本地记录的检测依赖于本地物种列表,而这些列表并不是在整个新大陆都有,因此这种过滤并不完善。
每个物种的分布范围图都是根据该物种的观测数据数量绘制的。只有一条记录的物种,其分布范围只包括发现该物种的100 km2区域。有2-3条记录的物种的范围为矩形边框,其界限由所有出现地点的最小和最大经纬度确定。有4-9条记录的物种的范围是用凸包(包含该物种所有出现点的最小拟合多边形)构建的。对于大于9条记录的物种,我们使用Maxent算法建立物种分布模型。在建立Maxent模型时,每个单元格只使用一条出现记录(在有多条记录的情况下)。Maxent模型的建立一般遵循(Merow, Cory, & Silander, 2014; Merow, Cory, Smith, & Silander, 2013)中的建议。模型设置的选择是为了平衡过度拟合和过度拟合,过度拟合会低估范围大小,而过度拟合会导致模型过于平滑,从而过度预测范围大小。只使用了线性、二次方和乘积特征,正则化设置为默认值。
用于SDM的环境预测因子来自分辨率为10 arc-minute的WorldClim当前(1960-1990年)气候数据,并重新采样到10 km分辨率。预测因子包括平均年气温、平均昼夜温差、年降水量、降水季节性、最热季度降水量/(最热季度降水量+最冷季度降水量)以及五个空间特征向量。空间特征向量基本上捕捉到了出现的大尺度区域差异,主要作为物种分布范围的大尺度扩散限制,限制了远离出现地点的地理空间预测。
根据累积输出的第75百分位数选择阈值,将Maxent的连续预测转换为二元存在/不存在预测。
我们使用PHLAWD软件,基于新世界物种的标准化列表以及atpB-rbcL、ndhF、psbA、psbA-psbH、rbcL和trnT-trnL-trnF标记基因区域,构建了18,641个物种的系统发育。使用RAxML(7.3.0)以无约束ML搜索构建系统发育,并使用惩罚似然法和treePL软件包估算分歧时间。Hinchliff和Smith(2014)详细介绍了从GenBank提取这些数据并进行比对的方法。在此系统发育基础上,我们将BIEN数据集中的额外类群嫁接到剩余的约72,000个物种上,并以分类学(属)为指导。我们重复了这一嫁接过程,建立了100个系统发育集,以考虑没有遗传信息的物种位置的不确定性。有关BIEN系统发育的更多信息可在网上查阅(http://bien.nceas.ucsb.edu/bien/biendata/bien-2/phylogeny/)。
3 BIEN R包
对于研究人员来说,一个常见的障碍是如何访问他们在研究中所需的特定数据子集。特别是对于具有多种数据类型的大型数据库,数据访问可能涉及使用数据库语言的复杂查询,而这些语言对于许多研究人员来说并不熟悉。R的BIEN软件包(稳定版在CRAN上,开发版在https://github.com/bmaitner/RBIEN上)提供了一套访问和处理BIEN数据库的工具,使不了解PostgreSQL或BIEN数据库结构的用户也能轻松访问BIEN中的数据。
BIEN软件包中的功能可分为九大类:
1)物种列表
2)出现记录(从标本和样地中观察到的物种)
3)样地数据(来自样地的物种出现和多度)
4)茎数据(来自样地的茎计数和测量)
5)性状数据
6)物种分布图
7)分类信息
8)系统发育信息
9)相关元数据
我们遵循函数命名惯例,每个函数都以前缀“BIEN_”开头,然后指定其访问的数据类型(如“trait_”或“ranges_””),最后说明具体函数的功能。例如,函数BIEN_occurrence_species()用于下载特定物种的地理信息系统(GIS)出现数据。每个函数的详细说明和常见用法示例可参见补充文件S4。完整的函数列表和简短说明以表格形式提供,可参见vignette(“BIEN”),教程可参见vignette(“BIEN_tutorial”)。数据使用注意事项见表S5。
4 数据许可
数据和衍生产品通过CC-BY-NC-ND知识共享许可协议(https://creativecommons.org/licenses/by-nc-nd/4.0/)发布。该许可允许在适当注明创作者、非商业性使用以及用户不发布衍生作品的条件下,对许可作品进行再分发和再使用。如果用户希望在本许可范围之外使用这些数据和产品,请联系BIEN工作组(bien.working.group@gmail.com),讨论其他许可选项。
5 作者指南
任何使用从BIEN获取的数据的出版物都应尽可能引用原始出版物并感谢数据提供者。利用大量BIEN数据进行的研究应寻求最终能在Web of Science中录入数据的解决方案,从而使数据提供者和原始出版物得到认可。正常的道德规范适用于科学出版物的共同作者。如果原始数据提供者的数据是所分析数据集的主要部分,或者如果数据提供者对数据分析或结果解释做出了重大贡献,则BIEN所存储数据的用户应考虑邀请原始数据提供者成为任何由此产生的出版物的共同作者。同样,我们鼓励(但不要求)在研究中使用大量BIEN数据和衍生数据产品(物种名录、地理范围等)的研究人员与BIEN工作组联系,他们可能会就BIEN数据的使用和数据库的预期更新提供见解。未经数据贡献者的明确同意,在任何情况下都不得将作者身份归于其个人或集体。
6 未来发展方向
BIEN数据库是一个前所未有的全球植物学数据源,目前主要集中在新大陆。BIEN数据库、工作流程和r软件包正在持续开发中。我们计划扩展BIEN数据库,以增加对其他大陆的覆盖,并纳入更多类型的性状数据。另一项重点工作是开发应用程序接口(API),以方便其他程序访问BIEN数据库。随着开发的进行,我们将增加功能,允许用户提供自己的数据和范围地图。通过访问这些数据,我们将能以前所未有的规模开展研究,并获得比规模较小的项目更完整、更高质量的数据集。这是我们朝着增进对全球生物多样性模式的了解和在最大尺度上发展预测性生态理论迈出的重要一步。
文献信息