MEE | BIEN R包：访问植物信息和生态网络（BIEN）数据库的工具

文摘 2024-08-23 21:50 江苏

我们迫切需要大尺度植物学数据，以加深对群落组配、共存、生物地理学、进化和许多其他基本生物过程的了解。了解这些过程对于预测和处理人类与生物多样性之间的相互作用以及全球变化动态（如粮食和能源安全、生态系统服务、气候变化和物种入侵）至关重要。

植物信息与生态学网络（BIEN）数据库包含了前所未有的大量经过清理和标准化的植物学数据，其中有大约375,000个物种的8,100万条出现记录、大约93,000个物种的28个性状的915,000条性状观测数据、全球110,000个生态样地的共同出现记录，以及新世界物种的100,000个分布图和100个复制的系统发育图（每个系统发育图包含81,274个物种）。在这里，我们将介绍一个r软件包，它可以方便地访问这些数据。

BIEN R软件包允许用户访问BIEN数据库中的多种类型数据。该软件包中的函数通过将用户输入转化为经过优化的PostgreSQL函数来查询BIEN数据库。函数名称遵循约定俗成的惯例，以便于理解每个函数的作用。我们还开发了一个协议，用于为通过BIEN R软件包下载的数据提供定制的引文和标本馆致谢。

BIEN数据库的开发是生物数据整合、清理和标准化方面的一项重大成就。同样，BIEN R软件包也是开放科学的一个重要工具，它使每个人都能免费、方便地访问BIEN数据库。

1 引言

了解生物的分布和多样性有赖于大量标准化、可靠和全面的生物数据。此外，发展具有普遍性和预测性的生态理论也需要高质量的数据。对不同空间尺度的大量植物学数据的需求尤为迫切。尽管植物对生态系统的功能和服务至关重要，但与鸟类和哺乳动物等物种较少的类群相比，植物一直缺乏全面的数据集，而鸟类和哺乳动物则拥有大多数物种的性状、系统发育和分布区信息。粮食和能源安全、气候变化、物种入侵和生态系统服务等具有经济影响的关键问题需要了解全球植物生态和进化情况，并有能力预测这些因素将如何应对全球变化。

在大数据和开放科学时代，信息学面临的挑战是开发工作流程，以实现标准化并提供对不同和异构数据源的访问。生物学家提出的合成问题越来越需要在这些众多不同的数据源之间进行计算密集型整合。然而，数据的存在和可访问性只是问题的一部分。在整合数据之前，必须对其进行评估、清理和标准化。

植物信息与生态网络（BIEN；http://bien.nceas.ucsb.edu/bien/）数据库是一个前所未有的新世界植物数据整合与标准化集合。这是全球20个机构的50多位科学家共同努力的成果。BIEN数据库由一个工作流程构建而成，该流程执行三项基本任务。首先，它整合了多种来源的数据类型（如性状数据、出现记录、生态图谱数据，表1）（表S1-S3）。其次，利用开源工具评估和纠正分类错误，实现分类标准化，验证地理信息，并实现数据格式标准化。第三，生成物种水平分布模型和系统进化论。当前版本的BIEN数据库（截至2017年1月15日为BIEN 3.4）包含来自全球378,502个物种的81,108,996条出现记录。虽然数据范围遍及全球（图1和图2），但数据整合工作主要集中在新大陆（北美和南美，表2）。

图1 BIEN 3.4中每100 km×100 km单元中经地理验证的出现记录数

图2 BIEN 3.4中每100 km×100 km单元的生态样地位置数

BIEN数据库与其他生物多样性数据库的不同之处在于其包含的数据类型的广度（表1）、这些数据的整合、数据的验证和标准化程度以及附加元数据的数量。大多数其他数据库只关注单一数据类型，如TRY的性状数据和GBIF的出现记录，而BIEN则整合了多种数据类型，包括出现、样地、性状和系统发育数据。BIEN数据库中的数据还通过了标准化和验证程序，从而提高了数据质量和易用性。例如，BIEN的出现数据经过了GBIF未使用的额外分类和空间验证，与Traitbank不同的是，BIEN的性状单位和名称已经标准化。

BIEN数据库中包含的大量信息存放在加利福尼亚州圣巴巴拉的国家生态分析与综合中心（NCEAS）。该数据库是开放式的，既可以通过BIENdata.org上的图形用户界面（GUI）访问，也可以通过我们在此介绍的新开发的R软件包bien访问。BIENdata.org网站提供了一种用户友好的方式来可视化物种出现数据和分布图，并可一次下载单个物种的分布图、出现率和性状数据。如果用户有兴趣下载许多类群或地理位置的数据，并访问不同的数据组合，会发现BIEN R软件包是一种更灵活的方法。

2 数据清理与整合工作流程

正如2016年Enquist等所描述的，BIEN数据库的生成包括一个关联的工作流：（1）通过分类名称解析服务或TNRS纠正物种名称的拼写并将同义词更新为当前接受的名称，从而实现分类标准化；（2）检测并标记具有错误地理坐标的观测数据；（3）通过本地物种解析器（http://bien.nceas.ucsb.edu/bien/tools/nsr/）标记栽培种和非本地物种。如果坐标不在指定的政治区域内、纬度正好为0或90度、经度正好为0或180度或坐标点位于海洋中，则标记为错误坐标。对栽培品种和非本地记录的检测依赖于本地物种列表，而这些列表并不是在整个新大陆都有，因此这种过滤并不完善。

每个物种的分布范围图都是根据该物种的观测数据数量绘制的。只有一条记录的物种，其分布范围只包括发现该物种的100 km²区域。有2-3条记录的物种的范围为矩形边框，其界限由所有出现地点的最小和最大经纬度确定。有4-9条记录的物种的范围是用凸包（包含该物种所有出现点的最小拟合多边形）构建的。对于大于9条记录的物种，我们使用Maxent算法建立物种分布模型。在建立Maxent模型时，每个单元格只使用一条出现记录（在有多条记录的情况下）。Maxent模型的建立一般遵循（Merow, Cory, & Silander, 2014; Merow, Cory, Smith, & Silander, 2013）中的建议。模型设置的选择是为了平衡过度拟合和过度拟合，过度拟合会低估范围大小，而过度拟合会导致模型过于平滑，从而过度预测范围大小。只使用了线性、二次方和乘积特征，正则化设置为默认值。

用于SDM的环境预测因子来自分辨率为10 arc-minute的WorldClim当前（1960-1990年）气候数据，并重新采样到10 km分辨率。预测因子包括平均年气温、平均昼夜温差、年降水量、降水季节性、最热季度降水量/（最热季度降水量+最冷季度降水量）以及五个空间特征向量。空间特征向量基本上捕捉到了出现的大尺度区域差异，主要作为物种分布范围的大尺度扩散限制，限制了远离出现地点的地理空间预测。

根据累积输出的第75百分位数选择阈值，将Maxent的连续预测转换为二元存在/不存在预测。

我们使用PHLAWD软件，基于新世界物种的标准化列表以及atpB-rbcL、ndhF、psbA、psbA-psbH、rbcL和trnT-trnL-trnF标记基因区域，构建了18,641个物种的系统发育。使用RAxML（7.3.0）以无约束ML搜索构建系统发育，并使用惩罚似然法和treePL软件包估算分歧时间。Hinchliff和Smith（2014）详细介绍了从GenBank提取这些数据并进行比对的方法。在此系统发育基础上，我们将BIEN数据集中的额外类群嫁接到剩余的约72,000个物种上，并以分类学（属）为指导。我们重复了这一嫁接过程，建立了100个系统发育集，以考虑没有遗传信息的物种位置的不确定性。有关BIEN系统发育的更多信息可在网上查阅（http://bien.nceas.ucsb.edu/bien/biendata/bien-2/phylogeny/）。

3 BIEN R包

对于研究人员来说，一个常见的障碍是如何访问他们在研究中所需的特定数据子集。特别是对于具有多种数据类型的大型数据库，数据访问可能涉及使用数据库语言的复杂查询，而这些语言对于许多研究人员来说并不熟悉。R的BIEN软件包（稳定版在CRAN上，开发版在https://github.com/bmaitner/RBIEN上）提供了一套访问和处理BIEN数据库的工具，使不了解PostgreSQL或BIEN数据库结构的用户也能轻松访问BIEN中的数据。

BIEN软件包中的功能可分为九大类：

1）物种列表

2）出现记录（从标本和样地中观察到的物种）

3）样地数据（来自样地的物种出现和多度）

4）茎数据（来自样地的茎计数和测量）

5）性状数据

6）物种分布图

7）分类信息

8）系统发育信息

9）相关元数据

我们遵循函数命名惯例，每个函数都以前缀“BIEN_”开头，然后指定其访问的数据类型（如“trait_”或“ranges_””），最后说明具体函数的功能。例如，函数BIEN_occurrence_species()用于下载特定物种的地理信息系统（GIS）出现数据。每个函数的详细说明和常见用法示例可参见补充文件S4。完整的函数列表和简短说明以表格形式提供，可参见vignette(“BIEN”)，教程可参见vignette(“BIEN_tutorial”)。数据使用注意事项见表S5。

4 数据许可

数据和衍生产品通过CC-BY-NC-ND知识共享许可协议（https://creativecommons.org/licenses/by-nc-nd/4.0/）发布。该许可允许在适当注明创作者、非商业性使用以及用户不发布衍生作品的条件下，对许可作品进行再分发和再使用。如果用户希望在本许可范围之外使用这些数据和产品，请联系BIEN工作组（bien.working.group@gmail.com），讨论其他许可选项。

5 作者指南

任何使用从BIEN获取的数据的出版物都应尽可能引用原始出版物并感谢数据提供者。利用大量BIEN数据进行的研究应寻求最终能在Web of Science中录入数据的解决方案，从而使数据提供者和原始出版物得到认可。正常的道德规范适用于科学出版物的共同作者。如果原始数据提供者的数据是所分析数据集的主要部分，或者如果数据提供者对数据分析或结果解释做出了重大贡献，则BIEN所存储数据的用户应考虑邀请原始数据提供者成为任何由此产生的出版物的共同作者。同样，我们鼓励（但不要求）在研究中使用大量BIEN数据和衍生数据产品（物种名录、地理范围等）的研究人员与BIEN工作组联系，他们可能会就BIEN数据的使用和数据库的预期更新提供见解。未经数据贡献者的明确同意，在任何情况下都不得将作者身份归于其个人或集体。

6 未来发展方向

BIEN数据库是一个前所未有的全球植物学数据源，目前主要集中在新大陆。BIEN数据库、工作流程和r软件包正在持续开发中。我们计划扩展BIEN数据库，以增加对其他大陆的覆盖，并纳入更多类型的性状数据。另一项重点工作是开发应用程序接口（API），以方便其他程序访问BIEN数据库。随着开发的进行，我们将增加功能，允许用户提供自己的数据和范围地图。通过访问这些数据，我们将能以前所未有的规模开展研究，并获得比规模较小的项目更完整、更高质量的数据集。这是我们朝着增进对全球生物多样性模式的了解和在最大尺度上发展预测性生态理论迈出的重要一步。

文献信息

The BIEN R package: A tool to access the Botanical Information and Ecology Network (BIEN) database

期刊

Methods in Ecology and Evolution (IF = 6.3)

作者

Brian S. Maitner, Brad Boyle, Nathan Casler et al.

发布日期

2017 年 9 月 6 日

DOI

https://doi.org/10.1111/2041-210X.12861

文章翻译仅代表译者的理解，如需参考和引用相关内容，请查阅原文。

点击“阅读原文”可查看文献↓↓↓

http://mp.weixin.qq.com/s?__biz=MzkzOTUwMjk0Mg==&mid=2247485635&idx=2&sn=3227dc18a86f3e29a4001708ee8752f3

Biodiversity Monitoring

生物多样性；监测保护；群落生态；生态统计；R语言；python。主要分享一些前沿的文献和方法实例，更新看心情和时间。

最新文章

实例教程 | 系统发育多样性指数的统一框架：丰富度，离散性，规律性

实例教程 | 功能多样性指数的计算代码及相关R包的区别

实例教程 | 使用hypervolume包计算n维超体积大小与重叠

Ecology | 新热带湿林和干林群落的树木动态策略在演替过程中基本重叠

Methods in Ecology and Evolution | n维超体积的统计推断方法：在生态位和功能多样性中的应用

Journal of Plant Ecology | 生物多样性实验分析指南

重磅来袭！Science联合生态“大佬”，助力生态领域迈向新高度！

New Phytologist | 基于性状的生态学、无性状生态学以及介于两者之间

实例教程 | 功能多样性三元图的复现代码

基于TIMESAT、AUNSPLIN的植被物候信息提取、时空特征分析、气候因子响应特征研究

Methods in Ecology and Evolution | 功能多样性的三元图

New Phytologist | FungalRoot：植物菌根关联的全球在线数据库

Ecology | 加拿大西部北方森林植物群落的季节性和年度动态：跨越四十年的遗留数据集

Ecology | ToTE：林线交错带树木的全球数据库

Functional Ecology | 功能多样性的概念和应用

Ecology | 土壤种子库丰富度、密度和丰度的全球数据库

Journal of Ecology | 气候分布边缘的树种多度变化：气候变化、植物性状和森林管理之间的相互作用

Global Change Biology | 树木干旱-死亡风险更多地取决于内在物种的抗性，而不是林分物种的多样性

Global Ecology and Biogeography | FLAMITS：植物可燃性状的全球数据库

Ecology | RecruitNet：植物招募网络的全球数据库

Ecology | 来自FERN（森林边缘研究网络）的森林边缘植被数据

Ecology | 来自法国森林保护区永久样地的树木清查数据

Global Ecology and Biogeography | 全球城市树木清单：栖息在世界城市中的各种树木植物群的数据库

Ecology | 来自巴拿马巴罗科罗拉多岛50公顷森林动态样地的长期幼苗和小树苗普查数据

Scientific Data | GIATAR：全球入侵和外来物种及其性状的时空数据集

Global Ecology and Biogeography | 插补植物性状中的缺失数据：改善空白填补的指南

Trends in Ecology & Evolution | 更难、更好、更快、更强？人类世的扩散

MEE | tidysdm：利用tidymodels的灵活性在R中进行物种分布建模

Journal of Ecology | 地下性状、稀有物种和环境压力调节着生物多样性与生态系统功能之间的关系

Journal of Ecology| 将生境斑块的影响纳入物种分布模型

Remote Sensing of Environ | 利用机器学习结合激光雷达数据构建中国森林冠层图和全球数字高程模型

Trends in Ecology & Evolution | 生态系统同步性：阐明生态系统对全球变化的反应的新兴特性

实例教程 | 植物性状数据的获取指南（TRY | BIEN | GIFT | sPlotOpen…）

Scientific Data | 植物形态和功能全球谱：增强的物种水平性状数据集

Ecology and Evolution | rtry：支持植物性状数据预处理的R包

MEE | BIEN R包：访问植物信息和生态网络（BIEN）数据库的工具

Global Ecology and Biogeography | 植物性状多样性与地质多样性的关系是什么？基于样地的泛欧分析

Journal of Ecology | 基于自然的复原力解决方案的干预措施：生态视角

Basic and Applied Ecology | 生物多样性与稳定性关系的多重机制假说

Global Ecology and Biogeography| sPlotOpen：一个环境平衡、开放存取的全球植被样地数据集

Scientific Data | CoRRE性状数据：全球4079种草原物种的17个分类和连续性状的数据集

Global Ecology and Biogeography | 干旱加剧导致生物多样性与树木支持的生态系统服务之间的权衡

Ecology Letters | BioEncoder：用于比较有机体生物学的度量学习工具包

Ecology Letters | 共存机制研究：探索木本植物物种筛选和性状替换，缓解地下竞争

Ecology | 从沿环境梯度的多维群落性状分布推断生态选择

实例教程 | 使用TDIP包对分类性状的缺失值进行插补

Method in Ecology and Evolution | 分类生物数据的基准插补方法

Ecography | KBAscope：R中关键生物多样性区域识别

Functional Ecology | 功能性状和生态位是14种热带树种幼苗种间生长-死亡权衡的相关因素

Ecography | 生物多样性促进城市生态系统功能

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

MEE | BIEN R包：访问植物信息和生态网络（BIEN）数据库的工具

1 引言

2 数据清理与整合工作流程

3 BIEN R包

4 数据许可

5 作者指南

6 未来发展方向