Global Ecology and Biogeography| sPlotOpen:一个环境平衡、开放存取的全球植被样地数据集

文摘   2024-08-19 17:18   江苏  

动机

评估植物群落的生物多样性状况和趋势对于了解、量化和预测全球变化对生态系统的影响至关重要。植被样地记录了在划定的局部区域内共同出现的所有植物物种的出现率或多度。这样就可以推断出物种的缺失情况,而现有的全球植物数据集很少提供这方面的信息。尽管已经记录了许多植被样地,但全球研究界还无法获得其中的大部分。最近,一项名为“sPlot”的计划汇编了首个全球植被样地数据库,并将继续发展和完善该数据库。然而,sPlot数据库在空间和环境方面极不平衡,而且不开放。在这里,我们通过以下方法解决了这两个问题:(a)使用几个环境变量作为采样层,对植被样地进行重新采样;(b)获得105个局域到区域数据集的数据持有者的许可,公开发布数据。sPlotOpen可用于探索植物群落水平的全球多样性,也可作为遥感应用中的地面实况数据,或作为生物多样性监测的基线。

包含的主要变量类型

植被样地(n=95,104),记录了限定区域内自然共生维管束植物物种的覆盖度或多度。sPlotOpen包含三个部分重叠的重采样数据集(每个数据集约有50,000个样地),可用作全球分析的重复数据。除了地理位置、日期、样地大小、生物群落、海拔、坡度、坡向、植被类型、自然度、各种植被层的覆盖率和源数据集之外,样地水平数据还包括TRY植物性状数据库中18种植物功能性状的群落加权平均值和方差。

空间位置和粒度

全球,0.01-40,000 m2

时间段和粒度

1888-2015年,记录日期。

主要分类群和测量水平

42,677个维管束植物分类群,样地水平记录。

软件格式

三个主要矩阵(.csv),相互关联。

  • 1 背景与概要

生物多样性正面临全球性危机。目前有多达100万个物种濒临灭绝,其中绝大多数是由于土地使用和气候变化等人为影响造成的。此外,生物多样性同质化和重新分布的速度也在加快。随着本地特有物种的灭绝,更广泛、更具竞争力的本地或外来物种取而代之,全球范围内的生物群落正变得越来越相似。作为对气候变化的回应,许多陆地和海洋物种也在改变其地理分布。这对生态系统和人类健康有着深远的潜在影响。

植物群落在这场生物多样性危机中也不例外。这尤其令人担忧,因为陆地植被占地球生物量的80%450 Gt C)。鉴于植被在生态系统的生产力、结构、稳定性和功能中的核心作用,评估植物群落的生物多样性状况和趋势对其他生命王国和人类社会都至关重要。

监测植物生物多样性的趋势需要一系列时空尺度的充足数据。通过植物信息和生态学网络(BIEN)、全球植物区系和性状目录(GIFT)或全球生物多样性信息机制(GBIFhttps://www.gbif.org/),在全球或大陆范围内确实存在大量独立的植物发生数据收集。然而,这些数据库存在以下一个或多个局限性:(a)仅偏重树种;(b)缺乏关于单个植物物种如何共同出现并在当地相互作用以形成植物群落的数据;(c)空间分辨率较低(如一度网格单元),无法与高分辨率遥感数据相交,也无法评估植物群落水平的生物多样性趋势。

植物学家和植物社会学家有一个悠久的传统,即记录特定时间、特定大小(即表面积)的植被样地(此处用作“relevé”或“quadrat”的同义词)中出现的每种植物的覆盖度或多度。与仅记录存在的数据相比,植被图数据有许多优势。由于所有可见植物物种都被记录在案,因此样地中包含了在特定时间内同一地点哪些植物物种共存、哪些植物物种不共存的信息。这对于检验植物物种间生物相互作用的相关假设非常重要。植被样地数据还提供了物种缺失地点和缺失时间的重要信息,从而改进了当前物种分布模型的预测。由于植被样地在空间上是明确的,因此可以随着时间的推移重新调查,以评估植物物种组成相对于基线的潜在变化。由于植被样地通常包含每个物种的相对覆盖度或多度信息,因此与仅代表单个物种出现情况的数据相比,植被样地也更适合检测生物多样性的变化。

然而,在全球范围内,植被样地数据非常零散,因为它们通常来自无数的地方研究和调查项目。这些数据粒度较细(如1-10,000 m2),通常覆盖的空间范围较小(如1-1,000 km2)。由于采样协议、标准和分类分辨率各不相同,汇总和统一植被样地数据极具挑战性。因此,这些数据很少用于全球范围的植物群落生物多样性研究也就不足为奇了。

sPlot计划试图填补这一数据空白。它整合了众多地方和区域植被样地数据集,创建了一个统一、全面的全球陆生植物物种组合地理参考数据库。sPlotv 3.0建立于2013年,目前包含190多万个植被样地,并与TRY数据库完全集成,从中获取植物功能性状信息。sPlot数据库正被越来越多地用于研究从大陆到全球尺度的植被模式,如区域因素与局域因素对全球蕨类植物丰富度模式的相对贡献、本地树种与入侵树种的传播和丰富度的内在机制,以及全球植物群落的性状-环境关系等。

然而,这些数据大多没有开放获取。在此,我们获得了sPlot数据库中数据持有者的许可,公开发布由95,104个植被样地组成的数据集。为了代表sPlot数据库所覆盖的整个环境空间,我们采用了复制环境分层的方法来选择要发布的样地。这样可以最大限度地将这些数据用于广泛的潜在用途。所选植被样地来自105个数据库,横跨114个国家(图1)。这个重新采样的数据集(sPlotOpen-以下简称)由以下部分组成:(a)样地水平信息,包括元数据和基本植被结构描述符;(b)每个植被样地的维管植物物种组成,包括可用的物种覆盖度或多度信息;以及(c)通过与TRY数据库交叉获得的群落水平功能信息。

1 TopsPlotOpen中包含的所有植被样地的全球分布(n=95,104)。每种颜色代表不同的源数据集(n=105-不同的数据集可能有相同的颜色)。Bottom:第一次重采样迭代选择的环境平衡数据集的植被样地密度空间分布(n=49,787)。密度以六边形单元计算,空间分辨率约为70,000平方公里。地图投影为Eckert IV

sPlotOpen专为全球宏观生态学研究而设计,例如探索从大陆到全球的群落功能多样性模式。但我们预计,sPlotOpen同样也可以用于回答一系列不同的问题,例如物种共存模式、物种池的定义、物种多样性的区域决定因素与局域决定因素之间的联系,或共存物种之间的生态位重叠等。然而,sPlotOpen中的数据不应被视为全球植物群落分布的代表,尤其是在局部空间范围内工作时。在应用物种分布模型(SDM)或联合SDM时应注意这一点,其结果可能会受到sPlotOpen数据地理分布不均的影响。我们建议读者参阅“使用说明”部分,以获取有关关键问题的更多指导,例如取样不完整的植被样地、不同的样地大小和嵌套植被样地。

  • 2 方法

2.1 植被样地数据源

我们从sPlot数据库v 2.1开始(创建于201610月),其中包含1,121,244个独特的植被样地和23,586,216条物种记录。sPlot数据库中的大部分数据指的是自然和半自然植被,而由密集和反复的人为干扰所形成的植被,如耕地或杂草群落,几乎没有体现。数据来自地区、国家或大陆范围内的110个不同植被样地数据集,其中一些数据集来自地区或大陆倡议。例如48个植被样地数据集来自欧洲植被档案(EVA);三个主要的非洲数据集来自非洲热带植被档案(TAVA);美国和澳大利亚的多个植被数据集分别来自VegBankTERNAEKOS档案。其他大洲(南美洲、亚洲)或国家的数据则作为单独的数据集提供。存储在sPlot中的每个植被样地数据集的元数据都通过全球植被样地数据库索引(GIVD)进行管理,使用GIVD代码作为唯一的数据集标识符。

2.2 重采样方法

sPlot数据库中的数据在植被类型和地理区域之间分布不均。发达国家(主要是欧洲、美国和澳大利亚)的中纬度地区在sPlot中的代表性过高,而热带和亚热带地区的代表性不足,这是生物多样性数据中典型的地理偏差。这种地理偏差通常转化为环境偏差,温带气候通常比热带或地中海气候更具代表性。环境空间中不平衡的取样工作是比较宏观生态学研究特别关注的问题。为了尽可能减少这种不平衡,我们在环境空间内采用了一种分层再采样方法,将全球范围内的几个环境变量作为采样层。

首先,我们剔除了没有地理坐标或位置不确定性大于3公里的植被样地。我们还剔除了被相关数据提供者认定为记录在湿地或人为植被类型中的植被样地,因为这些数据仅适用于少数几个地理区域,其中大部分在欧洲。这样,在最初的1,121,244个植被样地中,共剔除了799,400个。

然后,我们根据30个气候和土壤变量,对空间分辨率为2.5 arcmin的所有陆地网格单元矩阵(n=8,384,404)进行了全球主成分分析(PCA)。在气候方面,我们使用了CHELSA(地球陆地表面区域高分辨率气候学)v1.2版中的19个生物气候变量,以及另外两个反映生长季节长度的生物气候变量(1 ℃ – GDD1 – and 5 ℃ – GDD5),这两个变量是根据SynesOsborne中的CHELSA月气温推导得出的。此外,我们还考虑了空间信息联合联盟(CGIAR-CSI)的干旱指数和潜在蒸散层。在土壤方面,我们从SoilGrids数据库中提取了七个变量,即:(a)细土部分的土壤有机碳含量;(b)阳离子交换容量;(cpH值;以及(d)粗粒部分;(e)沙粒;(f)粉砂;(g)粘土。该PCA的结果代表了地球上所有陆地栖息地的全部环境空间,无论网格单元是否包含植被样地(支持资料图S1)。然后,我们将由前两个主成分(PC1-PC2)代表的PCA排序空间细分为一个规则的100×100网格,前两个主成分分别占陆地网格单元环境变化总量的47%23%。这个PC1-PC2二维空间随后被用来平衡我们在所有PC1-PC2网格单元中的取样工作,这些单元中都有植被样地。由于生物气候或土壤变量数据缺失,有42,878块植被样地没有PC1PC2值,在排除这些植被样地后,我们将剩余的756,522块植被样地投影到这个PC1-PC2网格中。最后,我们计算了每个PC1-PC2网格单元中有多少植被样地(图2)。

2 基于30个气候和土壤变量的主成分分析(PCA),sPlotOpen中的植被样地在全球环境空间中的分布。TopPCA值在所有陆地网格单元中的空间分布(n=8,384,404,空间粒度=2.5 arcmin)。Bottom left:与PCA空间中所有陆地2.5 arcmin单元(灰色背景)的分布相比,样地的分布情况。图中仅显示了在第一次重采样迭代中选取的环境平衡数据集中的样地(n=49,787)。PCA空间被划分为100×100的规则网格。第一和第二PCA轴分别解释了总方差的47%23%Bottom right:随机选取的四个PCA网格单元中包含的植被样地的地理分布情况

在地理空间的8,384,404个陆地网格单元所覆盖的4,125PC1-PC2网格单元中,共有1,720个单元有植被。然后,我们对植被样地数量超过50个的PC1-PC2网格单元(n=858)进行了重采样,这是sPlot中被占网格单元中出现的样地数量的中位数。50个植被样地的阈值是一个折衷方案,既要选择较多的样地,又要使重新采样的数据集在PC1-PC2环境空间中尽可能保持平衡。为了选择这50个植被样地,我们使用了异质性约束随机重采样算法。该算法通过计算所有可能的植被样地对之间的Jaccard相异指数的均值和方差,来量化一组植被样地之间植物物种组成的变异性。更确切地说,对于一个包含50个以上植被样地的PC1-PC2网格单元,我们从50个植被样地中随机抽取1,000个样地,并根据Jaccard相异指数的平均值(升序)和方差值(降序)对每个抽取的样地进行排序。对每个随机选择的两个排序值求和,求和值最低的选择被认为是重点网格单元内植被类型最均衡/最平均的代表。如果网格单元中的样地少于50个,我们则保留所有样地。通过这种方法,我们减少了过度采样气候类型的不平衡现象,同时确保重采样的数据集代表了原始sPlot数据库所涵盖的整个环境梯度。这种方法优化了植被样地子集的选择,既涵盖了物种组成的最大变异性,又避免了可能代表异常值的特殊和稀有群落。因此,我们的方法在每个网格单元内最大限度地提高了变异性而非代表性。我们将整个重采样过程重复了三次,以获得三个不同的环境平衡的植被样地重采样子集。因此,这三次重采样迭代可作为单独的重复样本,尽管这些重复样本并非完全独立,因为在三次重采样迭代中的两次甚至三次迭代中都可能绘制了相同的样地。此外,位于PC1-PC2网格单元中植被样地少于50个的样地完全由三次迭代共享。

2.3 允许以开放存取方式发布数据

重采样程序的结果是,在重采样迭代#1、#2和#3中分别选择了56,48656,50156,494个植被样地,共计107,238个独特的植被样地。由于sPlot数据库是一个由独立数据集组成的联盟,其版权归数据贡献者所有,因此我们利用这一初步的潜在选择,向每个数据集的保管人(即数据集的所有者或集体数据集的授权代表)询问是否允许以开放存取的方式发布所选植被样地的数据。对于12,134个独特的植被样地,由于数据未公开、保密或敏感等原因,无法获得许可。在重采样迭代1、迭代2和迭代3中,未获得开放许可的植被样地数量分别为6,6996,6906,705个。

为了减少因排除这些保密样地而造成的不平衡,我们创建了一个“共识”数据集。我们从迭代1开始重新取样,并用迭代23中选出的可以开放访问的样地(以下简称“候选样地”)替换了未开放访问的6,699个样地。我们规定,储备库中的每个候选植被样地应与保密植被样地属于同一环境层,即同一PC1-PC2网格单元,尽管我们承认这一程序并不能最大限度地提高替代样地植物物种组成的可变性。即使从保留地中提取,仍有3,150个样地无法替换。这些样地分布在279PC1-PC2网格单元中(占占用单元的16.2%),每个单元平均有11个无法替换的样地(最小值=1,中位值=5,最大值=50)。

2.4 性状信息

对于可以开放访问的每个植被样地,我们计算了从TRY数据库v 3.0中提取的18种植物功能性状的群落加权平均值和方差。这些性状是从描述叶片、木材和种子经济光谱的性状中挑选出来的,已知这些性状或影响不同的关键生态系统过程,或对宏观气候驱动因素做出响应,或两者兼而有之。18种植物功能性状(所有浓度均以干重为基础)包括(a)叶面积(mm2);(b)茎比密度(g/cm3);(c)比叶面积(m2/kg);(d)叶碳浓度(mg/g);(e)叶氮浓度(mg/g);(f)叶磷浓度(mg/g);(g)株高(m);(h)种子质量(mg);(i)种子长度(mm);(j)叶干物质含量(g/g);(k)叶氮单位面积(g/m2);(lleaf N:P ratio (g/g); (m) leaf δ15N (per million);(n)每个繁殖单位的种子数;(o)叶片鲜重(g);(p)茎导管密度(per mm2);(q)扩散单位长度(mm);(r)导管元件长度(μm)。

由于缺失值在物种-性状矩阵中特别普遍,我们使用从TRY获得的这些性状的缺失填充版本计算群落加权平均值。缺口填补是在个体观测水平上进行的,依赖于R中的分层贝叶斯建模(R软件包BHPMF)。这是一种贝叶斯机器学习方法,除了数据完全随机缺失外,没有任何先验假设。该算法从数据中“学习”,也就是说,如果数据中存在系统发育信号,则利用该信号填补缺口,但如果没有明显的系统发育信号,则不引入任何系统发育信号。填补空白后,我们将所有填补空白的性状值转化为自然对数,并按类群(即种或属水平)对每个性状进行平均。缺口填补方法仅针对至少有一个性状观测值的物种(n=21,854)。Bruelheide等(2019)提供了有关缺口填补程序的更多信息。

群落加权平均值(CWM)和方差(CWV)的计算方法如下:

其中,nk是植被样地k中具有性状信息的物种数量,pi,k是植被样地k中物种i的相对多度,计算方法是物种的覆盖度或多度占总覆盖度或总多度的比例,ti,j是物种i对性状j的平均值。

  • 3 数据记录

sPlotOpen包含来自105个构成数据集(表1)和114个国家(除南极洲外)的95,104个独特植被样地(图1)。这是在剔除了数据贡献者不允许开放访问的样地后,将重采样迭代#1#2#3的三个环境平衡数据集汇集在一起的结果,这三个数据集分别包含49,787个、49,811个和49,789个样地。在所有三个重采样迭代中共享的样地数量为19,672个,而在两个迭代中共享的样地数量为14,939个。sPlotOpen只包含维管束植物的物种组成;由于只有少数样地(n=11,001n=6,801)提供了苔藓植物和地衣的组成信息,因此舍弃了这些信息。有67,022个样地的植被调查面积(表面积)信息,范围在0.0340,000 m2之间(平均值=377 m2;中位数=100 m2)。具体来说,sPlotOpen包含12,894个面积小于10 m2的样地、25,742个面积为10-100 m2的样地、24,750个面积为100-1,000 m2的样地以及3,075个面积大于或等于1,000 m2的样地。同样,只有少数样地(n=24167)提供了实地采样植物的具体类别信息(例如,完整植被、仅树木、仅高度大于1 m的树木等)。不过,由于大多数数据都是采用植物社会学方法收集的,因此我们认为,除非另有说明,否则可以认为样地包含了所有维管植物的信息。我们保留了植被不完整的样地,因为它们大多位于热带地区,也就是植被样地特别稀少的地区。每个植被样地的维管植物物种平均数量从1种(即单一物种林分)到271种不等(平均=20种;中位数=16种)。

通过对代表性过高的环境条件下的植被样地数量设置上限,上述重采样程序大大减少了PC1-PC2环境空间内植被样地分布的偏差。然而,由于某些地理区域(如热带地区)数据的缺乏或匮乏,各地理区域植被样地的空间分布仍存在一定的不平衡(图1)。在比较各大洲的样地数量时,这一点非常明显。如果只考虑第一次重采样迭代(n=49,787),欧洲是迄今为止代表性最好的大洲,有15,920个植被样地。代表性最低的大洲是非洲和南美洲,分别有3,709个和5,498个植被点。如果考虑到生物群落(图3),仍然存在一些残余的不平衡。除了“温带中纬度”生物群落有14,100个植被样地外,其他生物群落的植被样地数量都在1,558个(“极地和亚极地带”)和6,245个(“终年多雨的亚热带”)植被样地之间(图3,左)。尽管存在这种残余的不平衡,但sPlotOpen还是覆盖了所有的Whittaker生物群落(图3,右),而且我们的重采样算法所产生的数据集比许多其他现有的全球数据集(如GBIF)更加平衡。

3 在以年平均气温和年平均降水量表示的二维气候空间中,sPlotOpen第一次重采样迭代(n=49,787)中植被样地的分布。Left:根据sBiomes(即sPlot的生物群落定义)对样地进行了颜色编码,该定义源自Schultz2005)的生态区,经过修改后还包括Körner等(2017)的高山生物群落。Right:经Ricklefs2008)改编并使用R软件包“plotbiomes”绘制的与Whittaker生物群落叠加的相同图块。

sPlotOpen中的95,104个植被样地中,近三分之一属于森林(n=38,282),二分之一属于非森林植被(n=45,735),还有11.6%的样地尚未分配(n=11,087)。如果数据提供者没有直接进行分配,则根据多种证据将样地分配到森林和非森林植被中,包括样地水平的树木覆盖层信息,以及构成样地的物种性状,如生长形式和高度。简而言之,如果树层覆盖率或所有树木类群的(相对)覆盖率之和(按所有覆盖率值之和的百分比缩放)大于25%,则该样地记录被视为森林记录。如果低矮、非树木和非灌木类群的相对覆盖度之和大于90%,则被视为非森林记录。有关该分类方法的详细解释,请参阅Bruelheide等(2019)。尽管森林植被样地与非森林植被样地的比例相对均衡,但属于不同植被类型的植被样地在地理空间上的地理分布可能并不均衡,因为这取决于构成sPlot数据库的构成数据集的特异性。例如,新西兰的数据只包括在非森林生态系统中采集的样地,而智利的数据只涉及森林。我们敦促潜在用户仔细阅读下面的“使用说明”部分和GIVD中每个数据集的描述,并联系每个数据集的保管人以获取更多信息。

  • 4 数据库结构

环境平衡和开放访问的数据集sPlotOpen分成三个主要矩阵,通过关键列“PlotObservationID”相互关联。

header”矩阵包含95,104个植被样地的样地水平信息,包括:元数据(如样地ID、数据来源、采样日期、地理位置、定位精度);采样设计信息(如植被调查期间使用的总表面积);植被结构的样地水平描述(如植被类型、各植被层的覆盖百分比)、植被类型和自然度等级(即样地是否属于在没有人为干扰的情况下占据该地点的同一地层)。欧洲的样地还根据欧洲自然信息系统(EUNIS)栖息地分类(“ESY”列)进行分类,该分类基于栖息地分类专家系统(ESY)。对于每个植被样地,我们根据GIVD中使用的ID,进一步提供了该样地的数据集信息。我们还报告了四个二进制字段,描述了样地是属于三次重采样迭代(“Resample_1”、“Resample_2”、“Resample_3”列),还是属于纳入替代样地后的第一次重采样迭代(“Resample_1_consensus”列)。表2简要概括了标题矩阵中的所有47个变量。

DT”矩阵包含每个样地的物种组成数据。它采用长格式结构,包含来自42,680个维管束植物分类群的1,945,384条记录,大部分记录都在物种水平上进行了解析。对于每条记录,我们同时报告了数据保管人最初提供的分类群名称(“Original_species”列)和分类标准化后的分类群名称(“Species”列)。有关分类标准化的详情,请参阅下文“技术验证”部分。我们还为每个物种提供了覆盖率/多度值。构成sPlot数据库的各数据集采用了不同的标准。因此,我们提供了原始数据中报告的覆盖度/多度值(“Original_abundance”列),以及最初使用的多度标度(“Abundance_scale”列)。这可以有七个值:‘CoverPerc’ =覆盖百分比;‘pa’ = 存在-不存在;‘x_BA’ =基部面积 (m2/ha,仅适用于木本物种); ‘x_IC’ =个体计数,即样地中的个体数量;‘x_SC’ =茎干计数,即样地中的茎干数量; ‘x_IV’ =重要度指数;‘x_PF’ =存在频率。不过,绝大多数条目使用的是覆盖率百分比(n=1,709,000)。最后,我们计算了每个条目的“相对覆盖率“,即特定分类群的覆盖率/多度除以该植被样地所有分类群的总覆盖率/多度。

CWM_CWV”矩阵包含为上述18种功能性状中的每一种计算出的群落加权平均值和方差。它还包含另外三列。“Species_richness”列显示了每个样地记录的物种数量。“Trait_coverage_cover”和“Trait_coverage_pa”两栏分别显示了有功能性状信息的样地在总覆盖度中所占的比例和物种所占的比例。共有21,854个物种的功能性状信息可用。由于功能性状信息是基于填补空白的数据(见上文),因此这21,854个物种中的每个物种都有全部18个功能性状的信息。每个样地中可获得功能性状信息的物种平均比例为0.85(中位数=0.95)。在42,012个样地中,覆盖范围是完整的,而在482个样地中,我们没有任何物种的功能性状信息。在考虑相对覆盖率时,平均性状覆盖率为0.8774,151个样地的物种功能性状信息累计占相对覆盖率的80%以上。当考虑物种数量时,68,041个样地的物种功能性状信息占该样地出现物种的80%或更多。

sPlotOpen包含两个附加对象。“metadata”矩阵包含样地水平元数据,可提供每个植被样地的来源信息。该对象包含15列,其中有原始数据集(“GIVD_ID”列)、作者或勘测员姓名(“Releve_author”列和“Releve_coauthor”列)、数据集(“DB_BIBTEXKEY”列)和样地水平(“Plot_Biblioreference”列和“BIBTEXKEY”列)(如有)的参考文献信息。同样,“Project_name”列提供了最初记录植被样地的项目信息。如果有的话,我们也会提供有关样地在最初出现的出版物中的编号信息(“Nr_table_in_publ”列、“Nr_releve_in_table”列),或在最初存储样地的数据集中的编号信息(“Original_nr_in_database”列)。对于嵌套样地(n=1,851),我们还提供了原始样地和子样地ID(列:“Original_plotID”、“Original_subplotID”)。最后两列报告样地水平的“Remarks”,以及第一次存储植被样地时Turboveg生成的唯一标识符(“GUID”)。Turboveg是一个专门用于存储、维护和输出植被样地数据的程序(https://www.synbiosys.alterra.nl/turboveg)。

最后,“references”对象包含按照BibTex标准格式化的所有参考文献。每条参考文献都标有与元数据中“DB_BIBTEXKEY”和“BIBTEXKEY”字段相对应的键。我们还提供了一个R函数('sPlotOpen_citation'),用于根据所选的绘图和/或数据集创建参考文献列表。

除“reference”文件(format.bib)外,所有对象/矩阵都以制表符分隔的.txt文件形式提供。所有对象,包括“sPlotOpen_citation”函数,都编译在.RData对象中。

  • 5 技术验证

原始sPlot数据库具有嵌套结构,由多个单独的数据集组成,每个数据集都由其各自的数据集保管人进行验证和维护。在许多情况下,单个数据集也是其植被样地的集合,这些植被样地由其各自的所有者(实际进行植被调查的人)或从科学出版物或灰色文献中将原始数据数字化的人提供。我们显然无法直接控制我们在sPlotOpen中提供的各个植被样地。然而,所有这些植被样地都来自训练有素的专业植物学家或已出版的科学著作,并附有所用采样方案的详细信息,从而确保了数据的质量和可靠性。

在整合到sPlot数据库之前,每个数据集都经过了进一步的一致性检查。如果数据集格式不同,我们将其转换为Turboveg 2数据集。在转换过程中,我们检查了所有数据集是否包含所需的元数据信息,并交叉检查了每个样地是否位于各自数据集的地理范围内。然后,将所有Turboveg 2数据集整合到Turboveg 3数据库中,并导出为逗号分隔文件。最后,我们根据sPlot的分类主干统一了所有数据集中的所有分类名称。该骨干网将sPlot v2.1版和TRY v3.0版中所有数据集的所有分类名称(不含命名作者)与基于分类名称解析服务网络应用程序(TNRS v4.0)的解析版本相匹配。这使我们能够:(a)将所有数据集统一为通用命名法;(b)将sPlot数据库链接到TRY数据库。最终的骨干网只保留了物种或物种以上水平的匹配分类学名称。Bruelheide等(2019)报告了有关分类解析的更多细节,而Purschke2017)则提供了包括R代码在内的工作流程说明。

  • 6 使用说明

sPlotOpen数据库可从https://doi.org/10.25829/idiv.3474-40-3292下载。在R中使用sPlotOpen的简短介绍见附录S1。除本文外,用户在使用sPlotOpen时请注明原始数据来源(见表1)。两个数据集(AF-00-009AF-CD-001)的物种鉴定工作仍在进行中。有关地衣和苔藓的数据(如数据集NA-GL-001),可向相应的数据集保管人或sPlot协调员索取。由于大多数组成数据集仍在持续开发中,我们鼓励sPlotOpen用户与他们计划使用的数据的保管人取得联系(保管人名称的更新列表保留在sPlot网站上)。

使用sPlotOpen时有一些警告。首先,sPlotOpen的重采样方式能最大限度地反映不同环境条件下植被的组成变异性。因此,不应将sPlotOpen视为植物群落空间分布的代表,尤其是当关注的重点是局域或区域空间范围时。其次,大多数地区的数据都是随机收集的,没有采用随机取样设计。这可能会导致某些植被类型在某些地区采样过多,而在其他地区采样不足,从而影响物种分布模型的输出结果,尤其是在局域或区域空间范围内。第三,并非所有样地都采用相同的样地大小进行采样,有些样地(主要位于热带地区)只包含木本物种的数据。在探索生物多样性模式或比较不同样地或地区的生物多样性指数(如物种丰富度、β多样性)时,应考虑到这一点。最后,一小部分样地是较大样地的嵌套子集。根据不同的应用,这可能是一个问题,也可能不是。可以使用“元数据”矩阵中的信息识别嵌套样地。处理这些问题的最合适方法取决于所分析的问题。因此,请用户在设计依赖于sPlotOpen的应用程序时仔细考虑上述限制。

这里描述的数据是我们能够获得开放许可的sPlot子集。来自sPlot的其他数据可在sPlot的治理和数据属性规则(https://www.idiv.de/en/splot)下获取。如果希望进行不同于本文所用环境因素的分层,例如按地理区域或样地大小进行分层,也建议使用完整的sPlot数据集。

  • 文献信息

sPlotOpen – An environmentally balanced, open-access, global dataset of vegetation plots
期刊
Global Ecology and Biogeography (IF = 6.3)
作者
Francesco Maria Sabatini, Jonathan Lenoir, Tarek Hattab, et al.
发布日期
2021 年 6 月 21  日
DOI
https://doi.org/10.1111/geb.13346
文章翻译仅代表译者的理解,如需参考和引用相关内容,请查阅原文。
点击“阅读原文”可查看文献↓↓↓

Biodiversity Monitoring
生物多样性;监测保护;群落生态;生态统计;R语言;python。 主要分享一些前沿的文献和方法实例,更新看心情和时间。
 最新文章