Scientific Data | CoRRE性状数据:全球4079种草原物种的17个分类和连续性状的数据集

文摘   2024-08-16 07:00   江苏  

在我们不断变化的世界中,了解植物群落对全球变化驱动因素的反应对于预测未来生态系统的组成和功能至关重要。植物功能性状有望成为包括草原在内的许多生态系统的关键预测工具;然而,使用这些工具需要完整的植物群落和功能性状数据。然而,这些数据在全球数据库中的代表性并不强,尤其是在少数最常用的性状和常见物种之外。在此,我们介绍了CoRRE性状数据,涵盖17个性状(9个分类性状、8个连续性状),预计用于预测物种对全球变化的反应,这些性状涉及世界各地390个草原实验中173个植物科的4,079种维管植物。该数据集包含通过全面文献检索获得的所有4,079个植物物种的完整分类性状记录,以及2,927个植物物种子集的近乎完整(99.97%)的插补连续性状值。这些数据将揭示全球草原种群、群落和生态系统对全球变化的反应机制。

背景与概要

生态学家的任务是预测群落和生态系统对全球变化驱动因素的反应。功能性状被认为是一种“圣杯”方法,能够跨尺度地概括群落与功能过程之间的联系。众所周知,植物功能性状——间接影响个体适应性的特征或指标——会影响物种对环境条件的耐受性、竞争结果、营养相互作用,并最终影响物种多度。此外,通过整合物种性状值及其多度(即群落加权性状),将植物功能性状扩展到群落水平,可以阐明群落对环境驱动因素的响应,并使我们能够预测各种生态系统中性状对生态系统过程的影响。

草原和其他草本生态系统是全球重要的生物多样性库,对于持续提供生态系统服务至关重要。然而,由于人类活动的增加,我们的全球草原正受到威胁,因此了解草原群落组合和生态系统功能的性状机制比以往任何时候都更为迫切。操纵全球变化驱动因素并收集群落和生态系统响应数据的实验是了解和预测草原对全球变化因素响应的有力工具。为了利用基于性状的方法来综合分析草原的响应,有必要收集所有物种的完整数据,以了解预计会对全球变化操作做出响应和/或驱动随后生态系统响应的性状。

收集必要的植物群落组成和性状数据既费时又费力。虽然针对草本生态系统实验操作的植物群落组成数据库已经开始出现,但整个植物群落的完整性状数据却很难获得。特别是有些植物性状很难测量,因此数据稀少(如许多地下植物性状)。然而,即使是相对容易测量的植物性状,如比叶面积和叶片干物质含量,也往往只有常见生态系统类型中最丰富的物种才能获得。此外,许多分类性状的信息分散在各种文献中,不同来源的定义可能不尽相同。

为满足数据需求,人们开发了性状数据库,汇集了全球的贡献者和用户,包括TRYBIEN全球数据库,以及许多区域性性状数据库。然而,尽管生态学界迄今已积累了大量植物性状数据,但许多物种和性状的可用数据仍存在严重缺口。许多基于性状的统计方法需要完整的数据集,这意味着所调查的物种和性状不可能存在缺失数据。因此,有必要为数据缺失的物种插补性状值或从系统发育近缘关系中推断,以生成对下游分析至关重要的完整植物性状数据库。然而,插补方法通常只用于连续性性状数据,其功能与输入的性状数据一样强大,因此会造成大量剩余缺失数据和潜在的不准确数据。这些方法还有可能导致循环分析,例如当使用系统发育信息插补的性状来研究进化过程时。

生态学的一个迫切需求是确定植物功能性状如何决定全球草原生态系统中物种对全球变化的反应或与之存在机理关联。为此,我们的目标是弥合收集了植物群落和性状信息的现有数据库与我们所需的完整数据之间的差距。为此,我们确定了现有数据源中的空白,并根据明确的数据收集规程(分类性状)和基于现有植物性状数据库(连续性状)中一组测量性状数据的统计插补方法,通过深入的文献检索来填补这些空白。通过这项工作,我们建立了一个独特且几乎完整的性状数据集,其中包括:(1)在群落对资源的响应实验(Community Responses to Resource ExperimentsCoRRE)数据库(https://corredata.weebly.com/)的138个实验和放牧隔离(Grazing Exclosure GEx)数据库(https://koernerlab.weebly.com/)的252个实验中发现的173个科全部4,079种维管束植物的9个分类性状(表1);(2147个植物科2,927种相同维管束植物的8个连续性状(表2)(图1)。在数据可用性的限制范围内(见下文方法),选择这些性状是为了涵盖那些有望对植物物种对全球变化驱动因素的响应或对生态系统功能的影响做出有意义贡献的性状。收集到的性状数据集将使我们能够把植物群落对全球变化驱动因素的反应的完整数据与这些物种的性状直接联系起来,并最终将其生态系统结果联系起来。

1 性状数据生成流程图,包括从CoRREGEx数据库中的五个植物性状数据库收集维管植物物种的现有数据,通过插补(连续性性状)或文献(分类性状)填补空白,以及每一步的数据清理。

概要

在收集CoRRE性状数据的整个过程中,我们汲取了四条重要经验,并希望将其传递给生态界。

1)连续性状数据的完整性(包括每个物种的个体测量值的数量和分布)、观测数据矩阵的大小以及被插补性状的数量之间的权衡可能会限制插补性状数据集的范围和质量。最初,我们希望在公布的数据集中包含8个以上的连续性状(如生理性状、根系性状、生殖性状),但由于数据特别稀少,我们决定最好只保留数据覆盖率最高的性状。我们发现,如果将数据极其稀少的性状(在我们的案例中,只有不到10%的植物个体在每个性状上至少有一个值)纳入矩阵,则需要插补的缺失数据会多出许多倍。也就是说,纳入稀疏覆盖性状会导致缺失数据的非线性增加,从而降低最终插补数据集的质量。我们了解到,在插补中纳入较少数量的数据丰富的性状是可取的。在我们的案例中,我们为我们感兴趣的物种纳入了一套最常见的性状,但也纳入了一个额外的性状(比根长),该性状记录很少,但在生态学上很重要,而且占据了一个独特的性状维度(即与其他性状值没有高度相关性),值得纳入下游分析。

2)数据插补方法的稳健性取决于传递给它们的测量数据。目前生态界所依赖的一些性状数据库包含的数据可能不适合特定分析(例如,来自幼苗或玻璃温室或气候室等实验条件的数据)、由于不同研究者测量方法的差异而可能不准确的数据和/或重复数据,这些都会影响性状归因和作为群落及生态系统动态驱动因素的性状统计分析的结果。特别是,尽管TRYBIEN数据库作为绝大多数植物性状数据的主要来源,对生态学界做出了非常宝贵的贡献,但其中包含的数据在进行任何分析之前都应仔细检查。尽管为建立TRYBIEN数据库进行了大量的清理和协调工作,但我们发现在某些情况下,数据库中仍包含不准确的数据,需要在分析前将其删除,主要是在单位或方法未按数据库惯例标准化的情况下。此外,我们还发现了TRY数据库中重复出现性状数据的三种情况,这可能会导致物种内和物种间给定性状值的置信度升高。首先,一个数据集可能包含对每个观测ID(理想情况下,观测ID是植物个体的唯一标识符)的给定性状的多次测量,因为对该个体的多个叶片进行了测量。由于在TRY中无法将不同的性状测量结果与植物的这些单个叶片联系起来,因此我们在这些情况下按观测ID对数据进行了平均。其次,一个数据集可能包含对每个观测ID的特定性状的多次测量,这是因为在不同时间段进行了多次测量(例如,在一个生长季节多次测量植株高度)。在某些情况下,调查者会提供时间标识符,但在许多其他情况下,情况并非如此。在确定了时间数据后,我们会根据性状的性质,取每个观察标识的平均值或最大值。最后,我们在TRY中发现了真正的重复数据,即在特定物种的多个数据集和观测ID中发现了精确到小数点后五位或更多位的相同值。在这些情况下,相同的数据很可能被多次输入TRY,而我们使用了一个单一的值,以防止该数据在整个数据集中的代表性过高。尽管TRY中标记了一些重复条目(主要是跨数据集ID),但在许多其他情况下,重复数据的原因往往需要从观测值中推断,因此很难发现。

3)仔细考虑连续性状插补所产生的数据非常重要。虽然我们的插补数据总体上呈现出与测量数据相似的分布,但在插补过程中也产生了一些极端离群值。使用标准方法(如考虑误差风险)去除这些异常值相对简单。不过,在进一步分析中使用任何单个数据点之前,都应根据专家对每个物种和性状的了解进行仔细考虑,因为不正确的值可能隐藏在任何特定性状和物种的大量数据中。

4)最后,通过对文献、在线植物志和其他在线资源进行详尽的人工搜索,可以为最常见的植物性状(表1)建立完整的分类性状数据集。由于分类性状(与连续性状相比)的固定性(例如,植物的光合作用途径不会因地点、研究或测量方法的不同而产生差异),因此可以从一小部分研究中确定一个物种的分类性状值。为了收集分类性状数据,我们认识到必须制定标准化方法以确保数据收集的准确性,并进行误差检查以确定数据的准确性。然而,对于极少研究的性状来说,这些努力可能是不可能的,就像我们未能收集到授粉和散播模式的完整数据一样。尽管如此,随着机器学习和其他在大量数据输入基础上训练的算法的兴起,我们为许多物种创建不太常见的分类性状数据集的能力可能会越来越强。

  • 方法

现有的CoRREGEx数据库包含来自世界各地草本生态系统个体实验的植物群落组成数据。在此,我们介绍新的CoRRE性状数据,这是原始CoRREGEx数据库中所有维管植物物种(尽可能)的性状数据集(图1)。将实验纳入CoRRE数据库的要求是:实验位于草原生态系统内(即草本植物),直接操纵资源(土壤养分、水、大气CO2/或光),至少有3年的连续实验处理和至少4个重复,并有物种多度数据。将实验纳入GEx数据库的要求是:实验位于草原生态系统中,具有未放牧与大型食草动物放牧的配对样地,围栏至少已放置3年,并具有物种多度数据。在创建CoRRE性状数据的过程中,除了用于确定重点关注的维管植物物种外,没有使用CoRREGEx数据库中的其他数据。

我们使用R中的TaxonStand version 2.4软件包将CoRREGEx数据库中的所有植物物种名称标准化为“植物名录”。数据集中删除了树木和非维管束植物(如苔藓)。此外,数据集中还删除了名称无法提供物种级别分类解析的植物(如Aster sp.或“unk fuzzy plant”)。最后,使用World Flora Online对名称无法与TaxonStand匹配的物种进行人工清理。

连续性状数据清理

每个物种的数据均来自TRY植物性状数据库6.0版(20235月访问)、AusTraits 4.1.0版(202310月访问)、植物信息与生态网络(BIEN4.0版(202310月访问)、TiPLeaf版(20233月访问)和中国植物性状数据库v2版(20233月访问),以获得以下性状(如有):植株高度、叶面积、叶干重、比叶面积(SLA)、叶干物质含量(LDMC)、单位干重的叶氮(N)含量、比根长(SRL)和种子干重(表2)。其他性状数据库(如FREDGROOTLT-BrazilTundraTraits)因已嵌套于上述数据库之一而未列入考虑范围。有两个性状有多种收集方法:(1SLA包括或不包括叶柄,以及叶片与小叶;(2SRL仅包括所有根或细根。这些多种采集方法作为单独性状纳入数据集中。共有13个重点连续性状的数据进行了插补,包括测量同一性状的不同方法(见表2)。

在注意到数据时(在TRYBIEN内),会对数据进行检查,以确保所有观测数据都是在自然条件下生长的活体植物(例如,不是温室或生长室数据)。在TRY数据库中,从数据集中删除了数据库中的重复数据(即具有原始观测数据ID的数据)或性状值范围的数据。

然后对TRY连续性状数据进行过滤,以去除误差风险值大于3的数据(即根据物种、属、科或TRY数据库中的所有数据,每个性状值偏离平均值3个或更多标准差(SD))。这种过滤方法从356,367个观测值中删除了28,571个(占数据的8.0%)。我们还进一步过滤了TRY数据,删除了零值和负值,又删除了26个观测值。尽管我们已经删除了TRY中标记为重复的数据,但我们仍发现一些物种在数据集ID和观测值ID中以及数据集ID和观测值ID之间存在许多额外的重复值。如果不清楚某一物种的重复性状值是重复条目还是真正的独立测量值,则将其保留在数据集中。这种过滤方法删除了327,770个观测值中的55,650个(占数据的17.0%),最终从TRY数据库中收录了272,120条性状记录。

同样,在BIEN数据库中也发现了数据集ID和观测值ID内部和之间的重复条目,过滤后只剩下一个条目,结果是删除了32,585个观测值中的8,819个(占数据的27.1%)。此外,如果主要数据来源明确表明性状的测量方法与数据库中的大多数数据不同(例如,植物的总叶面积而非单叶面积),则会对数据中的极端异常值进行检查和剔除,从而在23,766个观测值中又剔除了2,290个(占数据的9.6%),最终从BIEN数据库中纳入了21,476个涉及所有性状和物种的观测值。

AusTraitsTiPLeaf和中国植物性状数据库2没有包含任何明显重复的数据,也没有包含任何物种或相关性状的极端异常值。在所有感兴趣的性状和物种中,我们的数据集中包含了来自AusTraitsTiPLeaf和中国植物性状数据库2的共计9,673个观测数据、2,348个观测数据和1,302个观测数据。

然后将所有五个数据库(TRYBIENAusTraitsTiPLeaf和中国植物性状数据库2)中的数据进行合并,最终得到共计306,919个性状观测值。这些数据包括151个科3,188个物种的206,113个植物个体,这些个体的13个重点性状(表2)中至少有一个性状被测量过,其中51,177个植物个体被测量过一个以上的性状(图2)。在清理过程中保留了所有性状数据集和观察标识符,以便将单株植物上测量的多个性状联系起来。每个性状在所有数据库中的测量单位都是统一的。性状清理和合并代码可在Zenodo存档的GitHub存储库中找到(见下文代码可用性)。

2 单株植物的观测数据从1个到8个焦点连续性状不等

连续性状数据插补

观察到的306,919个连续性状值被用来插补完整数据集中的2,679,469个值(88.2%的数据缺失)。数据的稀疏程度因性状而异(图3),没有性状的完整性超过20%,只有五个性状(叶片干重、LDMCSLA、植株高度和种子干重)的所有性状数据的完整性至少达到10%。这可能是由于缺乏对单株植物的多个性状测量,大多数植物个体只测量了一个性状(图2)。根系性状的数据尤其稀少(图2),这说明需要加大对地下性状数据收集的投入。尽管缺失数据量很大,但连续性性状的数值范围很广,而且在不同数据库中相对一致(图4、图5)。值得注意的是,TiPLeaf数据库中的叶面积和叶片干重明显低于其他数据库(图4、图5),这可能是因为TiPLeaf中的物种来自干旱的青藏高原,因此具有适应干旱的性状,如较小的叶片尺寸。

3 每个性状数据库以及所有数据库中按性状分列的观测数据数量

4 用于性状归约的五个性状数据库(AuBNC2TPTRY)的连续性状数据与归约插补性状值(imp)的比较

5 为便于可视化,三个性状的连续性状数据按log10比例绘制。性状来自用于性状插补的五个性状数据库(AuBNC2TPTRY),并与插补性状值(imp)进行比较。

在数据插补之前,对每个性状的数据进行z转换,以提高正态性。然后,我们分两步首先填补完整数据集的缺失性状值,然后计算物种特异性平均值(图1)。第一步,我们使用R软件包“BHPMF”进行贝叶斯分层概率矩阵因式分解插补,从分类学角度限制缺口填补。这种方法以前曾应用于TRY数据库的数据,并已被证明对大型稀疏数据集具有准确性。我们重复了90次插补,每次都从不同的参数开始(pre-fold samples = 900–1000; cross-validation steps = 10–20; burn-in steps = 10% data length)。不同的参数组合产生的误差相当,“均方根误差”(RMSE)在0.51650.5259之间(平均值为0.5212)。因此,我们计算了每个观测值在所有迭代中的平均插补值。然后,我们剔除了极端值(大于某一性状最大观测值的1.5倍)或不确定值(与平均值相差大于1 SD),结果剔除了8,725个值(占插补数据的0.49%)。在第二步中,我们使用R软件包“mice”对部分填补的数据集进行了五次链式方程的多元归约迭代,并用所有迭代的平均值替代缺失案例。然后对数据进行反变换,生成最终的插补数据值。最后,我们放弃了与叶面积、SLASRL的多种测量方法相对应的五个性状,以保持每个连续性状只有一种测量方法的插补数据(表2)。

我们根据log10转换后的连续性状值计算每个性状的误差风险,并剔除所有数据中误差风险为4或更高的异常值(即每个性状值偏离平均值4或更多SD1,648,752个观测值中的590个,占所有插补数据的0.0004%)和每个物种中的异常值(额外的8,138个观测值,占所有插补数据的0.005%)。经过这一数据清理步骤后,我们计算了每个物种和性状组合的所有观测值的平均值,最终得到了一个包含2,927个物种和8个连续性状的23,410个平均插补性状值的数据集。请注意,由于数据清理步骤导致某些物种的所有性状值被删除,因此最终具有插补性状值的物种数量低于具有用于插补的原始数据的物种数量。性状插补代码可在Zenodo存档的GitHub存储库中找到(见下文的代码可用性)。

分类性状数据集合

针对CoRREGEx数据库中的每个植物物种(173个科4,079个物种),收集了九个性状的分类性状数据(表1;图6)。除寿命、克隆性、菌根和氮固定状态外,所有性状值均以TRY植物数据库的数据为起点。在需要填补的36,711个性状值(物种与性状组合)中,有9,014个值(24.6%)来自TRY。对于TRY中没有确定这些分类性状值的物种,或TRY中为单个物种列出了多个性状值(占75.4%)的物种,其性状值是通过个人搜索科学文献、在线植物志和其他在线资源确定的。此外,我们还检查了TRY中所有物种的数据,并指出和纠正了错误。我们从真菌根数据库(Fungal Root Database)中获得了菌根状态的数据,从种质资源信息网(GRIN)和Werner等中获得了根瘤菌和放线菌固氮状态的数据。由于许多物种的固氮状态尚未得到评估,而这一性状通常在属一级得到保留,因此对于数据集中有超过60%的物种被确认为固氮植物的属,我们将该属的所有物种都归为固氮植物。为了保持各物种记录的一致性,K. Komatsu对所有物种的叶片类型和叶片复合度数据进行了检查。有些物种的克隆性和光合作用途径数据很难在网上找到,或者不为科学界所知。对于难以获得克隆信息的物种,数据主要由M. AvolioR. TerryCLO-PLA数据库或标本馆根标本照片评估中收集。对于难以获得光合作用途径信息的物种,数据主要由S. KoernerR. Terry利用科和属一级的光合作用途径信息来收集确定。所有其他性状由数据集作者平均分配收集。这项人工数据收集工作总共花费了大约900个工时,是一项了不起的人力壮举!所有的分类性状记录都在生成的数据集中有完整的参考数据。

6 饼图显示了数据集中每个分类性状的出现频率

  • 数据记录

可通过环境数据倡议(EDI)获取这些数据。数据以CC-BY 4.0 InternationaCC BY 4.0)许可发布。BIEN数据采用CC-BY-NC-ND许可,TiPLeaf数据采用CC-BY-NC-SA许可,FungalRoot数据采用CC-BY-NC许可;但是,我们已获得数据所有者的许可,可以在CC-BY下发布此衍生品。任何使用BIENTiPLeaf插补训练数据或FungalRoot菌根数据的人都必须分别遵守BIENTiPLeaf/FungalRoot的原始许可条款。

数据集48包含三个文件:(1CoRRE分类性状数据;(2CoRRE连续性状数据;(3)插补训练数据。性状定义和单位概览见表1(分类性状)和表2(连续性状)。

  • 技术验证

原始性状数据被分成三个训练数据集,用于插补剩余性状值。每个训练数据集由三分之二的原始性状数据组成,并用于插补剩余三分之一的性状值。训练数据集的选择尽可能保留原始性状数据的基本系统发育结构,在每个物种和性状中按顺序选择观测值纳入每个训练数据集。然后将每次验证运行的插补数据与原始性状数据(即不属于训练数据集的数据)进行比较,以确定此类稀疏数据的插补准确性。每个训练数据集都有89.6%的缺失数据,略高于我们的完整数据集。总体而言,验证运行中的插补数据与原始数据高度相关,归一化均方根误差(NRMSE)很高,表明插补数据中与原始数据相关的方差比例很高,相关系数(r)非常接近1(表3;图7),这使我们对在整个数据集中使用这些插补方法非常有信心。

7 数据验证三次迭代中观测值与插补值之间的回归(点和回归颜色表示验证运行)

在计算每个物种每个性状的平均值之前,对平均插补数据进行了清理,以剔除误差风险大于4的所有值(详见上文)。尽管我们进行了大量的数据检查和清理工作,但我们提醒该数据集的用户仍应检查此处提供的插补值是否符合他们对所使用的物种和性状的预期。为了帮助用户完成这项工作,我们在属、科和整个数据集的范围内列出了每个插补值的误差风险(基于log10转换值的平均值的标准偏差)。如果一个属或科的物种少于3个,则不计算相应的误差风险。此外,每个物种的每个性状都包含了从数据插补模型中获得的标准偏差的平均值,以表明哪些数据点的插补难以拟合(数值越大表示确定性越低)。插补性状验证代码可在Zenodo存档的GitHub存储库中找到(见下文的代码可用性)。

对于分类性状数据,4,079个物种中有424个物种(10.4%)的性状输入错误经过人工检查。其中,叶片类型和叶片复合性的错误率为0.2%,生长形式的错误率为0.9%,光合作用途径的错误率为1.7%,寿命的错误率为3.8%,茎支撑的错误率为3.3%,克隆性的错误率为5.0%。由于有关菌根、根瘤菌和放线菌状态的数据直接取自其他数据库,因此其误差率没有超出原始数据库提供的值。

  • 使用说明

本数据描述符于20246月根据当时EDI资源库中可用的CoRRE性状数据进行了同行评审。20246月之后的数据集更新未纳入与本数据描述符相关的同行评审流程。

我们鼓励该数据集的用户,如果发现错误的分类数据或插补的连续数据远远超出预期,请通知相应的作者。我们打算每年在数据集的更新版本中纠正这些错误。

  • 代码可用性

所有用于数据处理、连续性状插补和技术验证的代码均可通过Zenodo存档的 GitHub 存储库(https://doi.org/10.5281/zenodo.11204431)无限制访问,并与EDI中的数据包链接。所有步骤均在R 4.1.3中完成。


  • 文献信息

CoRRE Trait Data: A dataset of 17 categorical and continuous traits for 4079 grassland species worldwide
期刊
Scientific Data (IF = 5.8)
作者
Kimberly J. Komatsu*, Meghan L. Avolio*, Josep Padullés Cubino, Franziska Schrodt, Harald Auge, Jeannine Cavender-Bares, Adam T. Clark, Habacuc Flores-Moreno, Emily Grman, W. Stanley Harpole, Jens Kattge, Kaitlin Kimmel, Sally E. Koerner, Lotte Korell, J. Adam Langley, Tamara Münkemüller, Timothy Ohlert, Renske E. Onstein, Christiane Roscher, Nadejda A. Soudzilovskaia, Benton N. Taylor, Leho Tedersoo, Rosalie S. Terry & Kevin Wilcox
发布日期
2024 年 7 月 18  日
DOI
https://doi.org/10.1038/s41597-024-03637-x
文章翻译仅代表译者的理解,如需参考和引用相关内容,请查阅原文。
点击“阅读原文”可查看文献↓↓↓

Biodiversity Monitoring
生物多样性;监测保护;群落生态;生态统计;R语言;python。 主要分享一些前沿的文献和方法实例,更新看心情和时间。
 最新文章