在这里,我们提供了“植物形态和功能全球谱数据集”,其中包含六种维管植物性状的物种平均值。这些性状——株高、茎比密度、叶面积、单位面积叶片质量、单位干重叶片含氮量和传播体(种子或孢子)质量——共同定义了植物形态和功能变异的主轴。该数据集基于通过TRY数据库获得的约100万条性状记录(代表约2,500篇原始出版物)以及其他未发表的数据。它提供了92,159个物种的六个性状平均值,涵盖46,047个物种。这些数据由更高层次的分类学分类和六个分类性状(木质、生长型、肉质、对陆生或水生生境的适应性、营养类型和叶片类型)进行补充。数据质量管理以概率方法为基础,结合专家知识和外部信息进行全面验证。通过密集的数据采集和全面的质量控制,形成了迄今为止规模最大、据我们所知最准确的维管植物物种平均性状经验观察汇编。
背景与概要
植物性状是指个体的形态、化学、生理或物候特性。它们决定了作为初级生产者的植物如何捕获、加工和储存资源,如何应对非生物和生物环境及干扰,以及如何影响其他营养级和生态系统中水、碳和能量的通量。
尽管地球上的植物形态和生活史多种多样,但单个植物器官(如叶、茎或种子)显示出的基本性状组合却相对较少。超越单一器官水平的复现性状综合征的证据非常罕见,且受到地理或分类学的限制,往往相互矛盾。Díaz等通过分析对生长、存活和繁殖至关重要的六个主要性状(即株高(H)、茎比密度(SSD)、叶面积(LA)、单位面积叶片质量(LMA)、单位干重叶片含氮量(Nmass)和传播体(种子或孢子)质量(SM))的全球变异,解决了这一问题。Díaz等发现,六维性状空间的占有率受到很大限制,植物形态和功能的二维全球谱可以捕捉到这些性状,表明性状之间存在很强的相关性和权衡性。这些结果为植物进化研究、植物和生态系统比较生态学以及基于植物基本功能维度的连续变化对未来植被进行预测建模提供了基础和基准。
在此,我们提供了作为Díaz等提出的植物形态和功能全球谱分析基础的性状数据集——“植物形态和功能全球谱数据集”(简称“全球谱数据集”)。该数据集主要基于TRY数据库10,11中的性状记录,并尽可能提供与物种分布范围内自然条件下生长的成熟健康植物相对应的性状值。该数据集提供了上述六种植物性状的物种平均值以及叶片干物质含量,用于估算茎比密度。该数据集涵盖了科学界已知的约391,000种维管束植物中的46,000种。尽管大型植物性状数据集发展迅速,但全球谱数据集在覆盖范围和可靠性方面仍有突出表现。首先,它提供了大量物种的定量信息,其中约5%的物种具有“完全覆盖”(所有六个性状)。其次,它是概率离群点检测和根据专家知识和外部信息对性状值进行全面验证的独特组合,以保证数据质量。第三,它包含了原始参考文献的数据归属,即使贡献给TRY的数据集是由多个原始来源组合而成的。
基于Angiosperm Phylogeny APG III(http://www.mobot.org/MOBOT/research/APweb/)的更高层次分类学信息和基于“TRY——分类性状数据集”的分类性状信息,以及野外数据和各种文献资料,丰富了定量性状数据。这些信息有助于根据系统发育和形态功能标准对物种和数量性状进行分层。
本数据集是整合了通过TRY收到的许多数据集的性状测量数据以及部分未发表的其他数据的结果。这些数据基本来自独立的研究,涉及不同尺度的各种问题,并使用不同的测量方法、单位和术语。因此,数据集的开发面临着三大挑战:(1)如何获得涵盖所有六种性状的物种平均值数据集,以代表全球维管植物物种;(2)如何检测错误的性状记录(由于取样、测量、单位转换等方面的错误);以及(3)如何确保自然界中正确测量的极端性状值不会被误认为是异常值,从而被排除在数据集之外。为了应对这些挑战,我们收集了尽可能多的性状观测数据。数据集的开发历时六年(2009-2015年),并在数据可用时不断添加新的性状记录。最终数据集基于近100万条性状记录,可追溯到约2,500个参考文献(参见文件:“References_original_sources.xlsx”)。我们根据概率方法并结合领域专家和外部信息的验证,确定了异常值和潜在错误。
通过这些数据采集、整合和质量控制的综合努力,形成了迄今为止最全面、可能也是最准确的维管植物物种平均性状数据集。
方法
Díaz等和Pérez-Harguindeguy等总结了大量文献,证明所选的六个核心性状(H、SSD、LA、LMA、Nmass和SM)对生长、存活和繁殖至关重要。Díaz等进一步指出,这些性状共同捕捉到了广义上植物形态和功能的本质:二维空间的一个主要维度反映了整株植物及其器官的大小,另一个维度代表了叶片构建成本与生长潜力之间的平衡,大约捕捉到了总性状变异的四分之三。核心定量性状由分类性状补充:木质、生长型、肉质、对陆生或水生生境的适应性、营养类型和叶片类型。
在下一节中,我们将提供在最初发布的全球谱中对连续性性状所使用的名称和定义,以及Thesaurus Of Plant Characteristics(TOP)中所使用的名称和定义。每种性状的详细原理、生态意义和主要参考文献可参见Díaz等和Garnier等的方法部分。对于分类性状,我们提供了名称、定义(如有)以及数据库中使用的类别。性状的测量大多遵循“全球植物功能性状标准化测量新手册”(http://www.nucleodiversus.org)中规定的协议和定义。至于LEDA数据库中的数据,则按照LEDA项目中制定的规程进行测量(https://www.leda-traitbase.org)。对于已发表的数据集,表S1中列出的原始出版物中提供了各个测量规程。
植株高度(H)(单位:m)
成年植株高度,即成熟时主要光合组织上边界的典型高度(TOP:植物营养高度;考虑最高营养部分的植物高度)。
茎比密度(SSD)(单位:mg mm−3)
单位茎干新鲜体积的茎干质量(TOP:茎比密度;干燥后评估的茎干或单位茎干质量与未干燥时评估的茎干体积之比)。对木本物种(尤其是树木)的SSD测量要比对非木本物种的测量普遍得多。因此,非木质物种SSD的缺失由叶片干物质含量的估计值来填补(见下文的数据插补)。
叶面积(LA)(单位:mm2)
单个叶片的单面面积(TOP:叶片面积;单面投影中叶片的面积;如果是复叶,则为小叶叶片的面积)。
单位面积的叶片质量(LMA)(单位:g m−2)
单位叶片表面积的叶片干重(单位:叶片质量/面积,叶片干重与其面积之比)。
单位质量的叶片含氮量(Nmass)(单位:mg g-1)
单位叶片干重的叶片含氮量(叶片总氮量)(TOP:单位叶片干重的叶片含氮量;叶片或其组成部分(即叶片或小叶)中的氮量与各自单位干重的比率)。
传播体质量(SM)(单位:mg)
单个种子或孢子的干质量,加上任何有助于扩散且不易脱落的附加结构(TOP:种子干质量;干燥后评估的单个种子或孢子的质量;种子干质量)。蕨类植物植物的孢子质量在文献中很少报道,是根据已公布的子囊直径和密度值估算的(见下文的数据插补)。
叶片干物质含量(LDMC)(单位:g g-1)
叶片或其组成部分(即叶片)的干质量与相应的饱和水分鲜质量之比。除六个重点性状外,我们还编制了草本植物的LDMC,以计算SSD的缺失值(见下文的数据插补)。
适应陆生还是水生生境
根据物种自然生长的生境类型。分类:水生、水生/半水生、半水生、陆生。
木质
确定茎干上木质部出现和分布的整株植物的特征。分类:木质、非木质、半木质(仅茎基部木质)。
生长型
生长型主要取决于木质化程度、生长方向和程度,以及主轴的分枝情况。分类:竹类禾本科、攀援植物、蕨类、草本禾本科、草本非禾本科、草本非禾本科/灌木、肉质植物、灌木、灌木/乔木、乔木、其他。
肉质
肉质植物的特征是其部分增厚、肉质和充血,通常是为了在气候或土壤特性严重限制植物水分供应的条件下保持水分。本标准旨在为肉质植物的生长形态提供更详细的信息。分类:叶和茎肉质植物、莲座丛叶和茎肉质植物、莲座丛叶肉质植物、莲座丛叶肉质植物(高)、叶肉质植物、茎肉质植物、茎肉质植物(短)、茎肉质植物(高)、肉质植物。
营养类型
这里的营养类型是指植物的主要能量和养分来源是光合作用、动物、死亡物质还是其他植物。寄生类别:半寄生、全寄生、独立寄生、寄生。食肉类:食肉、食腐。
根据“全球植物功能性状标准化测量新手册”,肉质和营养类型是生长形式的一部分。为简单起见,避免合并分类,我们在此将其分开处理。
叶片类型
光合作用活跃叶片的有/无及其基本形态的分类。分类:阔叶、针叶、鳞片状、鳞片状/针叶、光合茎。
六个核心数量性状肯定会出现种内差异,其中包括由不同发育阶段和生长条件引起的差异。数据集侧重于物种的平均性状值,而非种内变异,旨在代表在物种分布范围内自然条件下生长的成熟健康(非明显不健康)植物的物种平均性状值。叶片性状旨在代表顶部冠层受光但完全展开的健康幼叶。不符合这些要求的性状记录,即来自实验室实验条件下生长的植物的记录和在幼苗上测量的记录,将被排除在数据集之外。这一决定是根据TRY数据库中的相关元数据做出的(见下文)。
绝大多数数量性状数据由TRY植物性状数据库提供(https://www.try-db.org,TRY 2.0版于2010年7月访问,TRY 3.0版于2015年5月访问)。该数据集得到了TRY未收录的少量已发表数据以及W. J. Bond, J. H. C. Cornelissen, S. Díaz, L. Enrico, M. T. Fernandez-Piedade, L. D. Gorné, D. Kirkup, M. Kleyer, N. Salinas, E.-D. Schulze, K. Thompson和R. Urrutia-Jalabert提供的未发表原始数据的补充。
分类性状来源于TRY分类性状数据集(https://www.try-db.org/TryWeb/Data.php#3),并通过野外数据和各种文献来源进行了增强。
通过TRY获得数量性状的数据集见补充表S1,其中包含了来自参考文献4,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122,123,124,125,126,127,128,129,130,131,132,133,134,135,136,137,138,139,140,141,142,143,144,145,146,147,148,149,150,151,152,153,154,155,156,157,158,159,160,161,162,163,164,165,166,167,168,169,170,171,172,173,174,175,176,177,178,179,180,181,182,183,184,185,186,187,188,189,190,191,192,193,194,195,196,197,198,199,200,201,202,203,204,205,206,207,208,209,210,211,212,213,214,215,216,217,218,219,220,221,222,223,224,225,226,227,228,229,230,231,232,233的数据以及以下未发表的数据集:French Weeds Trait Database; Photosynthesis and Leaf Characteristics Database; South African Woody Plants Database (ZLTP); Tundra Plant Traits Database; Leaf N-Retention Database; Traits for Herbaceous Species from Andorra; Leaf Characteristics of Pinus sylvestris and Picea abies; Plant Coastal Dune Traits (France, Aquitaine); Dispersal Traits Database; LABDENDRO Brazilian Subtropical Forest Traits Database; Growth and Herbivory of Juvenile Trees; Cold Tolerance, Seed Size and Height of North American Forest Tree Species; Harze Trait Intravar: SLA; LDMC and Plant Height for Calcareous Grassland Species in South Belgium; Functional Traits for Restoration Ecology in the Colombian Amazon; Komati Leaf Trait Data; Baccara - Plant Traits of European Forests; Traits of Bornean Trees Database; Meadow Plant Traits: Biomass Allocation, Rooting depth; New South Wales Plant Traits Database; Traits for Herbaceous Species from Andorra; Catalonian Mediterranean Shrubland Trait Database; The Netherlands Plant Height Database; Plant Traits from Spanish Mediterranean Shrublands; Crown Architecture Database; Maxfield Meadow, Rocky Mountain Biological Laboratory – LMA; Herbaceous Plants Traits From Southern Germany; Leaf Area, Dry Mass and SLA Dataset; Herbaceous Leaf Traits Database Old Field New York; Plant Functional Traits From the Province of Almeria, Spain; Traits for Common Grasses and Herbs in Spain; Midwestern and Southern US Herbaceous Species Trait Database; Overton/Wright New Zealand Database; San Lorenzo Epiphyte Leaf Traits Database。
数据文件“References.xlsx”中记录了在剔除非代表性性状记录、错误和重复记录之前,通过TRY向全球谱数据集提供的每条性状记录的参考文献。
不同数据集术语的语义整合
生态研究是针对不同尺度的大量不同问题进行的,研究人员通常独立工作,相互之间很少协调。这就导致了使用不同术语的特异性数据集。因此,第一步是对术语进行语义整合。核心性状根据《Thesaurus Of Plant Characteristics》(TOP)和《全球植物功能性状标准化测量新手册》中提供的定义和测量规程进行标准化。植物和器官的成熟度(幼苗、成熟)、健康状况(健康、不健康)、生长条件(自然条件、实验条件)以及叶片在阳光下生长与在阴凉处生长的元数据在各数据集之间进行了统一。
整合分类法
物种名称根据《The Plant List》(http://www.theplantlist.org)进行标准化并归入科,该名录是Díaz等发表文章时普遍接受的维管束植物名录,使用TNRS,并辅以专家手工标准化。根据APGIII(2009)(http://www.mobot.org/MOBOT/research/APweb/)将科归入更高等级的类群。
单位转换和校正以及错误排除
不同的数据集往往对同一性状使用不同的单位。在转换为每个性状的标准化单位后,数据集之间的差异——有时是数量级上的差异——变得很明显。这些差异往往可以追溯到原始单位的错误,并得到纠正。明显的错误(如LMA < 0 g/m2等不可能的性状值)会从数据集中剔除。
为了增加具有所有六个核心性状值的物种数量,SSD、LMA、Nmass和SM的性状记录由相关性状记录的性状值补充:
SSD的插补
大量木本物种都有SSD的性状记录,但只有极少数草本物种有SSD的性状记录。为了将这一基本性状纳入Díaz等的分析中,我们使用基于叶干物质含量(LDMC)的插补值补充了草本物种的SSD,叶干物质含量是一个更广泛可用的性状,而且与茎干物质含量(StDMC,茎干重与茎干饱和水分鲜重之比)密切相关。StDMC是草本植物SSD的良好替代物,其比率约为1:1,尽管不同植物科的茎干解剖结构存在很大差异,包括非单子叶植物和单子叶植物之间的差异(鞘被测量)。我们利用在欧洲和以色列野外采集的隶属于31个植物科的422种草本植物数据集,对StDMC与LDMC的线性关系进行了参数化。单子叶植物的斜率明显高于其他被子植物(F=12.3;P<0.001,来自协方差分析);在非单子叶植物中,豆科植物的斜率高于其他科的物种(F=4.5;P<0.05,来自协方差分析)。因此,我们使用了三个不同的方程来预测1963个在TRY中有LDMC值的草本植物物种的SSD(表1):一个方程用于单子叶植物,一个方程用于豆科植物,第三个方程用于其他非单子叶植物。估计数据已作标记。
LMA的插补
将SLA(单位叶干重的叶面积)的性状记录转换为LMA(单位叶面积的叶干重):LMA=1/SLA。
Nmass的插补
如果同一观测点(叶片)有LMA记录,则将单位叶面积叶片含氮量(Narea)的性状记录转换为单位叶片干重叶片含氮量(Nmass)的记录:Nmass =Narea/LMA。
SM的插补
为了能将蕨类植物植物的性状数据纳入Díaz等的分析中,我们根据已公布的孢子半径(r)数据估算了子囊质量值。我们假设孢子近似球形,体积=(4/3)πr3,密度为0.5 mg mm-3(参考文献237、238、239、240)。虽然这些假设并不精确,但我们确信它们得出的孢子质量在正确的数量级内,比种子植物的种子质量小几个数量级。大部分数据来自Page,Sadleria pallida的数据来自Lloyd,Pteridium aquilinum的数据来自Conway,Diphasiastrum spp的数据来自Stoor等。
植物的科、属和种的分级分类在性状值的概率方面具有很高的信息量。因此,我们利用该分类法在上述各个层次上进行离群点检测。
全球谱数据集提供的六个核心性状在对数尺度上近似正态分布。因此,我们假定在对数尺度上,特征是从正态分布中采样的。在正态分布的背景下,密度分布与平均值对称,预计99.73%(99.99%)的数据在平均值+/-3个标准差的范围内,99.99%的数据在+/-4个标准差的范围内。使用这些较宽的置信区间可确保与自然界中性状的真正极端值相对应的极端值不会被误认为异常值,从而被排除在数据集中。
z值表示记录与平均值相差多少个标准差:
Z-score = (value - mean) / standard deviation
绝对z值大于4(大于3)的性状值是正态分布真实值的概率小于0.1%(0.3%)。这些性状值很可能是由于个别记录中尚未发现的错误造成的,如单位错误、性状值的小数点错误、物种错误(如错误地将草本植物的物种名称归因于在树上测量的高度)、与性状定义有关的问题或不具代表性的生长或测量条件。不过,我们也承认,我们对z值分界线的选择是任意的。
在许多情况下,每个分类群(如特定物种)的性状值数量太少,无法形成具有代表性的样本,也就无法提供可靠的标准偏差估计值(见图1)。为避免这一问题,我们使用了特定分类级别(如种、属、科或所有维管束植物)的平均性状值标准偏差。如果有足够数量的观测数据,该平均值近似于单个分类群的预期标准偏差(图1)。
在TRY数据库中,对所有记录超过1,000条的性状,都会对分类等级体系的不同层次进行这种基于概率的数据质量评估。每条性状记录的z分值都会在TRY网站上公布,每次发布数据时都会提供最高绝对值。
绝对z值大于4的性状值(与至少一个类群平均值相差超过4个标准差)将从数据集中剔除,除非有外部来源证明可以保留。由作者中的领域专家检查绝对z值为3至4(与至少一个分类群平均值相差3至4个标准差)的性状记录是否合理,并相应地保留或排除。
重复性状记录根据以下标准确定:相同物种(分类标准化后)、性状值相似(考虑语义整合、单位转换和数据补充后的四舍五入误差)、没有不同测量地点或日期的信息。
所得数据集用于计算物种平均性状值,而不按数据集或测量地点等进一步分层。由于六个核心性状的性状分布已被证明是对数正态分布,因此物种平均性状值是在对性状值(几何平均数)进行对数变换后计算得出的。
添加分类性状数据,如有疑问,则与专家知识和互联网专业网站上的独立外部信息进行核对。
最后,根据《the Plant List》和APGIII对分类法进行了人工核对。每个性状的十个最极端物种平均值(最小值和最大值)都要根据外部资料进行人工检查,以确保其可靠性。最后,物种平均性状的离群值——在根据分类性状以及双变量和多变量性状空间对物种进行分类之后——根据外部资料进行了验证(见Díaz等图2、扩展数据图3和扩展数据图4)。
数据记录
该数据集以CC-BY许可在TRY File Archive(https://www.try-db.org/TryWeb/Data.php)上提供:
Díaz, S. et al. The global spectrum of plant form and function: enhanced species-level trait dataset. TRY File Archive https://doi.org/10.17871/TRY.81 (2022)
Species_mean_traits.xlsx
References.xlsx
该文件提供了46,047个物种(包括少量属级分类、亚种和当地变种)在自然条件下生长的植物的平均性状值。物种名称和平均性状值由分类等级(属、科和系统发育组)、每个平均性状值的性状记录数和分类性状加以补充。有2,214个物种的所有六个性状值。该数据集总共包含476,932个定量和分类性状记录条目以及更高层次的分类法(定量性状92,159个条目、分类性状200,585个条目以及更高层次的分类法184,188个条目)。
定量物种水平性状信息基于约100万条性状记录(见表S1),测量对象大于50万个植物个体(参考文献中不同观测点的数量(见下文))。数据集中报告的一条性状记录通常是基于对一个地点不同代表性个体的多次重复测量结果。全球植物功能性状标准化测量新手册建议,根据性状的不同,对10至25个植株或叶片进行测量。因此,在遵循该手册或相关规程的情况下,原始数据库中的性状记录很可能代表了特定地点特定物种的平均性状值。只报告特定地点的平均性状值是较早出版物和汇总数据库的标准程序,假定对不同个体进行重复测量的方法相同。最近的数据集倾向于提供所有个体的测量值,原因之一是这样可以更好地处理种内性状变异。
本数据集来自157个数据集(表S1)。性状记录可追溯到约2,500篇原始出版物(见References_original_sources.xlsx)。所有物种都有更高层次的分类信息作为补充;92.5%和84.8%的物种分别根据木质和基本生长型归类。原始数据可通过TRY数据库(https://www.try-db.org/TryWeb/Home.php)获取。
该文件包含所有性状数据的参考文献,这些数据通过TRY数据库为全球谱数据集的核心性状做出了贡献。如果贡献给TRY的数据集已经由原始出版物汇编而成,该表还提供了这些原始出版物的参考文献。参考文献通过物种唯一标识符和性状名称与物种平均性状数据集中的数据相连。
物种平均性状表中的复制数总和比参考文献和补充表S1中的979,924条性状记录总和少约100,000条性状记录,因为物种平均性状表只包含数据清理和估算后保留的物种-性状组合的平均性状值和性状记录数信息。
技术验证
该数据集在地理和气候空间上覆盖全球(图2,另见Díaz等9扩展数据图1),但存在已知差距。每个性状的物种数量与2019年发布的TRY数据库第5版相似11。这表明全球谱数据集的数据收集和整理效率很高。所有物种的平均性状值(表2)都在Kattge等公布的范围之内。图4显示了木质方面每个性状的物种覆盖范围。到目前为止,该数据集已被Díaz等使用,数据在双变量和多变量分析中显示出很高的内部一致性:已知的双变量关系得到了很好的再现(Díaz等9扩展数据图3和4),单个物种在主成分分析的第一轴上的位置是根据对这些物种的一般了解所预期的(Díaz等图2)。
使用说明
如果在出版物中使用该数据集,应同时引用本文和Díaz等的文章。
本文汇编的六个数量性状(加上LDMC)是TRY数据库中覆盖面最广的数量性状之一。然而,正如这类观测数据的典型特征一样,每个物种的记录数分布不均:少数物种的平均性状值是基于大量记录的,而大部分物种的平均估计值仅基于少数或单个性状记录(见表2中每个物种和性状的平均性状记录数与中位性状记录数之间的差异,数据集文件“Species_mean_traits.xlsx”中也显示了每个物种平均性状的记录数)。应谨慎对待这些平均值的代表性,因为必须将性状测量值视为物种内性状变异的样本,而某些性状的变异可能非常大。不过,如上所述,一个性状记录往往是基于对特征个体的多个性状测量结果,因此代表了每个地点特定物种的平均值。在大尺度分析中,物种内的差异已被证明比物种间的差异小得多。
代码可用性
文献信息