Global Ecology and Biogeography | 插补植物性状中的缺失数据：改善空白填补的指南

文摘 2024-09-18 08:30 江苏

目的

全球分布的植物性状数据越来越多地被用于了解生物多样性与生态系统过程之间的关系。然而，全球植物性状数据库非常稀少，因为它们是由许多数据库（大多是小型数据库）汇编而成的。这种在性状空间完整性和地理分布上的稀疏性限制了多元和全球分析的潜力。因此，“填补空白（gap-filling）”的方法经常被用来弥补缺失的性状数据。最近的方法，如贝叶斯分层概率矩阵因式分解（BHPMF），可以利用侧面信息对大型稀疏数据集进行插补。我们研究了贝叶斯分层概率矩阵因式分解是否会导致性状空间的偏差，并确定了影响偏差的方面，从而为其使用提供指导。

创新

我们使用了一个完全观察到的性状数据集，其中的条目被随机移除，同时还使用了大量但稀疏的附加数据。我们使用BHPMF进行插补，并通过以下方面对偏差进行评估：（1）准确性（残差、均方根误差、性状平均值），（2）相关性（双变量和多变量），（3）分类和功能聚类（按值、单变量和多变量）。BHPMF保留了性状分布的一般模式，但引起了分类聚类。数据集-外部性状数据对诱导分类聚类和稳定性状-性状相关性的影响很小。

主要结论

我们的研究扩展了均方误差之外的空白填补评估标准，提供了对统计数据结构的洞察力，使人们能够更好地使用插补性状数据，并改进了插补实践。我们希望我们的研究结果不仅在植物生态学领域有应用价值，而且对任何使用分层侧面信息进行插补的研究都有价值。

1 引言

植物性状是植物的特征，其表达受其系统发育、随时间和空间变化的生物和非生物环境因素以及性状-性状关系的影响。它们可能与生态系统功能有关，使人们了解生态系统在全球变化情景下可能如何演变，了解生物圈-大气层反馈机制以及生物多样性对生态系统过程的影响。许多此类研究依赖于原位采集的性状数据数据库。最大的全球元集合是TRY数据库。

TRY数据库（6.0版）包含2,661个性状变量的15,409,681条性状记录，形成了一个大型矩阵。然而，对于每一株植物（由矩阵中的一行表示），TRY通常只有很少的测量性状，使得矩阵中的大部分单元格是空的，仅覆盖0.1%。观测数据的稀少限制了分析的统计能力，也限制了缺失的非随机性。仅使用所有个体的测量性状会导致可纳入多元分析的个体数量减少，并删除非随机缺失数据。此外，与完全观测数据集相比，稀疏数据可能存在偏差。

填补空白，即插补，正在成为处理稀疏数据的一种有前途的方法。性状侧面信息通常会提高功率，即减少缺失性状值插补时的误差。目前，性状数据是通过利用以下三种侧面信息来填补的：（1）物种分类或系统发育所描述的物种关系（如物种平均值；贝叶斯分层概率矩阵因式分解，BHPMF）；（2）植物性状-性状相关结构（如链式方程多重插补，MICE；近邻法，kNN）；或（3）性状-环境相关性（如高级分层概率矩阵因式分解，aHPMF）。

BHPMF是数据科学领域即将出现的理论指导初始化范例之一，它生成的基于数据的模型将先验知识作为侧面信息纳入其中。概率矩阵因式分解（PMF）基于这样一个假设：原始矩阵具有相关列（“低秩”），因此可以通过两个低维度矩阵的乘积来近似和插补。就BHPMF而言，根据植物性状在分类学和功能组内聚类的先验知识，植物分类学层次结构被添加到数据矩阵中。虽然PMF基于不完整矩阵中数据的分布和相关性，但添加的分类层次结构大大提高了BHPMF插补的准确性。因此，通过BHPMF实施插补已成为连接不同性状数据流以对植物功能生物多样性进行时空监测的愿景不可或缺的一部分。与其他常用技术相比，BHPMF通常表现良好，尤其是在TRY数据库等大型和非常稀疏的数据集中。因此，BHPMF插补及其数据已被广泛应用于各种研究中：在案例研究中，BHPMF插补的数据已被证明能产生与观察数据相当的多元结果，而且还被用于性状-性状相关性的高级形式：性状连接性。BHPMF还被用于支持在不同空间尺度上为许多物种开发基于过程的范围模型。一项通过植被样地收集物种丰度数据（sPlot）的计划旨在通过与BHPMF插补的性状数据（由TRY得出）建立链接来扩大其适用性。这一大型数据集用于分析群落性状与环境的关系。

然而，人们对BHPMF插补数据的局限性仍不甚了解。由于BHPMF从分类学侧面信息和性状-性状相关模式（矩阵因式分解）中学习，因此可能会引入偏差。在插补过程中，任何能减少误差的附加（侧面）信息都有可能因为插补算法中的假设而引入偏差。而基于PMF的插补可能会加强性状-性状相关模式。具体而言，插补值可能会根据分类学或相关性模式或两者出现系统性偏差。如果在插补过程中引入数据，这些人为的分类学和性状-性状相关性偏差模式可能会导致错误的结论，例如，在测试分类学差异的研究中。目前对BHPMF的评估无法检测到此类偏差。这是因为BHPMF和大多数插补技术一样，都是通过插补准确度（此处为均方根误差，RMSE）对观察到的数据进行优化，但并不对分类学或性状-性状关系的诱导模式与观察模式进行评估。在插补过程中，任何能减少误差的附加（侧面）信息都有可能因为插补算法中的假设而带来偏差。

偏差的证据表现为残差的系统模式，即插补值与观察值的距离。由于在插补过程中添加了信息，残差可能是非随机分布的。Molina-Venegas等使用Brownian Motion和Monte Carlo方法分析了植物性状插补准确性与系统发育关系的变异性。他们的研究表明，预测准确性取决于性状中系统发育信号的强度，在系统发育类群中会产生不同程度的插补准确性。这表明，保存良好的物种（和性状）可以得到很好的解释，而在其分类群中属于离群值的性状样本的预测准确性较低。这可能是因为插补将一个类群内的所有样本向类群平均值移动。第二个潜在的偏差源来自另一侧信息，即BHPMF直接从数据中获取的性状-性状相关模式。

功能群——植物性状的粗略近似值——经常被用来得出大范围的结论，例如，用于性状绘图。尽管植物功能类型和生长形式的偏差在研究中非常重要，但在偏差检测分析中并没有明确考虑这些偏差。因此，专门针对植物功能类型和生长形式的空白填补过程中的诱导模式可能对这些分析具有重要意义。功能群有时与分类学有关（如pteridophytes和ferns），但也可能代表不同的类别（如豆科植物，包括乔木和草本植物）。

在插补过程中，可以通过添加外部更大的植物性状数据集来提高插补的准确性。Schrodt等在使用和不使用外部数据插补一个（受地理限制的）子集时指出了这一可能性。不过，这两种方法的插补误差（SD和RMSE）相似，且未对诱导模式进行测试。当作为重点研究收集的本地数据集记录的性状稀少时，插补过程中更多的可用数据集可能有助于稳定性状预测和改善偏差。然而，扩展数据也会对插补产生偏差，这可能会反映在插补误差、性状分布、分类聚类和性状-性状相关性等方面。

在此，我们研究了BHPMF的数据插补是否会导致偏差，以及哪些方面会影响偏差。我们旨在证明使用BHPMF插补数据的偏差。我们预计（H1），填充了BHPMF的矩阵的秩可能低于原始矩阵：性状与性状之间的相关性会在插补后增加；（H2）BHPMF中添加的分类学侧面信息可能会加强甚至引入分类学模式；（H3）用外部数据插补的性状数据残差较小，偏差减少。

我们使用了来自TRY数据库（https://try-db.org）的观测数据集，并从中随机删除了不同数量的样本，以实现不同程度的缺失。插补后，我们从以下几个方面对观测数据集和插补数据集进行了比较：（1）误差（均方根误差、分布、性状平均值、个体值和物种平均值的残差）；（2）性状-性状相关性（皮尔逊相关系数、主成分分析[PCA]、Procrustes检验）；（3）分类和功能聚类（轮廓指数、与物种平均值的距离）。我们用“deviations”来描述观察到的性状数据与插补的性状数据之间的差异。

2 材料和方法

2.1 数据

本研究使用的数据基于完全观测的性状数据和BHPMF插补的性状数据，这些数据是在TRY数据库可获得的最大的完全观测原生境性状数据集合上以不同的稀疏程度获得的。这些性状是根据其条目数量选择的。我们选择使用观测性状数据而非合成性状数据，以尽可能真实地反映性状数据的注意事项。这样做的代价是只能使用现有的观测数据，并依赖于数据集固有的偏差。因此，完全观测到的性状数据由一组非随机选择的性状组成。为了检验一致性和不同属性的影响，我们选择了两个完全观测性状数据集（OBS、OBS2），它们是同一总体数据集（TRY17）的一部分，但没有任何重叠条目。OBS的结果见正文，OBS2的结果见补充材料中（所用数据摘要见图1和表S1、S2）。

图 1本研究使用和制作的数据集

为了获得性状数据集，我们首先从 TRY 数据库（try-db.org, 8.10.2016 and TRY version 3）中提取了最常观察到的17个连续性状的记录。我们总共从241,653个植物个体中提取了性状。由此得到的性状-个体矩阵的稀疏度为93.3%，即只有6.7[%]的单元格包含性状记录（表S3）。关于属、科和系统发育组、生长形态和植物物候学的信息是从TRY分类性状数据集（https://www.try-db.org/TryWeb/Data.php#3；表S4）中添加的。个体被归入被归入分类学（种、属、科和种子植物分支：Angiosperm-Eudicotyl, Angiosperm-Magnoliid, Angiosperm-Monocotyl Pteridophytes, Gymnosperm）和功能群（植物功能类型 [PFT]和生长形式，表S4）。种和属完全嵌套在功能组中。

为了建立两个测试性状数据集（OBS、OBS2），我们从全部性状数据（扩展数据集）中提取了两个仅有完全观测数据的子集。这些观测数据由两个集合组成，每个集合都有最大数量的个体观测数据和性状（表S3）。OBS主要是以树木为主的热带数据集（OBS：n（树木）=806，n（草本植物）=119，n（禾本科植物）=118）。相比之下，OBS2主要由温带地区的数据组成，其中草本植物和禾本科植物的比例高于树木（OBS2：n（树木）=28n（草本植物）=390，n（禾本科植物）=119）。由扩展数据得出的相应数据为n（树木）=65474，n（草本植物）=78,561，n（禾本科植物）=25,049。OBS和OBS2每个物种的观测值数量大致相同（n（OBS）=2.4；n（OBS2）=2.2）。外部数据（分别不包括OBS和OBS2）为OBS和OBS2增加的观测数据各不相同，例如，OBS中每个物种EXT平均增加4个观测数据，而OBS2中每个物种EXT平均增加5到6个观测数据（表S3）。包括OBS和OBS2以及外部性状数据（EXT、EXT2）在内的保留数据集称为TRY扩展性状数据（TRY17）。所有数据集的摘要见图1和表S1。

2.1.1 数据转换

在运行BHPMF之前，所有性状数据集都经过log和z转换归一化处理。具体来说，首先对性状k的每个值y进行log转换，然后在第二步中减去性状平均值μ(log(k))，再用所得值除以标准偏差σ(log(k))。

选择log转换是为了使每个性状的值更接近正态分布。我们还进行了z转换，因为小性状值的给定差异（绝对值）可能比大性状值的相同差异（绝对值）更具生理相关性。所有BHPMF插补分析均使用z-log转换数据（除非特别提及）。

2.1.2 为BHPMF插补准备数据

通过穿孔方法（见下文）准备空白填补程序，然后对穿孔数据进行BHPMF插补和分析。观察性状数据集（OBS或OBS2）被打孔，缺失条目数量不等：在整个数据集中随机删除1%、5%、10%、20%、30%、40%、50%、60%、70%和80%的观测数据，但每个植株（即行）至少保留一条性状记录，每个性状（即列）至少保留一个观测值。这些最小值总共占原始观测数据集的14%。对于每个缺失水平，我们都重复了三次随机间隙设置。在初步分析中，BHPMF的重复插补在总RMSE上没有显示出显著差异，因此没有考虑。在使用外部数据进行插补时，穿孔的性状数据（OBSsparse）由外部数据（EXT）补充。

2.1.3 BHPMF插补

BHPMF在贝叶斯框架内对不同层次（此处指分类法）的性状矩阵进行概率分解或因式分解（概率矩阵因式分解）。PMF通过矩阵每一行和每一列的潜在向量对性状矩阵进行概率因子化。性状值作为潜向量的内积进行插补。BHPMF使用吉布斯采样器（一种马尔可夫链蒙特卡洛算法），依次在不同层次上执行PMF，并将当前层次上PMF的潜在向量作为下一层次的先验信息。因此，BHPMF在个体层次上对潜向量的高层受限概率密度分布进行采样。最终，这些迭代被用于得出插补平均值以及标准差（SD）形式的插补置信度，标准差是对性状插补不确定性的每值插补。因此，BHPMF的基本前提是使用PMF插补单株植物的性状，以考虑性状-性状相关性以及种内和种间性状变异性，并利用分类学层次结构，通过分类学层次结构较高层次上覆盖良好的性状矩阵来限制基于稀疏个体的性状矩阵采样（。

BHPMF内部将数据集随机分成用于参数设置的训练数据集（80%）、用于通过优化性能调整参数的验证数据集（10%）以及用于独立测试参数调整和学习后性能的测试数据集（10%）。训练数据集用于潜向量的训练，而验证数据集用于评估潜向量的优化过程，并在连续迭代五次后以稳定的RMSE停止优化，最后，测试数据集作为参数调整和学习后独立性能测试的基础。

R软件包BHPMF的总迭代次数最多为1000次，其中前200次在“burn-in”阶段被舍弃。为了避免自相关性，只使用每20次迭代来计算所产生的性状值。这最多40次归类的平均值就是作为输出的最终性状值。

为了确定添加外部性状数据的效果，我们对有外部性状数据和无外部性状数据的穿孔观测数据进行了归类（表S3）。这样就得到了四个主要数据集（这里的OBS同时指OBS和OBS2，这里是两种方法的查找表：图1，表S1；OBS2，表S2）：（1）OBS，观测到的性状数据（如果OBS有孔，则为OBS_sparse）；（2）IMP_obs，根据有孔性状数据OBS_sparse插补的性状数据；（3）TRY17，扩展性状数据，包括性状数据（OBS）和外部数据（EXT；TRY17=OBS+EXT）。如果包含的性状数据稀疏（OBS_sparse），则为TRY17_sparse；（4）IMP_obsExt基于OBS_sparse和扩展性状数据（EXT）插补的性状数据。

2.2 分析

我们计算了误差（RMSE、平均值、分布、残差）、性状-性状相关性（Pearson、PCA）以及分类和功能聚类（轮廓指数、与聚类平均值的距离、变异系数）。观测数据（OBS）与插补数据集（IMP_obs和IMP_obsExt）之间的距离在此定义为偏差。

2.2.1 误差

单个观测值的误差计算为残差和单个观测值与聚类平均值的距离，而聚类是指分类（种、属、科）或系统发育（分支）和功能（生长型[GF]和植物功能类型[PFT]）。此外，还计算了每个性状和整个数据集的均方根误差（RMSE），并绘制了分布图。

残差的计算方法是（反变换）插补值y_imputed与观测值y_residual=y_imputed-y_observed之间的距离。

均方根误差由转换后的数据计算得出。

用R软件包“stats”的密度函数计算个体值的性状分布。

2.2.2 性状-性状相关性

我们计算了性状对和多元性状集的性状-性状相关模式。

对于性状对，我们计算了反变换数据集和各自的z-log变换数据集的Pearson相关系数。Pearson相关系数是针对所有三次插补重复计算的，并汇总到平均值和标度。对于多变量相关模式，我们使用R软件包“princomp”对一次随机重复插补进行了主成分分析（PCA）。核密度用“kernel”软件包计算。为了将插补的PCA结果（IMP_obs、IMP_obsExt）与观察数据集（OBS）的PCA结果进行定量比较，我们使用R软件包“vegan”中的“Procrustes”和“protest”函数进行了Procrustes检验。Procrustes分析会旋转两个PCA轴，使其与其他待测PCA轴的相似度最大化（函数procrustes）。其次，我们测试两个PCA结果之间的非随机性（“significance”）（函数protest）。前两个PCA轴的非随机结果（如<0.05）表明非随机性，因此也就表明了相似性。

2.2.3 聚类

聚类分析包括单值聚类、某一性状聚类和所有性状聚类（多元聚类）。聚类按分类学和功能组进行定义。

对于数值聚类分析，我们计算了聚类A中每个数值y与各自聚类平均值的距离（y，z-log变换）。聚类包括种、属、科、分支、生长型（GFs）和植物功能类型（PFTs）。

在性状（单变量）聚类分析中，计算每个性状和聚类A（如物种）的变异系数（CV），聚类A由其单值y₁、y₂、......y_n组成。变异系数（CV）的计算方法是：一个群组（y₁、y₂、......y_n）中所有观测值的标准差σ（n=群组A的数值个数）与同一群组（y₁、y₂、......y_n）中所有观测值的平均值μ（n=群组A的数值个数）相除。分析中排除了功能组群属性缺失的值。CV值基于反变换数据。

在计算多元聚类分析时，我们使用了轮廓指数，Rpackage:'clues'，function:get_Silhouette。轮廓指数（S）计算的是一个群组中一个元素与其群组的相似度。首先，我们计算任何聚类A中每个对象y（例如任何分类群或功能群中的个体）与所有其他对象y_n的距离，与其聚类归属无关。其次，我们用两种方法平均每个群组中所有元素的距离。一方面，我们将所有元素与同一聚类内元素的距离平均化，得出差异度a（y）。我们还对同一聚类与最近邻近聚类中所有元素的距离b（y）求平均值。最后，将群组A内的相似度a（y）与最近相邻群组的相似度b（y）进行比较，因此a（y）=与群组A对象的平均距离，而d（y）=与群组不等于A（例如C）对象的平均距离，b（y）=最小值（d（y，所有群组））。

S=-1表示差异很大（几乎没有聚类），S=0表示项目平均位于两个聚类之间，S接近1表示差异很小，因此项目被认为是归属聚类的一部分。只有一个个体的聚类的轮廓指数必须导致S=0，因此没有计算。分析中排除了功能组群归属缺失的数值。我们提取了每个群组（种、属、科、种子植物分支、生长型、PFTs）中一个以上个体的所有群组的中值。只有完全观察到的聚类才能用于计算S，因此稀疏和穿孔数据无法计算。

3 结果

我们比较了观察到的性状数据（OBS）和仅从OBS_sparse或基于扩展性状数据（TRY17_sparse）推算出的性状数据（IMP_obs、IMP_obsExt）。所有分析都是针对第二个数据集（OBS2，见补充材料）同时进行的。

3.1 插补误差和残差

第一步，我们分析了误差模式，并检验了缺失是否与IMP_obs和IMP_obsExt的误差有关，误差以每个性状和每个植物个体值的均方根误差（RMSE）和残差来衡量。我们发现均方根误差随着缺失率的增加而增大（图2），并且缺失样本的均方根误差高于可用样本（图2顶部与底部）。这意味着非空白数据比缺失数据的插补效果更好（同时比较图S2e中的OBS和OBSsparse）。

图2 性状数据缺失百分比（OBS）对经典估算器插补误差的影响：RMSE；而输入数据集的范围（有无外部数据）并不影响 RMSE

从IMP_obs到IMP_obsExt，在插补过程中加入外部数据并没有使RMSE发生很大变化（图2）。然而，与IMP2_obs相比，IMP2_obsExt的均方根误差降低幅度更大（图S3）。与IMP_obs相比，外部数据的加入并没有增加残差（图S4a），反而减少了OBS2的残差（图S5a）。在所有类群中，添加EXT可保持样本相关性相似（OBS）或改善相关性（OBS2，图S2e）。对于物种平均值，添加外部数据会降低OBS的拟合度，而对于OBS2，则会提高拟合度（图S6），这种外部数据效应取决于性状（图S7和S8）。为了更好地理解对生态分析的影响，我们将插补值转换回原始单位（表S5）。与原始观测值相比，单个插补性状值偏差很大。例如，将残差转换为原始单位后，植物高度的中位偏差为2.3 m（75分位数为7.72），可能高达43.4 m（扩展性状数据：中位数=2.54 m；75分位数=6.9 m；最大值=47.6 m，表S5）。考虑到植株高度在转换后显示出最低的RMSE，这一点很有意思。与IMP_obs相比，IMP_obsExt的比叶面积（SLA）、叶氮（leafN）、叶磷（leafP）和单位叶面积叶氮（LeafNArea）的极差（原始单位）均有所减少（表S5）。

3.2 分布

为了确定插补的性状数据是否很好地反映了性状分布，我们比较了性状均值（图3a,b）、单个值（图S4a，表S5）和分类群均值（图S6a和S4b-d）。

图3 观察值与BHPMF插补值的性状分布偏差（缺失率：80%空白，n=1136；值反向转换一次BHPMF重复）

IMP_obs和IMP_obsExt（两个性状数据集）的性状分布很好地再现了在OBS（OBS2）中观察到的分布，但方差减小了（图3a，OBS2图S9a）。IMP_obsExt的分布与OBS的分布更相似，而不是TRY17的分布（即有外部数据的OBS，图3a）。与添加了外部数据的OBS相比，IMP_obs和IMP_obsExt以及OBS的性状均值相似（图3b）。然而，一些性状的平均值发生了偏移：例如，高植株变得比观察到的矮，茎密度（SSD）比观察到的大。

在评估所有分类学和系统发育平均水平（物种到分支）的残差时，我们发现添加补充性状数据通常不会改变OBS的残差（图S4，但确实降低了OBS2的残差，图S5）。这也反映在IMP_obs或IMP_obsExt与OBS的相关系数相似（图S1、S2和S6），但OBS2的相关系数有所提高。值得一提的是，即使RMSE很大，理论上也有可能完全再现性状分布和平均值。

3.3 性状-性状相关性

为了确定插补对性状-性状相关性的影响，我们分析了OBS、IMP_obs和IMP_obsExt在成对性状（图4a,b）和多变量性状组合（图4c-e）层面上的性状-性状相关性。

图4 观察到的性状-性状成对相关性与插补的性状-性状成对相关性的比较

与OBS和OBS2相比，IMP_obs和IMP2_obs的成对相关系数的平均Pearson相关系数有所降低（图4a，尽管IMP2_obs的相关系数并不显著）。相关系数随缺失水平的变化而变化，在补充外部数据时变化较小（图S10和S11以及表S6和S12）。添加外部数据提高了OBS和OBS2与观测到的相关系数的匹配度，但相关系数值的增加并不显著（图4a与b）。穿孔性状数据（OBSsparse）的条目很少，有时只有17个，因此无法推断出性状-性状关系（表S6）。根据Procrustes检验（表S7），插补数据和观测数据的多变量性状-性状关系相似（图4c-e）。

3.4 聚类

为了检测BHPMF插补过程中可能引入的分类模式，我们在不同层次上分析了以组为单位（图6）、以单个性状为单位（图S13）和以单个值为单位（图5，并根据性状进行分类，图S14a-f）的观测数据和插补数据的聚类情况。在所有这三个“水平”上，我们都观察到了由于插补而导致的聚类变化。

图5 与OBS（蓝色）、插补的IMP_obs（80%空白，橙色）和IMP_obsExt（80%空白，红色）的组平均值的距离比较

首先，根据Silhouette指数，我们测试了最初观察到的聚类是否因插补而改变。我们发现所有群组的聚类在插补后都有所增加（图6）。物种和属的聚类增加最多，分支和功能群的聚类增加最少。其次，我们发现通过变异系数（CV）测量，种内性状多样性也因插补而降低，特别是对于异质性和观察贫乏的物种（图S13）。无论是否添加外部数据，变异系数都会降低，但外部数据似乎降低了观察丰富物种的效应大小（图S13）。第三，我们发现单个数值在插补后更接近群体平均值（图5）。我们分析了OBS、IMP_obs和IMP_obsExt与分类群平均值（以及支系和功能群平均值）的距离，发现与OBS相比，IMP_obs和IMP_obsExt与分类群平均值的距离总体上有所减小，原本离平均值较远的值比原本离平均值较近的值偏移更大（图5，并根据性状图S14 a-f进行了区分）。叶氮浓度和叶磷浓度的变化最为明显，这两个性状在观测数据中的聚类较为松散；植株高度的变化最小，这两个性状在观测组内较为相似。

图6 OBS与IMP_obs和IMP_obsExt的聚类程度比较

与OBS相比，OBS2在观测数据集中的聚类更紧密，在插补后的聚类也更紧密。然而，对于OBS2，在插补过程中加入外部数据后，插补对聚类的影响被消除了（图S15）。OBS2的单值也在插补后变得更接近组平均值，离群值的移动幅度大于最初接近平均值的值（图S16）。

4 讨论

我们研究了BHPMF的数据插补是否会导致不准确和偏差，从而给下游分析带来问题，并旨在找出影响偏差的因素。我们发现，插补数据的均方根误差随着缺失率的增加而增加，最高可达OBS_mean=0.3的均方根误差（OBS2_mean=0.25；图2a）。每个值的个体误差取决于性状特征以及插补过程中的存在情况（如果预测的是缺失值或观察值；图2a，c；见汇总表1）。然而，性状平均值（IMP_obs,IMP_obsExt）和类群平均值的插补通常接近于完全观测数据集的平均值，即使缺失率很高，在外部数据稀少的情况下，插补也不会对其产生太大影响（图3b；图S2e）。

PMF方法和BHPMF所使用的侧面信息表明存在两个方面的潜在偏差：BHPMF从稀疏数据集中描绘出的性状-性状关系，以及作为聚类侧面信息添加到数据集中的分类学关系。第三个可能带来偏差的方面是使用的插补数据集大于下游分析实际需要的数据集。我们并没有发现插补后性状-性状关系得到加强的证据（H1）。相反，我们发现性状与性状之间的关系有所减弱，而且随着缺失率的增加，变异性也更强（IMPobs，IMP2obs；图4e，图S11和S12）。与此相反，在插补过程中使用外部数据可以改善并稳定所有缺失水平下的预测性状-性状相关性。外部数据的插补显示，随着缺失度的增加，相关强度呈不显著的增加趋势，这可能为H1提供了非常微弱的支持（但请参见对H3的讨论）。BHPMF对性状-性状关系的预测相对无偏，这可能有助于解释为什么Díaz等（2015年）和Joswig等（2022年，增刊第7.2节）发表的观测和插补性状数据显示出非常相似的性状-性状相关性，而且应该注意的是，这两项研究都使用了非常大的数据集（Díaz等，2015年，45,507个物种；Joswig等，2022年，652,957个个体）。插补一般不会改变性状-性状关系模式。这支持了Flores-Moreno等（2019年）使用插补数据分析性状连接性以及性状-性状关系。我们的方法只包括线性性状-性状关系，因为这是最常见的调查方法，可能会遗漏非线性关系。未来的工作应该研究非线性关系在多大程度上会受到BHPMF插补的影响。

与此相反，假设2（H2）主要得到了支持，因为与观测数据相比，插补数据更紧密地聚集在分类群（分类等级）中，进而聚集在功能群（生长型和PFTs）中（图5和6，图S13）。功能群由整个类群组成，即一个物种的成员属于同一功能群，因此功能群的模式与分类学观察到的模式相同（图5）。然而，影响的强弱取决于分类水平（种和属的影响较强，图6）、数据集的异质性（异质性时偏差更大；图5）和每个群组的样本量（样本越多，偏差越小；图S6a）。这也受到插补过程中外部数据的影响（图6、图S1和S2）。对于第二个数据集，IMP2_obsExt的（分类学）偏差小于IMP2_obs（图S15）。与各自聚类平均值相差甚远的观测值在插补后变得与其聚类平均值更为接近（图5）。因此，根据植物性状在种内和属内的同质性不同，其插补结果也可能不同。从生态学角度来看，种内多样性会影响插补过程中引入的聚类偏差量。因此，在分类学上保存较好的性状与保存较差的性状相比，误差和偏差较小。这与Molina-Venegas等的发现方向一致，他们使用了两种插补方法（PEM和pGLM），结果表明准确性与系统发育尖端长度（即进化时间）之间存在负相关，这取决于系统发育信号的强度。今后，应研究每个性状变异的指导方面（即分类、环境等），因为这对插补过程中的规模、聚合和输入决策非常重要。与OBS相比，OBS2的功能多样性较低，分类学保守性较高，部分原因是OBS2中每个分类群的个体数量较少（表S3）。因此，对于OBS2，BHPMF甚至减少了某些物种的聚类（图S13）。外部数据对OBS2准确性的提高可能大于OBS，因为就每个性状和物种而言，外部数据为OBS2提供的新观察结果（每个物种的平均观察结果数n（平均值）=5.4）多于OBS（每个物种的平均观察结果数n（平均值）=4；表S3）。

在插补过程中添加外部数据的效果（H3）取决于分析和数据集。添加外部数据后，性状-性状相关性的预测结果更加一致，然而，随着性状数据缺失率的增加，性状-性状相关性的增加趋势非常微弱。外部数据的加入略微改善了分类聚类。外部数据（IMP_obsExt）的这种缓冲作用（表S3）可能是由于有了更大的性状样本量，包括性状分布和性状对（表S3）。然而，并不是所有的预测都能通过使用扩展性状数据得到改善（图S7a-8c）。这可能部分是由于性状的环境可塑性导致了较高的种内变异性。由于BHPMF从一个类群的所有个体中学习，从分布广泛的物种中推算本地性状数据可能会偏离源自其他环境条件的性状值。因此，外部数据可能会改变分类群的平均值并导致较大的误差，单个值的情况就是如此（表S5）。对于第二个性状数据集（IMP2_obsExt），更广泛的聚类（图S16和图S15）可能是由于外部数据的增加引入了更大的方差。在插补过程中添加外部数据对RMSE的影响很小，尽管它往往会增加低缺失率的RMSE，而降低高缺失率的RMSE。它可以改善BHPMF增加分类聚类的趋势，并在数据稀少时稳定性状-性状关系的预测。因此，一般建议在稀疏数据集（如条目缺失超过10%的数据集）的插补过程中加入外部数据。我们建议将外部数据的分类群均值与目标性状数据进行比较，并建议不要包含分类群均值差异较大的外部性状和分类群数据，因为这些数据很可能会导致偏差（建议见表2）。

准确性与分类侧面信息相互关联。例如，与IMP_obs相比，IMP2_obs更准确（图S3），残差更小（图S5），分类学的偏差更小，甚至没有偏差（图S15）。OBS2的准确性可能是由于分类学聚类比OBS更紧密（图5，图S16），因此其样本在插补后偏离聚类平均值时不会有太大偏移（另见汇总表1）。

这也为外部数据的有用性提供了建议（表2）。外部数据对OBS2分类偏差的缓冲作用略大于OBS（图S15），而且OBS2使用外部数据对物种平均值的预测效果更好（图S6）。这可能是由于外部数据为每个OBS2物种提供了5.4个额外样本，而OBS每个样本只提供了4个额外样本（表S3）。此外，OBS2可能比OBS更能代表外部数据中的平均环境条件，因为OBS2是一个热带树木数据集，而OBS则由温带、取样良好地区的主要生长型组成。

对于单个性状，分类学信息和性状与性状之间的关系会造成偏差。例如，OBS的植株高度插补误差最小（图2a）。这可能是由于分类学信息含量较高：就该数据集而言，植株高度高度保守（图S14和S13a）。尽管性状-性状关系信息的利用率不高（图S20），但低分类水平上的系统发育保守性足以保证较高的预测准确率。就株高而言，添加外部数据（EXT）的效果在误差（图2）、分布（图3）或分类聚类（图S14）方面都不明显。然而，就重复的稳定性和与OBS的相似性而言，IMP_obsExt的性状-性状关系比IMP_obs的要好得多（图S20）。

OBS中的叶氮值（图S17）的插补结果最差。叶氮既没有利用很多相关信息（图S17），也没有得到很好的保存（图S14和S13a），它在很大程度上取决于环境，尤其是土壤成分。叶磷的保守性也很差，但似乎利用了更多的相关信息（图S18）。

对插补数据进行z和log变换后，在反变换到原始比例时，可能会隐藏一些相关的偏差。值得注意的是，虽然中心倾向和性状-性状关系可以成功地从插补数据中预测出来，且偏差很小，但个体值与观测值之间可能存在较大偏差，从而导致数据集的表观生物变异减少。在大多数应用中，插补很可能会产生与我们这里所举例子不同的偏差分布，缺失块的偏差较大，有块的偏差较小。在我们的方法中，性状样本完全随机缺失（MCAR），而在大多数稀疏数据集中，性状值并非随机缺失（NMAR），而是较难观测的性状（类群、区域等）系统性缺失。与我们的方法相比，NMAR缺失可能会显示出更多的分类偏差，因为缺失分布不均。这将导致大型稀疏类群的聚类更强，而小型观察类群的聚类更弱。特别是对于这些大型稀疏类群，额外的稀疏NMAR大数据会严重影响插补结果。无论如何，都不建议使用插补数据来分析分类多样性或类群内多样性。

5 结论

本研究确定了BHPMF插补数据集的潜力和局限性，并推导出了适当使用的指导原则。我们发现，插补要么降低了性状-性状关系的皮尔逊相关系数，要么使其变化不大。外部数据稳定了插补并提高了性状-性状相关的准确性。插补值的准确性取决于它们与分类群平均值的距离，因为BHPMF往往会将插补值系统地转移到分类群的平均值上。因此，与异常值相比，更接近于属或种平均值的插补值可能会得到更准确的预测。在插补之后，分类组与功能组一样，都比观测数据更紧密地聚集在一起。我们的结论是，可以从BHPMF插补的数据中推断出性状-性状关系模式，但不应该推断出分类模式，因为分类模式有很大的偏差且方差较小。我们的研究将评价填补空白的标准扩展到了均方根误差（RMSE）之外，提供了对统计数据结构的洞察力，并通过改进插补方法，在更知情的情况下使用插补的性状数据。现在，BHPMF的准确性和偏倚性都得到了很好的描述，这可能会使其与其他分层插补技术相比更加有用。此外，本文提出的偏差测试方法还有助于针对特定问题开发量身定制的空白填补方法。对于分类分析，分类信息可以在插补过程中排除。可以用其他有意义的信息（即环境信息、时间信息）来替代，并通过偏差检验来最终确定。因此，本研究的方法、结果和结论除了在植物生态学中的应用外，还可进一步用于任何使用分层侧面信息进行插补的研究（见建议摘要表1和表2）。

文献信息

Imputing missing data in plant traits: A guide to improve gap-filling

期刊

Global Ecology and Biogeography (IF = 6.3)

作者

Julia S. Joswig*, Jens Kattge, Guido Kraemer, Miguel D. Mahecha, Nadja Rüger, Michael E. Schaepman, Franziska Schrodt, Meredith C. Schuman

发布日期

2023 年 5 月 16 日

DOI

https://doi.org/10.1111/geb.13695

文章翻译仅代表译者的理解，如需参考和引用相关内容，请查阅原文。

点击“阅读原文”可查看文献↓↓↓

http://mp.weixin.qq.com/s?__biz=MzkzOTUwMjk0Mg==&mid=2247485819&idx=1&sn=a6c16565155b305f5c677211842fd628

Biodiversity Monitoring

生物多样性；监测保护；群落生态；生态统计；R语言；python。主要分享一些前沿的文献和方法实例，更新看心情和时间。

Global Ecology and Biogeography | 插补植物性状中的缺失数据：改善空白填补的指南

1 引言

2 材料和方法

3 结果

4 讨论

5 结论