性状数据集是大量生态学和进化研究的基础,可用于推断祖先形态、量化物种灭绝风险或评估生物群落的功能多样性。然而,这些数据集经常受到数据缺失的困扰,例如,由于取样不完整、数据有限和资源可用性等原因。目前有几种预测缺失值的插补方法,最近的研究探讨了这些方法在生物数据集连续性性状方面的性能。然而,人们对这些方法用于分类性状的准确性知之甚少。 在这里,我们结合系统发育比较方法、机器学习和深度学习模型,探索了不同插补方法在分类生物性状上的性能。为此,我们开发了一个开源R软件包,用于对性状数据进行插补,同时整合了一个模拟框架,以评估它们在合成数据集上的性能。我们在不同的缺失率、机制、偏差和进化模型下运行了一系列模拟。 我们提出了系统发育比较方法和机器学习插补之间的整合方法,以及一种组合方法,其中结合了选定的插补方法。我们的模拟结果表明,这种方法能提供最稳健、最准确的预测。我们将我们的插补管道应用于1015种板鳃类物种(如鲨鱼、魟鱼和鳐鱼)的不完整性状数据集,发现基于专家对缺失性状的评估,插补预测的准确率很高。 总之,我们的R软件包有助于比较多种插补方法,并对缺失性状值进行稳健预测。我们的研究凸显了将系统进化模型与机器学习推断结合起来以扩充不完整生物数据集的好处。
1 引言
生态学和进化研究的一个重要方面依赖于可以测量或描述生物个体或物种的生物性状。例如,性状数据集可用于推断祖先形态,并在系统发育背景下建立表型进化模型,如开花植物冷冻持久性的进化或鸟类喙形的最初快速增殖。性状还可用于评估现代和过去生物群落的功能多样性,以及量化物种灭绝风险和保护重点。生物数据集可包括生活史性状(如体型、繁殖策略)、生态性状(如家园范围大小、饮食)以及空间和气候性状(如地理范围大小、温度耐受性)。性状大致可分为两类:数值变量(如体重)和分类特征(如是否存在解剖特征、饮食或栖息地)。分类特征可以是名义特征(如草食性或肉食性食物),也可以是顺序特征(如植物的耐阴梯度)。
遗憾的是,性状数据集通常并不完整,如果是跨越许多物种的大型汇编数据集,情况就更为严重。性状数据缺失可能有多种原因。例如,发生在交通不便的栖息地的稀有物种可能难以取样测量,而且由于研究工作的不均衡(如脊椎动物与真菌),某些分类群组比其他分类群组更为人所知。此外,生物样本(如标本馆或博物馆标本)可能保存不完整,或某一性状难以量化。在研究已灭绝物种时,不完整的性状数据几乎是不可避免的,因为化石记录只能提供部分信息。这是个问题,因为不完整的数据可能会降低我们推论的统计能力,甚至会妨碍一些无法处理缺失数据的分析,例如计算功能多样性指数。缺失数据还可能因非随机灭绝而导致虚假结果,例如鸟类不会飞的进化。
在统计研究中,缺失值的分布可以用三种缺失机制来描述(见图S1-S3):(1)完全随机缺失(MCAR),即独立于其值和其他性状的随机样本数据缺失;(2)随机缺失(MAR),即某一性状中缺失值的分布与数据集中包含的其他性状中的值有关;以及(3)非随机缺失(MNAR),即缺失数据是非随机的值子集,与研究人员在数据集中包含的其他性状无关。例如,如果在一个体重数据集中,体重小的物种缺失比例过高,缺失值的分布就是MNAR。但是,如果数据集还包括所有物种的体长,且体长与体重相关,那么缺失值的分布就是MAR。在本研究中,我们引入了第四种缺失机制,描述了属于特定分支的物种更有可能缺失性状数据的情况。这可以看作是一种MAR机制,其中缺失数据与观测变量(系统发育树)相关,并捕捉到了性状数据集中分类群取样不均衡的情况。以下我们将这种缺失数据分布称为phyloNA。
由于缺失值是随机分布的,因此MCAR模式通常会对数据做出无偏见的解释,但它会减少样本量和数据分析的统计能力。相反,MAR、MNAR和phyloNA会导致偏倚。当缺失值为MAR或phyloNA时,所引起的偏倚可能是已知的,而当缺失值为MNAR时,偏倚则无法用观察到的数据来解释。
目前已开发出多种策略来处理包含缺失数据的数据集。克服这一问题的最简单策略是“完整案例分析”,即在分析前剔除数据缺失的性状或物种。然而,这种方法有两个主要缺点。首先,它会减少样本量,从而降低后续分析的统计能力。其次,如果缺失数据的分布不是MCAR,则可能导致统计分析的估计参数出现偏差。
插补法是处理缺失值的另一种方法,即用统计方法预测的值替代缺失值。数据插补有多种方法,从用性状均值替换缺失值的简单原则,到基于模型的方法,这些方法整合了其他数据的信息,以做出更可靠的预测。
在生物数据集中,缺失性状数据通常使用系统发育信息进行插补,即在考虑物种间共同进化史的同时预测缺失性状。系统发育信息可通过使用进化模型或使用机器学习方法以数据集中附加预测变量的形式(例如,来自系统发育的特征向量分解)整合到插补中。然而,并非所有性状在系统发育中都是保守的,在生活史和生态性状中也观察到了不同程度的系统发育信号。
有几项研究评估了连续性状的不同插补方法的性能,结果表明系统发育比较方法和机器学习方法在某些情况下都能提供可靠的插补,这取决于性状数据中系统发育信号的水平。然而,许多生物性状在本质上是分类的,例如导致孟德尔遗传发现的种子类型和花朵颜色或DNA序列中的核苷酸。其他性状可能在不同状态之间呈现梯度,但通常可以在离散类别中进行有意义的描述,例如真菌的宿主特异性、花色等形态结构、摄食类型(如吸食者或咬食者)、食性(如食果动物或食肉动物)、繁殖地(如沿海或离岸环境)、内含子等移动遗传因子的存在与否或物种生活的基质(如树栖、穴居或隐蔽)。尽管最近对经验数据的分析表明了机器学习方法在这方面的潜力,但插补方法预测分类性状的能力仍未得到充分探索。这就需要对包括系统发育比较方法在内的插补方法进行正式的基准测试,并在不同的进化情景下进行测试。
在此,我们通过模拟评估了不同插补方法在分类性状数据上的表现,并提出了在不完整生物数据集中预测缺失数据的指导原则。我们测试了:系统发育插补(PI)、非参数或半参数机器学习方法以及参数深度学习方法。为了便于对不同的插补方法进行比较和基准测试,我们开发了一个R软件包,用于在不同策略下进行模拟和插补。我们的框架可以对数据进行预处理,并利用它来确定哪种方法能产生最高的准确性和可靠性。我们还利用板鳃类分支(包括鲨鱼、魟鱼和鳐鱼)的经验数据进一步评估了我们的插补管道,并以专家对缺失性状的评估作为准确性的经验衡量标准。
2 材料与方法
我们开发了一个框架,用于评估不同插补方法在基于模拟预测生物性状数据缺失数据方面的性能(图1)。我们的方法包括四个步骤(1)模拟不同进化情景下的系统发育树和性状数据;(2)根据不同的缺失机制和缺失率生成数据空白;(3)使用一系列插补方法和策略插补缺失值;(4)比较不同插补方法的准确性。虽然我们的管道可以对连续和分类性状进行插补,但我们的实验主要集中在分类性状的插补上。
我们评估了四种预测策略。第一种策略使用机器学习和深度学习方法,将不含任何系统发育信息的性状数据作为输入。第二种策略将系统发育信息纳入数据集(详见下文),以往对连续性性状的研究表明,系统发育信息可提高插补的准确性。第三种策略将PI方法的输出与性状数据一起作为机器学习和深度学习插补方法的输入。最后,第四种策略是基于硬投票(HV)集合,将三种机器学习方法的输出汇总,做出多数预测。
我们生成了反映真实生物数据的模拟数据集,其中包含系统发育信息和性状数据,包括连续和分类性状,性状之间存在一定程度的协方差。我们实施了一个性状模拟框架,该框架基于最广泛使用的描述进化过程的模型,包括生成系统发育树的出生-死亡过程、进化分类性状的马尔可夫过程和连续性状进化的布朗过程。
在每次模拟中,我们都会根据出生-死亡过程生成一棵系统发育树,在这个过程中,出生(物种)和死亡(灭绝)都是根据连续时间马尔可夫过程中的出生率和死亡率随机发生的。我们使用R 4.2统计编程环境的TreeSim 2.4软件包,根据现存物种数量设定为100个、出生率为0.4、死亡率为0.1的系统发育树进行了模拟。灭绝物种随后从树中删除。然后,我们将所有树的根年龄重新调整为1(图S1a)。然后,我们利用系统发育模拟由13个连续和分类性状组成的数据集。我们使用了一个3-state分类性状作为不同插补方法的基准,而其他性状则被视为辅助变量。因此,“结果”中对插补准确性的所有评估都是针对这一性状的。辅助性状包括三个分类性状和三个不相关的连续性状,这些性状的演变与第一个性状和其他性状无关,同时还包括与第一个性状相关的三个分类性状和三个连续性状。
对于每个数据集,我们都根据R软件包castor 1.7.9中实现的马尔可夫进化模型模拟了不相关的分类性状。为了进行比较,我们还测试了在阈值模型(见支持信息)下生成分类性状的情景。我们从均匀分布u(0,0.5)中随机抽取马尔可夫模型的转换率。对于阈值模型,我们使用R软件包mvMORPH 1.1.7根据布朗运动模拟连续性状,并根据从跨越性状范围的均匀分布中随机抽取的阈值将其离散化。然后,我们为每个区间分配随机标签,将连续性性状转化为分类性状。
不相关的连续性状是作为布朗运动过程的独立实例生成的。在布朗运动模型下,性状根据随机过程演变,其中性状值在时间t后的预期变化为正态分布:。对于每个性状,我们都从均匀分布u(1×10-4,0.5)中随机抽取一个速率参数σ2。
我们模拟了相关的分类性状,使其中一个状态与相关性状的一个状态相关。相关状态对是随机选择的。该算法为每个相关性状生成一个大小为Si×Sj的概率矩阵,其中S设定为性状i、j的状态数,每个状态之间的给定相关强度(此处设定为ρ=0.8)。然后,根据概率矩阵的相应权重对性状进行采样。与相关性状相关的连续性状是从正态分布向量中随机抽取的,其平均值和标准差与相关性状相等,相关强度为0.8。标准化是机器学习和深度学习中的一个关键步骤,目的是在分析中均匀化每个性状的权重。
我们探索了系统发育信号的强度如何影响不同插补方法的性能。为此,我们根据λ和κ模型改变了树的分支长度。λ转换会影响物种间由于共同进化历史而产生的性状相关性,即性状中的系统发育信号。当λ=0时,系统发育树的结果是星形系统发育,即内部分支的长度为0(见图S1b)。因此,模拟的性状在物种间独立进化。第二种转换是基于κ模型,它改变了分支长度,使进化过程从渐进式(κ=1,即性状变化与进化时间成正比)变为点状式(κ=0,即性状变化与分支发育事件的数量成正比)。我们使用λ=0.0001(模拟系统发育信号很小的性状)和κ=0(模拟点状进化模型下的性状)的重新缩放的树重复了性状模拟。
总之,我们在三种不同的进化情景下模拟了1080个数据集,每个数据集模拟100次,以决定将哪些模型纳入HV,每个数据集模拟20次,以测试插补结果。在支持信息中,我们对使用阈值进化模型模拟的分类性状进行了同样的评估。
我们按照文献中描述的MCAR、MAR和MNAR分布以及phyloNA分布,模拟了不同模式下的缺失值(以下简称NAs)。尽管我们只对第一个性状进行了插补评估,但所有13个性状都出现了NAs。唯一的例外是MAR值;在这种情况下,仅在第一个性状中模拟缺失值。使用R软件包missMethods 0.4按照5%、33%和50%(图S2-S4)三个分数模拟缺失值。
在分类性状中,缺失值的产生是为了使每个状态在NA赋值后仍然存在于性状中,但phyloNA缺失值除外。我们通过随机选择一个大于或等于缺失率的分支来模拟phyloNA值,并将随机选择的一些分支成员的所有性状值设置为NA,以满足指定的缺失数据比例。
我们评估了外推任务中性状插补的灵敏度,即当分类性状的缺失值完全出现在连续性状的极值时。在这种情况下,缺失值必须外推到观察值范围的边界之外,这可能会造成插补问题。我们模拟了100个数据集,这些数据集由两个不相关的连续性状(x1和x2)和一个3-state分类性状(y)组成。我们根据以下规则将分类性状模拟为连续性状值x1和x2的函数:
在这些设置下,状态y = 2要么与两个连续性状的小值相关,要么与两个连续性状的大值相关。然后,我们删除了所有与连续性状大值相关的y = 2性状(即x1 ≥ median(x1)和x2 ≥ median(x2))。这导致缺失数据分布在性状分布的一个极端(两个连续性状都很大),从而将插补转化为外推法。为了进行比较,我们还随机选择了相同比例的性状状态y = 1来产生缺失数据,这与连续性性状的值无关。然后,我们通过对两种缺失设置进行成对比较来评估插补性能。
我们测试了五种插补方法:(1)基于性状进化马尔可夫模型(PI)的系统发育比较方法(在corHMM中实现),(2)k-最近邻方法(kNN),(3)基于随机森林的非参数方法(missForest),(4)多项式逻辑回归(MICE),(5)基于生成对抗网络的深度学习方法(GAIN)。此外,我们还评估了一种基于硬投票的集合方法(以下简称HV),该方法结合了不同插补方法的输出结果,做出了多数预测。机器学习和深度学习方法可以对混合数据集(连续变量和分类变量)中的缺失值进行插补,而PI则根据性状的性质使用不同的模型,即分别针对分类性状和连续性状的马尔可夫模型或布朗运动模型。PI方法基于R库Rphylopars 1.1.0.9004和corHMM 2.8,而机器学习方法基于missForest 1.4、kNN 6.1.1和MICE 3.14.0软件包。我们还使用了一种基于生成对抗网络的深度学习方法,该方法在GAIN Python库中实现。有关插补方法和设置的更多详情,请参阅“支持信息”。
我们测试并比较了不同的插补策略(图1)。首先,我们仅使用基于性状数据的机器学习和深度学习方法来插补性状,而不使用系统发育信息。其次,我们在插补中加入了系统发育树,并运行了PI以及机器学习和深度学习方法,通过系统发育特征向量提供系统发育信息。我们使用PVR 0.3软件包进行了特征向量分解,并在插补中包含了一些能捕捉到95%树方差的特征向量。第三,我们采用两步法将PI与机器学习相结合,即在机器学习和深度学习插补之前,用第一次PI的输出来增强数据集。由于使用corHMM软件包的PI估计了与被插补物种的每个状态相关的相对概率,因此我们将完整的概率向量作为第二次插补的输入。最后,我们使用了HV集合方法,该方法汇总了多个模型的输出,并将投票最多的状态作为最终输出返回。根据单个模型的性能,我们选择了三个模型:没有系统发育数据的missForest以及基于两步策略的MICE和kNN。
我们从准确性和插补误差的角度对所有模拟中的不同插补方法和策略进行了基准测试,插补误差定义为正确(或错误)插补值占插补值总数的比例。我们计算了每个模拟数据集的准确率和误差,然后以平均值和标准差的形式总结了各重复数据集的准确率和误差。
我们从FishBase获得了一个板鳃类动物的经验性状数据集,并将其与一个全面的系统发育相结合。来自FishBase的性状数据已被广泛用于探讨板鳃类研究中的多个问题,包括其衰退的后果、其多样性与生态系统功能之间的关系、其分支中巨型化的演化、热生理学与生物地理学之间的联系、保护优先级标准的建立、其功能多样性以及现存物种化石记录的范围和质量等。这些研究中的缺失数据采用了不同的处理方法,从实施不同类型的插补,到排除所有缺失数据,结果减少了多达70%的数据。
性状数据集包括1015个现存物种的18个连续和分类性状,这些性状都存在于系统发育中。虽然我们的分析产生了数据库中所有缺失值的插补,但我们重点评估了四个分类性状的插补,我们能够对这些性状进行基于专家的独立评估(表1)。根据之前的工作(表1),我们对最大深度和长度这两个连续性性状进行了离散化处理。最大深度被转换为二元性状:x < 200 m(浅海层)和x ≥ 200 m(中海层),长度性状被转换为三种状态:小型(x < 150 cm)、中型(150 cm ≤ x < 300 cm)和大型(x ≥ 300 cm)。总体而言,四个选定的分类性状有2到5种状态,缺失值的数量从10到58不等,视性状而定(表S1)。
由于真实值未知,因此无法计算经验数据集的插补性状准确性。因此,我们通过两种方法来评估准确性:首先,我们将我们的预测与基于专家的方法进行比较,其中一位作者在看到插补管道生成的预测之前,根据先前的知识填补了空白(图2)。其次,我们随机选择了1%的已知性状标签,并将其视为缺失数据。这些性状的真值是已知的,通过对它们进行插补,我们可以估算出经验数据集的预期准确率(表S2)。我们重复了10次缺失值的添加和性状插补,以计算预期插补精度的平均值和标准偏差。我们使用MICE + PI、missForest、kNN + PI和HV对板鳃类性状进行了插补。
3 结果
为了总结我们的插补结果,我们首先合并了所有具有相同缺失数据率(5%、33%和50%)的模拟设置,对测试方法进行了整体排名。然后在不同的模拟场景中对排名进行剖析。总体而言,我们发现结合机器学习与系统发育比较方法的方法优于所有其他插补策略,而与系统发育信号水平、进化模型、缺失机制和数据集中的相关性数量无关(图3和表S3-S11)。对于由六个相关性状和六个独立于焦点性状的性状组成的模拟数据集,当缺失率为33%时,集合方法的平均准确率为71.8%(置信区间:69.2-74.5),比单独使用missForest高3.1%,比missForest + PI高2%,比kNN + PI高0.8%,比使用PI高6.2%(表S4)。在77.3%的比较中,集合方法的准确率高于或等于第二好的方法。当缺失数据比例变为5%或50%时,HV与其他方法之间的相对性能差异保持一致(表S3-S5)。
与使用系统发育特征向量作为附加特征(如kNN + pvr)相比,使用我们的两步插补方法(如kNN + PI)普遍提高了准确率,表现更好。例如,在缺失率为33%的情况下,kNN + PI方法的平均准确率比kNN高6.7%,比kNN+pvr高3.5%。MICE + PI的平均准确率比MICE + pvr高6.4%,但只比MICE高0.4%。相比之下,无论缺失率如何,GAIN都没有从两步策略中获益(表S4)。然而,当缺失率低至5%时,两步法并没有显著改善插补结果(表S3)。
在对由强相关性状组成的数据集进行缺失值插补时,无论系统发育信号如何,在大多数缺失机制中,集合方法都比PI提高了插补的准确性(图4)。例如,当系统发育信号较强且缺失值为MAR时,集合方法的准确性提高了约9.8%(图4)。在几乎没有系统发育信号的情况下(λ=0.0001),当缺失数据为MAR时,HV与PI相比提高了最大的准确率(29.6%,图4)。HV方法在几乎所有情况下都优于PI方法,包括缺失率为5%或50%的情况(表S12和S13)。当HV方法不是最佳方法时,例如在系统发育聚类缺失数据(phyloNA)的情况下,其性能与最佳方法(PI;图4)相当。
根据汇总结果(图3),在所有方案中,missForest的准确率仅次于HV,但其在不同方案中的表现差异较大。当缺失率为33%且缺失数据按MCAR或MAR分布时,在存在强系统发育信号的情况下,missForest的结果与HV相当(表S14和S15)。相反,当缺失值为MNAR时,missForest返回的插补结果准确率略低(表S16);当缺失值为具有强系统发育信号的phyloNA时,missForest的准确率比HV降低了32%(表S17)。我们在不同的缺失率中观察到了类似的模式(表S12-S23)。
当焦点性状独立于所有其他性状(即ρ=0.0)时,无论缺失机制和系统发育信号如何,最准确的方法是PI和missForest + PI,其次是HV(表S9-S23)。例如,在缺失数据为MNAR且系统发育信号很强的情况下,PI的准确率为82.8%(SD:20.3),比HV高2.3%(表S16b)。
不出所料,缺失率的增加与插补准确率的下降有关。例如,当缺失率为5%时,MNAR值的插补准确率为93.8%(SD:17.5)(表S21),而当缺失率为50%时,准确率降至71.3%(SD:25.3;表S22)。无论性状进化模型和所有缺失机制如何,缺失率越高,准确率越低,但phyloNA除外,其插补对缺失率很稳定(图5和图S5)。
缺失机制是影响插补结果的另一个重要因素(图5)。与基于MNAR或phyloNA的缺失值相比,基于MCAR或MAR机制的缺失值的插补更为准确,且各重复间的差异较小。例如,MCAR值的准确率为96.3%(SD:10.9)(表S14a),具有较强的系统发育信号,而MNAR值的准确率为72.7%(SD:27)(表S16a)。
当缺失值遵循MAR或MCAR缺失机制时,插补性状中系统发育信号的数量对HV插补的性能影响有限。系统发育信号强或弱(κ=0或λ=0.0001;表S14a和S15a)的模拟准确率相差5.1%。当缺失值基于phyloNA或MNAR时,这种影响反而更大,在这种情况下,HV插补的准确性在强系统发育信号和低系统发育信号之间降低了12.7%-26.7%(表S16a和S17a)。当缺失率为50%时,我们也观察到了类似的影响(表S13、S18、S20和S22),而当缺失率为5%时,即使存在MNAR值,插补也是准确的(表S21)。
当性状呈弱相关时,系统发育信号对准确性的影响更大(表S12b-23b)。当缺失值为MAR时,系统发育信号κ=0强或弱的模拟准确率相差33.3%(表S15b)。
性状之间的强相关性提高了插补的准确性。当性状之间存在强相关性时,MAR缺失值的插补准确率为96.2%(标准差:5.6);当性状独立时,MAR缺失值的插补准确率为83.3%(SD:17.4)(表S15)。然而,对于根据phyloNA机制缺失的值,这种差异并不明显(表S17)。
性状进化模型对HV插补的准确性也有一定影响(图5,图S6)。在数据缺失率为33%的情况下,与阈值模型相比,马尔可夫模型的MNAR值插补准确率高出7.2%(表S16a和S24)。对于简单PI而言,底层进化模型造成的性能差异甚至更大,这表明该方法对模型错误规范比机器学习更敏感。在数据缺失率为5%或缺失机制为MAR的所有情况下,并没有观察到这种准确性上的差异,这些值的插补准确率相同(表S12-S23和S25-S34)。
模拟结果表明,在外推法(即缺失会影响性状分布的一个极端)的情况下,所有方法的性状插补准确率都较低(图S7)。纯粹的机器学习模型,特别是missForest和kNN,表现得最差,PI的表现要好得多。然而,当系统发育信息被纳入插补(通过特征向量或我们的两步法)时,机器学习模型及其与HV方法的聚合表现与PI相似。我们的结果表明,在外推法的情况下,PI和MICE + PI是最准确的分类性状插补方法(图S7和S8)。
根据专家对缺失性状(即无法获得基本事实的性状)的评估,最大深度性状的插补准确率为81%,摄食类型性状的插补准确率为100%(图2)。虽然性状的状态频率是不平衡的,但估计的准确度水平超过了每个性状最常见状态的准确度水平(图2),这表明高准确度不仅仅是不平衡数据造成的。
在最大深度和长度方面,基于模拟缺失数据(即在我们的数据集中有基本事实)的插补准确率与基于专家的插补准确率相似(图2)。然而,对于摄食类型和摄食习性性状,模拟缺失数据的准确率分别比基于专家评估的准确率低17.3%和42.3%(表S2)。这一差异表明,我们的模拟方法可以作为一种保守的方法来估算经验性状的最低插补精度。
4 讨论
从不完整数据集中推测生物性状的可能性可以帮助我们用现实和准确的预测来填补知识空白,并可用于生态学和进化的下游分析。当直接观察难以填补这些空白时,如物种稀少或灭绝时,这一点尤为重要。例如,虽然软组织对确定动物生态学的关键特征非常重要,但它们很少保存在化石记录中。准确的插补可以帮助预测这些早已灭绝或稀有类群的拼图。例如,插补可用于预测在《国际自然保护联盟红色名录》中代表性不足的分类群的保护状况或恐龙的表型性状(如羽毛或夜视能力),这些特征在化石记录中很少保存。
通过大量的模拟,我们发现采用系统发育和机器学习相结合的方法可以对生物性状进行最稳健的插补。特别是将missForest预测与来自MICE和kNN以及PI的预测进行HV聚合,可获得最稳健、最准确的预测。当缺失值为MCAR、MAR或MNAR时,与单个插补方法相比,HV的准确性有所提高,这可能是由于不同的方法能够捕捉到数据中略有不同的信号。虽然我们的HV方法在不同的模拟设置中最为稳健,但其性能的变化确实反映了之前观察到的模式。例如,正如预期的那样,模型的准确性会随着缺失率的增加而降低,因为数据中的信息更少了。模型集合是机器学习和其他建模框架中的常见做法,已被证明能在气候预测、植被模型和物种分布模型等多种情况下提供稳健的预测。在进化生物学中,这主要在贝叶斯分析中的模型平均的背景下应用。我们的实验表明,基于系统发育的似然模型和机器学习方法的集合可以对生物分类性状做出更可靠的预测。
以前的工作表明,缺失机制对连续性状缺失值的插补准确性有很大影响,在包括分类性状的经验数据集中也是如此。我们的研究结果表明,分类性状的插补确实受到缺失值分布模式的强烈影响。在MCAR情景下,缺失值是无偏的,因此预测准确率最高,而偏离MCAR情景的预测结果普遍较差,MNAR机制导致的偏差最严重。提高MNAR值准确性的潜在解决方案是采用专门针对此类缺失机制设计的方法。
系统发育信号量化了相关物种彼此相似的趋势。因此,当系统发育信号较低时,物种亲缘关系的预测能力较低,可能导致插补准确率降低。我们的研究结果还突出表明,当数据集由强相关性状组成时,HV集合方法对系统发育信号的变化具有稳健性(表S12-S23)。这种准确性可能是由于模拟数据集中的焦点性状与其他一些性状之间存在相关性,因为这已被证明可以弥补系统发育信号的不足。事实上,我们对不相关性状的模拟显示,系统发育信号对预测准确性的影响更大。
我们发现,分类性状的进化模式对插补的准确性有很大影响。例如,与阈值模型相比,通过马尔可夫模型模拟的性状的准确率要高出7.2%(表S16a和S24)。这种准确率上的差异可能是由于所实施的PI方法的适当性造成的,在我们的实验中,PI方法假设了相对简单的马尔可夫模型,可能无法完全捕捉到阈值模型下产生的进化动态。PI和一般的系统发育比较分析的准确性取决于模型能否充分反映数据的性质和潜在的进化过程。
在理想情况下,性状插补应该能够利用系统发育关系以及与其他性状的相关性来推断缺失值,即使这些缺失值超出了观测范围。在某种程度上,连续性状进化的系统发育模型可以在推断祖先状态时做到这一点。例如,在模拟性状和经验性状中,具有正或负趋势的布朗模型会随着时间的推移改变预期平均值,从而推断出观察范围之外的祖先状态。据我们所知,机器学习方法对观测范围之外的生物性状进行推算的性能还有待深入探讨。
对于分类性状,在标准马尔可夫模型下,无法对数据集中未观察到的性状状态(例如现代鸟类分支中牙齿的存在)进行插补,在标准马尔可夫模型中,过渡矩阵通常是根据观察到的状态构建的。同样,机器学习和深度学习插补法也无法预测未观察到的状态,除非这些状态被明确纳入模型(例如,神经网络中输出层的类别)。在某些情况下,分类任务中可以识别出分布外数据(即未观察到的特征状态),因为这会导致预测不确定性增加,例如在贝叶斯神经网络中,尽管这并不能转化为对缺失类别的预测。与此相反,基于隐马尔可夫模型的系统发育模型可以推断出未观察到的性状状态的存在。未来,具有共变分类和连续性状的隐马尔可夫模型可能会为缺失性状值的插补提供新的解决方案,包括预测未观察到的性状状态。
在外推法实验中,我们发现当缺失数据跨越观察范围之外的相关性状空间区域时,插补准确率会显著降低。我们的结果表明,即使不涉及未观察到的分类性状状态,外推任务的准确率也会降低。在这种情况下,PI(忽略相关性状)和在预测因子中包含系统发育信息的机器学习的表现明显优于其他方法。总体而言,对于表型处于观测范围边界的物种,在解释插补结果时需要谨慎。
基于1015个板鳃类物种的经验数据集进行的分析证实,集合方法是一种可行的缺失值插补方法(图2)。与用性状的最常见状态或随机方式填补缺失值等简单方法相比,插补方法更为准确。这一结果同样适用于高度不平衡的性状,如摄食类型和摄食习惯。
我们的随机抽样方法提供了一个有用的工具来评估预测的准确性,即使是在经验数据集和缺乏对缺失数据的独立评估的情况下,我们也能评估插补的性能。这种方法在每种状态至少增加了1%的缺失值,表明HV是保守的,没有高估我们对插补值的置信度(图2)。这一评估对于评价某一性状的可插补程度非常重要,例如,评估结果表明,对于高度不平衡的摄食习惯性状,预期准确度较低。考虑到插补方法往往会用最常见状态的数据填补空白,从而扩大偏差,这并不意外。因此,这也解释了为什么随机抽样方法的准确率较低。在数据严重不平衡的情况下,准确率可能不是评估分类器性能的最佳指标,而接收者操作特征曲线(ROC)等可能是更好的指标。然而,对于具有两种以上状态的性状,这些替代指标的解释更具挑战性。因此,在适用的情况下,基于其他专家意见对插补进行独立评估,仍然是评估插补质量的重要方法。
文献信息
题目
Benchmarking imputation methods for categorical biological data
期刊
Method in Ecology and Evolution (IF = 6.3)
作者
Matthieu Gendre, Torsten Hauffe, Catalina Pimiento, Daniele Silvestro*
发布日期
2024 年 7 月 24 日
DOI
https://doi.org/10.1111/2041-210X.14339