MEE | 为分类生物数据的估算方法设定基准

学术   2024-07-26 02:55   法国  

Gendre M, et al. (2024). Benchmarking imputation methods for categorical biological data. Methods in Ecology and Evolution, doi: 10.1111/2041-210X.14339.


(2024年7月24日发表)


摘要参考翻译:性状数据集是大量生态学和进化论研究的基础,可用于推断祖先形态、量化物种灭绝风险或评估生物群落的功能多样性。然而,这些数据集经常受到数据缺失的困扰,例如,由于取样不完整、数据有限和资源可用性等原因。目前有几种预测缺失值的估算方法,最近的研究探讨了这些方法在生物数据集连续性特征方面的性能。然而,人们对这些方法用于分类性状的准确性知之甚少。本文结合系统发育比较方法、机器学习和深度学习模型,探索了不同估算方法在分类生物性状上的性能。为此,我们开发了一个开源R软件包,用于对性状数据进行估算,同时整合了一个模拟框架,以评估它们在合成数据集上的性能。我们在不同的缺失率、机制、偏差和进化模型下运行了一系列模拟。我们提出了系统发育比较方法和机器学习估算之间的整合方法,以及一种组合方法,其中结合了选定的估算方法。我们的模拟结果表明,这种方法能提供最稳健、最准确的预测。我们将我们的估算管道应用于1015种板鳃类(elasmobranch)物种(如sharks、rays、skates)的不完整性状数据集,发现基于专家对缺失性状的评估,估算预测的准确率很高。总之,我们的R软件包有助于比较多种估算方法,并对缺失性状值进行稳健预测。我们的研究凸显了将系统进化模型与机器学习推断结合起来以扩充不完整生物数据集的好处。

比较不同估算方法在估算分类特征时的性能的流程


点击下方“阅读原文”可查看英文全文。


声明:本内容未向其他微信公众号投稿。

EcoloJi
生态学泛读。分享(我以为)有趣的科研动态和方法。
 最新文章