MBE | 通过机器学习预测系统发育的Bootstrap值

学术   2024-10-20 02:56   法国  

Wiegert J, et al. (2024). Predicting Phylogenetic Bootstrap Values via Machine Learning. Molecular Biology and Evolution, msae215, doi: 10.1093/molbev/msae215.


(2024年10月17日发表)


摘要参考翻译:估计推导出的进化树的统计稳健性是大多数系统发育分析的重要组成部分。通常,人们会为推导出的系统树的每一个内部分支计算并分配一个分支支持值。对于在最大似然(ML)条件下推导的进化树,计算分支支持的最广泛使用的方法仍然是标准的、非参数的Felsenstein Bootstrap Support (SBS)。由于SBS的计算成本较高,已经开发了大量方法来对其进行近似,例如通过Rapid Bootstrap(RB)算法。此外,也有尝试设计更快的替代支持度测量方法,如SH-aLRT(类似Shimodaira-Hasegawa的近似似然比检验)或UltraFast Bootstrap 2(UFBoot2)方法。这些更快的替代方法有一些局限性,例如需要评估模型违反情况(UFBoot2)或在低支持区间内表现不稳定(SH-aLRT)。在此,我们提出了Educated Bootstrap Guesser(EBG),一种基于机器学习的工具,可以预测给定输入系统树的SBS分支支持值。EBG的速度平均比UFBoot2快9.4倍(σ=5.5)。基于EBG的SBS估计在预测0到100之间的SBS值时,中位绝对误差为5。此外,EBG还为所有每个分支的SBS预测提供了不确定性度量,从而允许进行更严格和谨慎的解释。例如,EBG可以在一台中档笔记本电脑上,在3小时内预测包含1654个SARS-CoV2基因组序列的系统树的SBS支持值。EBG在GNU GPL3下可用。

EBG特征生成和预测概述


点击下方“阅读原文”可跳转至文章页面,下载PDF文件查看英文全文。


声明:本内容未向其他微信公众号投稿。

EcoloJi
生态学泛读。他山之石,(说不定)可以攻玉。
 最新文章