不完全谱系分选 (Incomplete Lineage Sorting, ILS): 在物种快速分化过程中,祖先物种的遗传变异可能在后代物种中随机分选,导致不同的基因区域呈现不同的基因树拓扑结构,即使物种树本身是清晰的。 基因重组 (Recombination): 基因重组使得染色体内部不同区域的遗传信息可以发生交换,导致基因组不同区域的进化历史发生分离。
基因座的划定难题: 两步法依赖于对基因组进行预先划分,划定一个个 “无重组” 且 “不连锁” 的基因座。然而,在基因组尺度上,准确划定这样的基因座非常困难,并且现有方法通常依赖于启发式规则或窗口滑动等近似方法,难以保证基因座的真正独立性和无重组性。 基因座信息的损失: 为了避免基因座内的重组,两步法通常需要将基因座划定得较短,这会导致单个基因座的信息量有限,基因树估计的误差增大,进而影响最终物种树的准确性。此外,即使采用窗口滑动等方法,也无法充分利用整个基因组的信息,造成信息损失。 计算可扩展性问题: 对于大规模基因组数据集,尤其是包含大量物种和个体的数据集,两步法的计算量依然非常庞大,难以高效地完成分析。
理论基础坚实: CASTER 方法基于多物种合并理论 (Multi-species Coalescent, MSC),并在统计学上被证明是 “一致估计量 (Consistent Estimator)”。这意味着,当基因组数据量足够大时,CASTER 可以保证收敛到正确的物种树。 无需基因座划定和基因树估计: CASTER 避免了传统两步法中基因座划定的难题和基因树估计的误差积累,直接利用全基因组比对信息, 最大限度地利用了数据信息。 计算高效且可扩展性强: CASTER 采用高效的算法,能够 线性扩展到超大规模基因组数据集,适用于包含数百个物种和个体、基因组大小达到千兆碱基对 (Gigabase) 级别的数据分析。这使得 “真 · 全基因组系统发育学分析” 成为可能。 能够揭示基因组异质性: CASTER 在位点水平上进行评分,可以输出 “位点评分 (Site Score)”,用于评估基因组不同区域对于不同拓扑结构的支持程度。位点评分可以帮助研究者识别基因组中存在系统发育信号不一致的区域,进而深入探究造成这种不一致性的生物学原因,例如基因渗入、重组热点、选择压力等。 鲁棒性强,适应多种进化模型: CASTER 方法被设计为在 多种进化模型下保持统计一致性,包括 JC69、F84 以及一类更广义的 “可聚马尔可夫模型 (Lumpable Markovian Models, LM Models)”。同时,CASTER 在模拟研究中展现出了 对 ILS、替换速率变异以及长枝吸引等系统发育分析挑战因素的强大鲁棒性。
模拟实验: 模拟结果表明,CASTER 在准确性和计算效率上,都 显著优于现有的主流方法,包括基因串联法 (RAxML-ng)、基于不变量的方法 (SVDQuartets) 和两步法 (ASTRAL, wASTRAL, BPP)。尤其是在高 ILS、高替换速率变异以及大规模数据集的条件下,CASTER 的优势更为明显。 哺乳动物基因组数据集: 将 CASTER 应用于包含 241 个哺乳动物物种的全基因组数据集,构建了高质量的哺乳动物物种树,并 发现了基因组中系统发育信号不一致的区域,揭示了潜在的杂交事件和同源性错误等生物学现象。 鸟类基因组数据集: 将 CASTER 应用于包含 363 个鸟类物种的基因组数据集,分析了鸟类系统发育关系中的一些争议性节点,并利用位点评分, 探究了造成这些争议的原因,例如可能是小种群、杂交或者比对错误等。
https://www.science.org/doi/10.1126/science.adk9688