原创解读 | Science | CASTER:全基因组时代物种树推断的新利器

学术   2025-01-25 00:00   海南  
在生物学研究中,“生命之树”——即描绘地球上所有物种进化关系的系统发育树,一直是理解生物多样性和进化历程的核心框架。构建准确的物种树对于比较基因组学、进化生物学、保护生物学等领域都至关重要。然而,随着测序技术的飞速发展,我们积累了海量的基因组数据,传统的物种树构建方法在面对这些复杂数据时,逐渐显现出其局限性。
系统发育不一致性带来的挑战
全基因组数据分析揭示了一个重要的现象——系统发育不一致性。这意味着,不同基因组区域可能具有不同的进化历史,彼此之间并不完全一致。这种不一致性主要来源于两个重要的生物学过程:
  • 不完全谱系分选 (Incomplete Lineage Sorting, ILS): 在物种快速分化过程中,祖先物种的遗传变异可能在后代物种中随机分选,导致不同的基因区域呈现不同的基因树拓扑结构,即使物种树本身是清晰的。
  • 基因重组 (Recombination): 基因重组使得染色体内部不同区域的遗传信息可以发生交换,导致基因组不同区域的进化历史发生分离。
传统上,基于 “基因串联” 的方法被广泛应用于物种树构建。该方法将多个基因的比对序列串联成一个“超级基因”,然后基于这个超级基因构建单一的系统发育树。然而,基因串联方法假设所有基因都具有相同的进化历史,忽略了系统发育不一致性的存在,这会导致物种树构建出现偏差,尤其是在 ILS 和重组现象普遍存在的基因组数据中。
两步法及其局限性
为了应对系统发育不一致性,研究人员发展出了“两步法”。该方法首先将基因组划分为多个独立的 “基因座 (Loci)”,然后分别基于每个基因座的数据构建基因树,最后通过 “物种树汇总 (Species Tree Summary)” 方法,将多个基因树的信息整合,推断出最终的物种树。
两步法在一定程度上缓解了系统发育不一致性的问题,但仍然存在一些局限性:
  • 基因座的划定难题: 两步法依赖于对基因组进行预先划分,划定一个个 “无重组” 且 “不连锁” 的基因座。然而,在基因组尺度上,准确划定这样的基因座非常困难,并且现有方法通常依赖于启发式规则或窗口滑动等近似方法,难以保证基因座的真正独立性和无重组性。
  • 基因座信息的损失: 为了避免基因座内的重组,两步法通常需要将基因座划定得较短,这会导致单个基因座的信息量有限,基因树估计的误差增大,进而影响最终物种树的准确性。此外,即使采用窗口滑动等方法,也无法充分利用整个基因组的信息,造成信息损失。
  • 计算可扩展性问题: 对于大规模基因组数据集,尤其是包含大量物种和个体的数据集,两步法的计算量依然非常庞大,难以高效地完成分析。
CASTER:直接从全基因组比对推断物种树
为了克服现有方法的局限性,本文介绍了一种全新的物种树推断方法:CASTER (Coalescence-aware Alignment-based Species Tree EstimatoR)。CASTER 是一种 “一步法 (One-step Method)”,它 直接从全基因组比对序列出发,无需预先划定基因座,也无需进行基因树估计,即可高效、准确地推断物种树。
CASTER 方法的核心思想是 “基于位点的四分体评分 (Site-based Quartet Scoring)”。对于每个 DNA 位点,CASTER 会评估其对于不同物种树拓扑结构的支持程度,并赋予相应的 “位点权重 (Site Weight)”。对于包含四个物种 (四分体) 的情况,CASTER 会考虑三种可能的物种树拓扑结构,并针对每个位点,计算其支持每种拓扑结构的权重。最终,通过 对所有位点和所有可能的四分体进行权重加和,得到每种拓扑结构的总体评分。得分最高的拓扑结构,就被认为是最佳的物种树拓扑结构(下图)。

CASTER 的关键创新点
CASTER 方法的优势和创新性主要体现在以下几个方面:
  • 理论基础坚实: CASTER 方法基于多物种合并理论 (Multi-species Coalescent, MSC),并在统计学上被证明是 “一致估计量 (Consistent Estimator)”。这意味着,当基因组数据量足够大时,CASTER 可以保证收敛到正确的物种树。
  • 无需基因座划定和基因树估计: CASTER 避免了传统两步法中基因座划定的难题和基因树估计的误差积累,直接利用全基因组比对信息, 最大限度地利用了数据信息
  • 计算高效且可扩展性强: CASTER 采用高效的算法,能够 线性扩展到超大规模基因组数据集,适用于包含数百个物种和个体、基因组大小达到千兆碱基对 (Gigabase) 级别的数据分析。这使得 “真 · 全基因组系统发育学分析” 成为可能。
  • 能够揭示基因组异质性: CASTER 在位点水平上进行评分,可以输出 “位点评分 (Site Score)”,用于评估基因组不同区域对于不同拓扑结构的支持程度。位点评分可以帮助研究者识别基因组中存在系统发育信号不一致的区域,进而深入探究造成这种不一致性的生物学原因,例如基因渗入、重组热点、选择压力等。
  • 鲁棒性强,适应多种进化模型: CASTER 方法被设计为在 多种进化模型下保持统计一致性,包括 JC69、F84 以及一类更广义的 “可聚马尔可夫模型 (Lumpable Markovian Models, LM Models)”。同时,CASTER 在模拟研究中展现出了 对 ILS、替换速率变异以及长枝吸引等系统发育分析挑战因素的强大鲁棒性
实验验证与生物学应用
为了验证 CASTER 方法的性能,研究人员进行了大量的模拟实验,并将 CASTER 应用于多个真实的生物学数据集:
  • 模拟实验: 模拟结果表明,CASTER 在准确性和计算效率上,都 显著优于现有的主流方法,包括基因串联法 (RAxML-ng)、基于不变量的方法 (SVDQuartets) 和两步法 (ASTRAL, wASTRAL, BPP)。尤其是在高 ILS、高替换速率变异以及大规模数据集的条件下,CASTER 的优势更为明显。
  • 哺乳动物基因组数据集:  将 CASTER 应用于包含 241 个哺乳动物物种的全基因组数据集,构建了高质量的哺乳动物物种树,并 发现了基因组中系统发育信号不一致的区域,揭示了潜在的杂交事件和同源性错误等生物学现象。
  • 鸟类基因组数据集:  将 CASTER 应用于包含 363 个鸟类物种的基因组数据集,分析了鸟类系统发育关系中的一些争议性节点,并利用位点评分, 探究了造成这些争议的原因,例如可能是小种群、杂交或者比对错误等。

总结与展望
CASTER 方法的出现,为全基因组时代的物种树推断提供了一个强有力的工具。它不仅 克服了传统方法在处理大规模基因组数据和系统发育不一致性方面的局限性,而且 提供了基因组异质性分析的新视角,有助于研究者更深入地理解生物进化和基因组变异的复杂性。
虽然 CASTER 已经取得了显著的进展,但研究人员也承认,该方法仍然存在一些局限性,例如目前 CASTER 主要输出物种树的拓扑结构,而没有直接提供分支长度的信息。未来,研究方向可能包括进一步扩展 CASTER 的理论框架,使其能够适应更广泛的进化模型和数据类型 (例如氨基酸序列、二元性状数据等),并进一步发展基于位点评分的基因组异质性分析方法,例如 开发更精确的算法,将基因渗入信号与比对错误等技术性伪影区分开来
总而言之,CASTER 方法代表了物种树推断领域的一个重要突破,它使得基于全基因组数据构建更加准确、可靠且信息丰富的生命之树成为可能,必将在未来的进化生物学研究中发挥越来越重要的作用。
GitHub
https://github.com/chaoszhang/ASTER
  全文
   https://www.science.org/doi/10.1126/science.adk9688
注:以上为谷歌最新AI解读,一字未改。小编仅添加了图片和全文链接。
扫描二维码关注我们
小麦族多组学网站:http://wheatomics.sdau.edu.cn
投稿、合作等邮箱:shengweima@icloud.com
微信群: 加群点击小麦研究联盟交流群


小麦研究联盟
本公众号意在分享小麦组学研究和生物信息学领域相关的知识,包括相关软件,方法,文章,编程相关的知识。bioinformatics
 最新文章