在疾病生态学研究中,病原体的基因多样性动态是核心研究内容之一。病原体在不断变异过程中,其适应性增强的谱系可能会出现,而这对公共卫生可能产生深远的影响。然而,识别此类谱系并估计其适应性是一项具有挑战性且耗时极高的工作,尤其是在缺乏密集采样的体系中。为此,来自剑桥大学的研究团队在世界级顶刊Nature上发表了题为《Learning the fitness dynamics of pathogens from phylogenies》的论文。研究团队提出了一种名为phylowave的可扩展方法,它能够总结系统发育树中群体组成的变化,实现基于共享适应性和进化关系的谱系自动检测。这种方法可以实时监测病原体演化,从而支持公共卫生行动,并探索病原体适应性的基本驱动因素。
这篇论文探讨了病原体基因多样性的动态变化,尤其是那些具有更高适应性的新谱系的出现,这在疾病生态学中是一个基础概念,并对公共卫生有重要影响。然而,识别这些谱系并估计其相关适应性仍然具有挑战性,尤其是在样本密集度较低的系统中。为此,研究团队开发了一种名为phylowave的可扩展方法,通过总结系统发育树中种群组成的变化,自动检测基于适应性和进化关系的谱系。研究人员将该方法应用于一系列病毒和细菌(如SARS-CoV-2、H3N2流感、百日咳博德特菌和结核分枝杆菌),包括研究充分和研究不足的健康威胁,证明phylowave能够恢复每种病原体的主要已知循环谱系,并检测到与适应性变化相关的特定氨基酸变化。此外,phylowave还识别出先前未检测到的适应性增强的谱系,如三种共同循环的百日咳博德特菌谱系。该方法对不均匀和有限的观察具有鲁棒性,为实时监测病原体进化以支持公共卫生行动和探索病原体适应性的基本驱动因素提供了一条途径。大多数病原体的菌株组成不断变化。为了逃避宿主免疫、环境变化或改变感染和传播能力的压力,会导致一些具有更高适应性的谱系出现,而其他谱系灭绝。这些基因多样性的动态模式是疾病生态学的基本方面,也可能对公共卫生产生重要影响,因为这些变化可能意味着,例如,从疫苗衍生或先天免疫中逃逸或传播能力的提高。然而,识别具有不同适应性水平的谱系,即在种群中传播能力不同的谱系,尤其是在SARS-CoV-2或流感等高基因采样病原体系统之外,仍然困难。在种群水平上识别具有改进适应性的谱系可以通过有针对性的疫苗接种等方式实现重点公共卫生响应,并提供对疾病系统潜在生态学的关键见解。研究发现,phylowave能够识别出每种病原体的主要已知循环谱系,并检测到与适应性变化相关的特定氨基酸变化。此外,该方法还识别出以前未检测到的适应性增强的谱系,例如三种共循环的百日咳博德特氏菌谱系。phylowave在面对不均匀和有限的观察数据时表现出稳健性,为实时监测病原体进化提供了一种广泛适用的方法,以支持公共卫生行动并探索病原体适应性的基本驱动因素。研究表明phylowave能够有效地识别和量化病原体谱系的适应性差异,并将这些差异与基因组变化联系起来。通过对SARS-CoV-2、H3N2、百日咳博德特氏菌和结核分枝杆菌的应用,phylowave不仅恢复了已知的主要循环谱系,还识别出以前未被发现的适应性增强的谱系。研究还发现,phylowave在检测新兴谱系方面具有快速性和鲁棒性,即使在数据采样不均的情况下也能有效运行。这一方法为公共卫生监测提供了重要的工具,能够及时识别新兴病原体谱系,并为目标干预措施提供数据支持。
研究团队应用此方法分析了多种病毒和细菌(包括SARS-CoV-2、流感A H3N2、百日咳博德特氏菌和结核分枝杆菌),展示了该方法在识别已知和未被发现的具有更高适应性谱系方面的有效性。 1. 实时监测病原体演化:phylowave提供了一种实时监测病原体演化的途径,能够帮助公共卫生机构及时识别新出现的、高适应性的病原体谱系。这对制定针对性干预措施,尤其是在疫情爆发期间,有重要意义。 2. 增强公共卫生响应能力:通过精确识别和量化谱系的相对适应性,公共卫生决策者可以更好地理解流行病学动态,进行更有针对性的公共卫生响应,如疫苗接种策略的调整。 3. 揭示病原体生态学驱动因素:该方法不仅有助于识别适应性变化背后的潜在驱动因素,如自然感染或疫苗接种导致的群体免疫,还能通过基因组变化的识别,提供可测试的生物学假设。 4. 应对新兴病原体威胁:在及时的病原体基因组测序和分析的支持下,phylowave可以帮助公共卫生系统更快地应对新兴病原体威胁,减少潜在疾病传播的风险。 综上所述,phylowave不仅在学术研究中具有重要价值,也在提升公共卫生监测和响应能力方面具有广泛的应用前景。
研究的核心是利用系统发育树的分支模式和基因距离在不同时间点的变化,来识别和追踪具有不同适应性(fitness)的病原体谱系。这种方法的亮点在于,它不依赖于预先定义的谱系或单个突变,而是通过基因距离的动态变化来检测谱系的适应性差异。1. 指数计算:为系统发育树中的每个节点(包括内部和末端节点)计算一个基于基因距离的指数。这个指数反映了每个节点在其采样时间点的“流行病成功度”,即节点在某一时间点上与其他节点的基因距离的加权和。2. 谱系检测:通过广义加性模型(GAM)分析这些指数的时间动态,自动检测具有不同适应性的谱系。这个步骤不依赖于任何先验的谱系定义,而是根据指数动态的变化来检测谱系。3. 适应性量化:应用多项式逻辑模型,将检测到的谱系在时间上的比例进行拟合,从而量化每个谱系的相对增长率(即相对适应性)。4. 突变关联分析:识别与谱系适应性变化相关的特定基因变异,即谱系定义突变。这些突变是通过比较各个谱系之间的序列差异来检测的。5. 验证与应用:通过模拟研究和实际病原体数据(如SARS-CoV-2、H3N2流感、百日咳杆菌和结核分枝杆菌)验证phylowave的效果。研究表明,phylowave不仅能识别已知的主要流行谱系,还能发现以前未检测到的适应性增加的谱系。
图1:通过跟踪指数动态变化来追踪群体组成的变化
Figure 1 展示了通过指数动态变化来追踪群体组成变化的原理。
首先,展示了一个时间分辨的系统发育树,其中包含一个背景群体(灰色)和一个新出现的谱系(绿色)。接着,展示了从终端节点A或终端节点B到群体其余部分的成对距离分布,其中虚线蓝色线表示几何加权。最后,展示了预期的指数动态随时间的变化。
图2:已识别谱系与已知群体组成的比较
Figure 2 旨在比较通过研究识别的谱系与已知群体组成之间的关系,采用时间分辨的系统发育树和热图进行可视化展示。
A. 通过时间分辨的系统发育树和热图对SARS-CoV-2的谱系进行分析,结果显示识别的谱系与Phylowave自动分类的谱系之间存在一定程度的一致性,热图中颜色较深的区域表示两种分类方法之间的一致性较高。
B. 对H3N2的谱系进行时间分辨的系统发育树和热图分析,结果表明识别的谱系与Phylowave自动分类的谱系在某些区域具有较高的一致性,深色区域表示一致性较强。
C. 通过时间分辨的系统发育树和热图对百日咳杆菌(B. pertussis)的谱系进行比较,结果显示识别的谱系与Phylowave自动分类的谱系在多个区域显示出较高的一致性,深色区域代表一致性较高。
D. 对结核分枝杆菌(M. tuberculosis)的谱系进行时间分辨的系统发育树和热图分析,结果显示识别的谱系与Phylowave自动分类的谱系在某些区域具有较高的一致性,深色区域表示一致性较高。
结论:通过时间分辨的系统发育树和热图分析,研究识别的谱系与Phylowave自动分类的谱系在不同病原体中显示出不同程度的一致性,表明识别方法在一定程度上能够反映已知群体组成。
Figure 3 旨在评估不同病原体谱系的适应度,以便了解它们在时间上的变化趋势。
A-D. 为了评估每种病原体的适应度,对SARS-CoV-2(a)、H3N2(b)、百日咳(c)和结核分枝杆菌(d)进行了模型拟合。对于每种病原体,展示了五个最常见群体的模型拟合结果。
E-H. 分析了SARS-CoV-2(e)、H3N2(f)、百日咳(g)和结核分枝杆菌(h)在时间上的相对适应度变化。
结果显示,这些病原体的相对适应度在时间上存在变化。结论:通过对不同病原体谱系的适应度进行模型拟合和时间分析,研究揭示了这些病原体在时间上的适应度变化趋势。
图4:系统发育特征的遗传突变
Figure 4 展示了不同病原体的系统发育特征及其遗传进化情况。
A-D. 为了展示不同病原体的系统发育特征,绘制了系谱树,显示了病原体之间的亲缘关系。图中重点标出了SARS-CoV-2(a)、H3N2(b)、百日咳杆菌(c)和结核分枝杆菌(d)的关键分支。
E-H. 为了分析每种病原体的系统发育特征,研究了各病原体基因组中的特征性突变。这些突变定义了不同的系统发育特征。
结论:通过分析不同病原体的系谱树和基因组中的特征性突变,研究揭示了这些病原体的遗传进化特征和系统发育特征。
图5:phylowave对采样强度和谱系检测时间的稳健性Figure 5 评估了·phylowave在不同采样强度和谱系检测时间下的稳健性。
A. 为了测试phylowave对时间上均匀采样的稳健性,从全球SARS-CoV-2树中仅保留了150个序列,并进行了分析。结果显示,phylowave在时间上均匀采样的情况下,仍能保持稳健的性能。
B. 为了测试phylowave对时间上不均匀采样的稳健性,同样从全球SARS-CoV-2树中仅保留了150个序列,并进行了分析。结果显示,phylowave在时间上不均匀采样的情况下,仍能保持稳健的性能。
C. 为了评估谱系检测所需的时间,进行了时间分析。结果表明,phylowave能够在合理的时间内检测到谱系。
结论:phylowave在不同采样强度和谱系检测时间下表现出稳健性,能够有效地进行谱系检测。
这篇论文介绍了一种名为phylowave的新方法,用于从系统发育树中自动检测具有不同适应度的病原体谱系。通过分析多个病毒和细菌(如SARS-CoV-2、H3N2、百日咳鲍特菌和结核分枝杆菌),phylowave能够恢复已知的主要流行谱系,并识别出以前未检测到的具有更高适应度的谱系。phylowave的推断在不均匀和有限的样本中仍然稳健。该方法广泛适用,可以实时监测病原体的进化,从而支持公共卫生行动,并探索病原体适应度的基本驱动因素。
研究指出大多数病原体的菌株组成不断变化,这与宿主免疫逃逸、环境变化或感染和传播能力的变化有关。这些动态的遗传多样性模式是疾病生态学的基本方面,具有重要的公共健康意义。现有方法在监测谱系适应度时依赖于独立定义的菌株或分支定义,然而这些定义通常基于共识意见和氨基酸差异的任意阈值,与基础适应度差异无关。phylowave通过基于系统发育树的方法提供了一种替代策略,通过检测系统发育树中的分支模式来推断谱系的适应度。
研究强调phylowave能够在样本数据严重偏倚的情况下,无偏地跟踪系统发育树中群体组成的变化。他们展示了phylowave在多种病原体中可以恢复主要已知的循环谱系,并识别出先前未知的具有显著适应度变化的谱系。该方法可以量化每个谱系的相对适应度,并识别与新、更适应谱系的出现相关的遗传变化。集成到公共卫生监测中,phylowave可以及时识别新出现的菌株,促进有针对性的干预。这项工作还为识别可能推动病原体适应度变化的潜在驱动因素提供了可测试的生物学假设。