本篇推荐中山大学博士研究生邹丹,中山大学周素红教授(本文通讯作者)、中山大学博士生廖伊彤,香港中文大学博士生王林森合作发表在Annals of the American Association of Geographers的文章:
Spatiotemporal variations of COVID-19 variants in 100 countries: exploring spatial patterns and time-lag effects
https://doi.org/10.1080/24694452.2024.2346728
该文揭示了微观要素演化(病毒基因突变)的宏观(全球)效应,为公共卫生政策制定提供了有价值的参考。
论文利用可解释性机器学习等方法对来自全球100个国家的超过一千万条新型冠状病毒基因序列元数据进行时空分析,发现不同国家的新冠变异株相对频率的相似程度呈现地理邻近的空间模式;文章通过分析相关因素,发现国家间的双边距离是产生这种地理邻近的空间模式的主要原因,而疫情干预政策严格指数与全球化指数则解释了空间分布上的非邻近性以及特征影响的时间动态变化;最后文章揭示了新冠病毒SARS-CoV-2变异株更替与疫情浪潮之间的时间滞后关系以及滞后长度的空间异质性。文章从时空视角出发,汇集海量个体基因序列元数据,为从宏观尺度探究大规模传染病流行现象提供了研究思路,同时研究结果对于国家尺度的传染病干预政策制定具有重要意义。
1
引言
COVID-19疫情对全球造成了负面影响,并提醒我们未来潜在的公共卫生危机。已有证据表明这场疫情的长期持续主要归因于SARS-CoV-2病毒的不断变异。因此,了解疫情期间SARS-CoV-2变异株的时空规律对于未来全球卫生危机的有效应对策略至关重要。
以往关于病毒演变的研究主要集中在病毒学和流行病学领域。病毒学分析病毒本身的特征,例如传染性、病毒载量和免疫逃避能力等。流行病学利用调查数据来确定感染和传播的潜在时间,并描述病毒传播动态。进而使用数学模型来推断不同地区或国家的时变生殖数和不同变异株的传播能力。然而,这些关于病毒演变的研究依赖于数据和模型假设,其结果通常基于局部地区的数据,难以应对复杂的地理空间变化。
基于地理视角的分析研究可以通过独特的时空视角为疫情干预提供支持。大量研究致力于识别影响病毒传播的因素,包括人类移动行为,政策干预,以及城市化和气温等。这些研究引发了一个有趣的问题,即SARS-CoV-2变异株的空间分布是否受到这些因素的影响,从而呈现出特定的地理模式?已有研究观察到六大洲上SARS-CoV-2谱系频率的空间变化,提出基于不同患者和地点的SARS-CoV-2分子特异性来促进定制的抗病毒策略。然而,这些研究存在两个局限:首先,基于大陆划分的静态对比结果忽略了变异株的原有空间模式。同时,这些研究假设地理邻近性是主要的影响因素,但忽视了全球化背景下国家间联系网络的作用。因此,需要进一步研究来确定SARS-CoV-2变异株的空间模式是受地理邻近性还是非地理邻近性的主导影响。另一个重要限制是缺乏对时间维度的考虑。考虑时间变化对于捕捉SARS-CoV-2变异株在不同地区的扩张和衰减,以及塑造空间异质性至关重要,也对制定有效的策略具有重要意义。
SARS-CoV-2变异株的时间变化还具有预测未来疫情浪潮的潜力。尽管大多数COVID-19预测模型依赖于流行病学分析,但已有研究表明通过探索新型SARS-CoV-2变异株的基因组序列,具有提高模型准确性的潜力。研究表明,像Alpha、Beta和Delta等SARS-CoV-2变异株(VOCs)的出现与后续感染浪潮存在关联。此外,已有研究通过模型在个别国家或城市证实了变异株的出现与COVID-19大流行的多浪潮模式的相关性,并开发出生物信息学工具,用于预测COVID-19浪潮的到来。因此,变异株监测数据具有预测COVID-19病例的激增的潜力。
然而,目前缺乏足够的证据来确定这种关联在全球各国家的普遍性,也没有统计信息描述新变异株出现与新增病例增加间的时间滞后期。此外,我们也不清楚这种关联及时间滞后期是否存在空间异质性。根据已有研究,文章提出假设认为这种时间关联的空间变化很可能与SARS-CoV-2变异株的空间分布有关,因其受到变异株的特性以及其它地理因素的影响。因此,本文提出了一个基于可解释性机器学习和时滞分析方法的框架,利用来自全球100个国家上传的 1000 多万条 SARS-CoV-2 基因组序列元数据进行分析。
2
研究方法
图1 研究框架
使用来自100个国家的新冠病毒基因序列元数据和世界卫生组织(WHO)提供的每日新增确诊病例数据进行研究,时间范围从2020年7月到2022年5月。
本文首先使用不同国家的基因序列元数据,根据采样时间和病毒变异株类型(VOCs和VOIs,即Variants of Concern和 Variants of Interest)构建了多维时间序列,用于描述不同变异株相对频率的动态变化。然后,使用动态时间规整(DTW)方法计算各国家之间的多维时间序列相似度,以实现对100个国家的聚类,识别病毒变异株分布的空间模式。接着,采用可解释机器学习的方法,利用国家双边距离、干预政策严格指数、全球化指数等指标,探究影响病毒变异株分布空间模式的相关因素。最后,构建了变异株相对频率日变化时间序列(The DV in relative frequency)和新增病例增长率序列(The Growth Rate),通过检验二者之间的格兰杰因果关系,验证是否可以根据区域内变异株相对频率的变化预测新增病例的变化,并分析二者的时间滞后长度。
3
研究结果
图2 各国VOCs/VOIs相对频率分布时间序列的
聚类结果空间分布
根据图2,可以观察到各个聚类中的国家间存在明显的地理邻近性。这表明在较近的地理距离范围内,国家的VOCs/VOIs相对频率分布倾向于更加相似。此外,某些聚类涵盖了较大的地理范围(例如,Cluster#2和Cluster#6)。同时特定地理区域内也会存在多个聚类(Cluster#3和Cluster#4)。这一发现表明,尽管地理邻近性主要影响着空间模式,但仍然存在一些“远距离相似性”和“相邻异质性”的情况。
图3 特征对国家间DTW距离
(VOCs/VOIs相对频率分布时间序列相似程度)预测的影响
在影响国家间变异株相似程度的特征方面,存在几个贡献度不同的重要因素(图3A)。其中双边距离(bilatDis)最重要,其次是全球化指数(lowerGI和higherG)。同时,干预政策的严格程度指数(Stringency Index)也起到了重要作用,移民占比指数(IMM和EM)的重要性低于预期。同时,特征的重要性在不同阶段存在变化。这种变化可能与各阶段的干预政策严格指数相关。
Granger因果性检验证明了各个国家SARS-CoV3变异株的动态变化与确诊病例波动之间的时间因果关系。具体而言,通过稳定性检验的89个国家中, 78个国家存在显著的格兰杰因果关系,即可以根据变异株的变化预测新增确诊病例的变化。而二者时间滞后长度主要集中于20~38天,时间滞后长度随变异株种类和地理聚类变化而变化(图4)。
图4 不同变异株种类的地理聚类的时间滞后长度
4
总结与讨论
本研究的贡献体现在以下两方面:首先,文章揭示了以地理邻近性为主导的SARS-CoV-2变异株相对频率分布的空间模式,并发现国家双边距离,全球化指数和干预政策严格程度指数对该模式具有重要影响。其次,通过对基因序列大数据分析,文章发现变异株的时间变化与新增病例的变化存在普遍的前后关联,并且其时间滞后长度也与空间模式相关。
文章从宏观时空角度探究微观个体病毒基因序列,充分考虑了尺度效应。以国家为基本单元进行分析不仅考虑了国家在传染病防控过程中独立自主决策的实践影响,同时也突破了以往中微观研究的发现,为相关理论知识提供了补充。此外,本研究还具有较强的实践意义。研究所建立的与传统大洲不同的地理划分强调了不同分区内病毒发展的相似性。这种相似性为资源有限、难以监测传染病毒的国家提供了一种优化成本并及时预警传染病的潜在方案。
论文出处:
Zou Dan, Zhou Suhong*(Correspondence), Liao Yitong, & Wang Linsen. Spatiotemporal Variations of COVID-19 Variants in 100 Countries: Exploring Spatial Patterns and Time-Lag Effects. Annals of the American Association of Geographers. 2024,5.
https://doi.org/10.1080/24694452.2024.2346728