点击蓝字
关注我们
作者:张加瑞,孙众,邓琦,俞艺丹,奠星月,罗娟,Thilakavathy Karuppiah,Narcisse Joseph,何国忠
第一作者及单位:张加瑞,昆明医科大学公共卫生学院;孙众,马来西亚博特拉大学, 马来西亚雪兰莪
通讯作者及单位:何国忠,昆明医科大学公共卫生学院
研究背景
在全球范围内,结核病仍然是十大死亡原因之一,并且是单一传染病的主要死亡原因,超过了HIV/AIDS。2022年,约有1060万人患结核病,130万人死于结核病。
COVID-19大流行对结核病控制带来了积极和消极的影响。一方面,封控和保持社交距离等遏制措施通过限制社交互动减少了传播,另一方面,由于不堪重负的医疗保健系统、结核病诊断、治疗和报告的延误严重制约了结核病防控。我国卫生服务的中断导致结核病病例报告数量大幅下降,引发了人们对未确诊病例的担忧,这可能会增加未来的结核病发病率。
在大多数采用时间序列模型进行疾病预测的研究中,研究人员主要关注模型拟合、预测和性能评估。然而,本研究的目标是超越单纯的预测,通过应用这些预测模型来分析肺结核(pulmonary tuberculosis,PTB)发病率模式的变化。考虑到COVID-19和结核病之间的复杂相互作用,本研究旨在评估不同时间序列模型在预测我国COVID-19大流行之前、期间和之后的肺结核趋势方面的表现,探讨COVID-19大流行对肺结核发病模式的潜在影响,强调时间序列模型在分析肺结核趋势中的实用性。所获得的见解将填补有关COVID-19对肺结核长期影响的知识空白,并为未来肺结核发病率预测和公共卫生策略选择预测工具提供科学依据。
研究方法
一、数据来源和准备
本研究分析了从中华人民共和国国家卫生健康委员会(http://www.nhc.gov.cn/)获得的2007年1月至2023年12月肺结核每月发病率数据。该数据集包括来自我国33个省、市、自治区的报告。通过严格检查数据质量,以确保准确性和一致性。使用线性插值法(适用于时间序列数据的方法)处理缺失值。通过Z评分检测离群值,并使用winsorizing进行调整,以最大限度地降低其对模型准确度的影响,而不会扭曲总体趋势。使用每年的人群数据计算每100,000人的年发病率。研究设计和方法如下图所示。
二、研究方法
1.描述性统计分析:为了更好地理解COVID-19疫情对我国肺结核的影响,我们首先对2007年至2023年间我国肺结核的年度发病人数和发病率进行了描述性统计分析。年度发病率通过将每年报告的肺结核病例总数除以当年人口数,然后乘以100,000,得到每10万人中的发病率。使用折线图展示年度肺结核发病人数和发病率的变化趋势。此外,计算了年均变化率(Annual Percentage Change, APC),用于衡量每年发病人数和发病率的变化百分比,其计算公式为:
2.时间序列分析:使用2007-2018年COVID-19暴发前的肺结核数据拟合SARIMA、Prophet和LSTM模型,评估三种模型预测肺结核发病率趋势的能力。然后,将这些模型应用于COVID-19大流行期间(2020-2023年)预测肺结核发病率模式,比较预测值与实际值,利用预测值与实际值之间的偏差来反映COVID-19防控对肺结核发病率的影响。使用平方平均数误差(Root Mean Square Error,RMSE)、平均绝对误差(Mean Absolute Error,MAE)和平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)评价模型拟合效果。
3.统计分析:使用R 4.2.2软件构建SARIMA模型和Prophet模型,使用Python 3.12构建 LSTM模型。分析重点是评估模型拟合、预测准确性和残差模式,以确保预测的可靠性。
研究结果
一、全国肺结核发病率趋势(2007-2023年)
2007年1月至2023年12月,我国共报告肺结核病例19,840,536例,平均每月97,257.53例。在这17年期间,年发病率稳步下降,从2007年的88.55 / 10万下降到2023年的37.24 / 10万。这种持续下降反映了肺结核控制措施的显著改善。在2020年至2022年期间我国肺结核报告病例数显著减少,此时恰逢COVID-19大流行。
2019年我国报告病例1,034,760例(55.55 / 10万),2020年下降到876,576例(47.76 / 10万),病例数下降15.25%,发病率下降14.05%。这种下降趋势持续到2021年和2022年,病例进一步减少到712,586例,发病率降至每10万人39.76例。然而,到2023年,肺结核病例反弹至773,512例,比2022年增加8.55%。尽管病例数有所上升,但发病率继续略有下降,估计为37.24/ 10万(下降6.34%)。
二、COVID-19暴发前肺结核发病模式和季节性(2007-2018年)
从2007年1月至2018年12月,我国共报告15,636,118例肺结核病例,月均发病数为108,584.15例,年发病率从88.55/10万下降至59.27/10万,总体呈现下降趋势。对原始系列的自相关函数(ACF)和偏自相关函数(PACF)的分析显示,当滞后设置为12个月时,自相关和偏自相关值达到峰值,超过边界限制。这表明数据具有强烈的季节性且周期为12个月,表明肺结核的发病率遵循年度模式。
为了进一步探索这些趋势,应用 LOESS 平滑法将发病率数据分解为趋势、季节和不规则分量。研究发现1月、2月和10月一直是每年病例数最少的月份,而3月至5月的发病率最高,并确定了两个年度发病高峰:春季(3月至5月)为高峰,12月为次高峰。这些发现有力地支持了肺结核传播存在季节性特征,春季是肺结核防控的最关键时期。
三、模型构建与性能分析
使用2007年1月至2018年12月的每月肺结核病例数据来训练三种不同的模型:SARIMA、 Prophet 和 LSTM,旨在捕捉我国 COVID-19暴发前的肺结核发病模式。三个模型提供了与2007年至2018年实际结核发病率数据非常吻合的结果。在这些模型中,Prophet 得到的 MAPE 最低,表明历史数据的整体拟合最好,其次是 SARIMA。
四、COVID-19暴发后肺结核发病模式分析(2020-2023年)
1.我国肺结核发病趋势分析(2020-2023年):在COVID-19暴发后,我国肺结核病例数量和发病率均显著下降,这种下降趋势持续到2021年和2022年。COVID-19大流行前(2007-2019年)肺结核发病率的年均下降率为3.85% ,发病率为3.68% 。在COVID-19大流行期间(2020-2022年),这些下降速度急剧加快,病例数平均为11.58% ,发病率平均为10.80%。然而,到2023年,肺结核发病率开始出现复苏迹象,病例数上升至773,512例,比2022年上升8.55% ,而发病率继续略有下降至37.24/10万(估计),降幅为6.34% 。这些数据表明,大流行后肺结核的动态发生了变化,病例数量开始反弹,但总体发病率仍低于COVID-19大流行前的水平。这种差异可能反映了COVID-19对肺结核传播的持续影响,以及医疗服务可用性或病例发现率的潜在变化。
2.基于时间序列模型的COVID-19暴发后肺结核发病模式分析:为了进一步探索COVID-19对肺结核发病率的影响,我们应用 SARIMA、 Prophet 和 LSTM 模型分析了 COVID-19暴发前后的肺结核发病模式。首先,使用2007年1月至2019年12月的每月 PTB 病例数据对这些模型进行训练,并使用 RMSE、 MAE 和 MAPE 评估性能。结果显示三个模型都有效地捕捉了肺结核的发病趋势,SARIMA模型的 RMSE值为6,660.49,Prophet模型为6,265.33,LSTM模型为8,205.52。SARIMA、 Prophet 和 LSTM 的 MAPE 值分别为4.712% 、4.293% 和5.628%,表明COVID-19大流行前三个模型表现稳定。
接下来,利用模型预测2020年1月至2023年12月的肺结核发病率,并将预测值与实际数据进行比较。在预测期间,预测值和实际值之间存在显著偏差。2020-2023年期间三个模型的均方根误差(RMSE)、平均均方根误差(MAE)和平均均方根误差(MAPE)显著高于大流行前期,表明模型预测准确性在COVID-19流行期间有所下降,COVID-19大流行引入了模型没有考虑到的因素,例如医疗服务的中断和由于COVID-19流行期间采取的疾病控制措施而导致的公众行为变化。
为了更清楚了解COVID-19暴发前后肺结核发病模式的偏差,我们把预测期分为两个阶段: 第一阶段(2020年1月至2022年12月)和第二阶段(2023年1月至2023年12月)。在第一阶段,所有三个模型均显示出较高的 RMSE 和 MAPE 值,反映出大流行高峰期间预测值和实际值之间的差异较大。相比之下,第二阶段 RMSE 和 MAPE 值降低,接近大流行前水平,表明肺结核发病模式接近COVID-19 之前的模式,模型的预测性能有所改善。
此外,本研究计算了两个阶段每个模型肺结核预测值和实际值之间的误差值。结果显示在第一阶段,特别是在2020年2月和2022年12月,观察到误差值的较大波动。
这些发现表明,尽管在COVID-19大流行期间肺结核的发病模式被严重破坏,但在2023年肺结核的发病模式开始趋于稳定(模型在第二阶段的表现有所改善),显示COVID-19对肺结核发病的影响可能只是暂时的,而肺结核模式正逐渐恢复至大流行前的水平。
结 论
虽然COVID-19大流行对我国的结核病发病率造成了显著的(尽管是暂时的)干扰,但随着医疗系统的稳定和公共卫生干预措施的继续实施,预计长期的结核病发病趋势将回到大流行前的水平。
SARIMA模型、 Prophet 模型和 LSTM模型的应用证明这三种模型在预测结核趋势方面是有效的,Prophet 模型的预测准确性最高。这项研究的结果强调了Prophet模型在实时监测和公共卫生规划中的效用,特别是在大流行后恢复阶段。随着结核病发病率的稳定,使用时间序列模型的持续监测对于及早发现疫情至关重要。研究结果还突出表明相关部门必须构建与发展适应性强的医疗保健系统,以便能够迅速应对大流行病等外部冲击,确保将对基本疾病控制工作的干扰降到最低程度。此外,COVID-19大流行对结核病传播的暂时影响表明,像Prophet 模型这样的模型可能在为未来发生此类事件做准备时发挥关键作用。
虽然 LSTM 模型显示出潜力,但其性能受到对较小数据集的过度拟合的限制,因此在本研究中模型性能较Prophet模型差。提示LSTM 模型可能需要更大的数据集才能获得最佳性能,未来的研究可以集中于优化 LSTM 参数,以提高LSTM 模型预测非线性传染病趋势的准确性。
随着结核病发病率在大流行后趋于稳定,持续监测和时间序列模型的应用对于指导我国和全球结核病控制的预防策略至关重要。未来的研究可关注通过纳入更多的社会学和医疗保健相关因素来提高预测的准确性,并探索结核发病率的地区差异。
END
注:除非特别声明,本公众号刊登的所有文章不代表《中国防痨杂志》期刊社的观点。
编辑:王 然
审校:郭 萌
发布日期:2025-01-03