研究进展丨中国首套完整县域社会经济数据集:基于渐进时空预测法的缺失值填补

文摘   2024-09-13 18:34   四川  

四川大学“华西健康医学地理”课题组联合美国达特茅斯学院、中国科学技术交流中心、北京师范大学和中国科学院地理科学与资源研究所在国际期刊《Scientific Reports》发表了题为《Estimating missing values in China’s official socioeconomic statistics using progressive spatiotemporal Bayesian hierarchical modeling》的研究论文。该研究成果为中国首个涵盖20项关键指标的县域社会经济时空数据集,为填补中国官方社会经济统计数据中的缺失问题提供了创新性解决方案。

该数据集已成功应用于多个空间流行病学和卫生经济学研究案例,显著提升了相关领域的研究精度与应用广度。研究不仅为社会经济数据的时空分析奠定了坚实基础,也为应对数据缺失挑战提供了新的方法与工具


Part.1

研究概述

中国的县级官方社会经济统计数据由于存在大量时空缺失值,至今尚未公布完整的数据集。然而,县域是中国官方统计数据收集的基本单位,因此填补这些缺失数据至关重要。为解决这一问题,我们基于层次贝叶斯建模体系,提出了一种创新的缺失值填补方法——渐进时空预测法(Progressive Spatiotemporal,简称PST)。

PST方法有两大核心创新点:首先,它通过利用空间自相关和时间趋势来预测缺失比例较小的变量因子;接着,利用已经填补完整的变量作为协变量,进行二次建模,结合时空信息来预测缺失比例较大的因子。我们将这一方法应用于2002至2011年间中国县市社会经济数据集中20个关键指标的缺失值填补,并与其他四种主流方法(包括k近邻算法kNN、期望极大值EM、奇异值分解SVD和随机森林RF)进行了对比。通过交叉验证等综合评估,PST方法在性能上明显优于其他四种算法,进一步证明了时空自相关特性和协变量信息在缺失值填补中的重要性。

这项研究的成果填补了中国县市社会经济数据的空白,成功建立了首个完整的县域社会经济数据集,并提出了一种可用于大规模时空数据缺失值填补的全新方法。目前,该数据产品已被广泛用于探索中国手足口病和医疗资源公平性等社会经济效应的研究中,未来有望通过开放获取,得到更多学术研究和实践应用的关注与支持。

Part.2

数据与实验设计

研究所使用的数据来自中国国家统计局的三个系列官方统计年鉴,包括《中国县域统计年鉴》、《中国区域经济统计年鉴》和《中国城市统计年鉴》。研究将这些数据组合成一个涵盖2002-2011年间中国2310个县级区域单元的20个社会经济变量的完整数据集,并根据每个变量是否存在至少一年的缺失百分比超过85%的情况将数据集分为两部分(X1-X14与X15-X20),分别用于建模的两个步骤中。

表1  20个社会经济变量缺失数据情况。(用X1到X20来指代这20个变量,缺失百分比是某一变量缺少数据的县年总数与10年期间的县年总数之比)

实验设计分为两步进行。首先,研究团队针对缺失较少的变量,分别使用两种时空模型进行填补:模型1和基于模型1引入时空交互作用项的模型2。其次,对于缺失较多的变量,利用第一步填补后的变量作为协变量,进一步使用时空多变量回归模型(模型3,该模型在模型2的基础上结合了额外的协变量信息)进行建模与填补。

为确保填补结果的准确性,研究团队采用了偏差信息准则(DIC)和对数评分(LS)对模型的性能进行评估,并通过交叉验证验证了PST方法的预测效果。最终,将所提出的PST方法与其他四种常见的填补方法进行了全面对比,进一步证明了PST方法的优越性。

图1  实验总体设计流程图

Part.3

实验结果

(1)最佳时空模型

表2列出了两对备选时空模型的评价结果。模型2比模型1、模型3比模型2均表现出更高的复杂度,更好的模型拟合度(更低的DIC)和预测能力(更低的LS)。模型1和2之间的比较表明了包括主要时间趋势和时空相互作用的有用性和必要性。模型2和3之间的比较证明了所提出的渐进建模过程的有效性。

表2  贝叶斯模型对20个变量与备选时空模型(M1:参数时空模型;M2:非参数时空模型;M3:时空多变量回归模型)的评估结果。* 变量属于PST方法的第二步归纳建模。

(2)交叉验证

图2和图3为时空模型2和3的交叉验证结果。图2的散点图表明,在10%的测试集设置下,大多数变量的预测值与观测值匹配良好。图3中的MSE、SAE和R2一致表明,在不同测试集大小下,尽管训练数据量减少导致预测误差略有增加,但误差增幅不大,且所有变量的平均绝对误差小于5%,表明模型在实际应用中能保持较高预测精度。此外,第二步的6个变量预测误差与第一步的14个变量相比,没有显著增加。

图2  10%模拟实验中20个变量的预测散点图

图3  使用PST方法在10%、20%和30%交叉验证模拟实验中评估20个社会经济变量

(3)空间预测误差地图

通过每个县的局部SAE来揭示PST生成结果中不确定性(预测误差)的空间变化。如图4,是四年内医院床位数量(X14)的局部SAE图。地图显示,大多数县(蓝色)在四年中的预测误差均小于0.1(10%),预测质量较高的地区在2002年至2011年期间保持稳定,而预测质量相对较低的地区(红色)较少且分散。SAE图进一步说明了所应用的时空模型的有效性。

图4  变量X14在(a)2002年、(b)2005年、(c)2008年和(d) 2011年的空间预测误差(SAE)图

(4)不同填补方法的比较

最后,研究通过10%的测试集进行了交叉验证,并将PST方法与其他四种数据填补方法进行了对比,包括k近邻(kNN)、期望最大化(EM)、奇异值分解(SVD)和随机森林(RF),评估标准依旧基于SAE、MSE和R2这三个关键指标。如图5所示,PST方法在所有变量上的表现均超越了其他所有方法。例如,PST的平均预测误差维持在5%以下,而随机森林(RF)的平均预测误差介于5%到10%之间,其他三种方法的平均预测误差则均超过了10%(参见图5的上半部分)。结果说明,对于大规模时空数据集,将空间和时间的随机效应作为缺失数据填补的附加信息是很有用的。

图5  对10%模拟数据集的不同估算方法(EM、SVD、kNN、RF和PST)的评估

Part.4

数据集应用案例

基于我们构建的中国首套完整县域社会经济时空数据集,已有6篇相关研究论文发表,其中3篇聚焦于传染病建模,另外3篇专注于医疗卫生服务领域的建模与分析。这些研究成果展示了该数据集在不同领域中的广泛应用和深远影响。

已发表文章包括:

Chao Song, Xun Shi, Yanchen Bo, Jinfeng Wang, Yong Wang, and Dacang Huang. “Exploring Spatiotemporal Nonstationary Effects of Climate Factors on Hand, Foot, and Mouth Disease Using Bayesian Spatiotemporally Varying Coefficients (STVC) Model in Sichuan, China.” Science of The Total Environment, 648 (2019): 550-560.

该研究首次提出贝叶斯时空变系数(STVC)模型,并分析了四川省气候因素对手足口病的时空异质性影响,为传染病防控提供了新的视角。


Chao Song, Lina Fang, et al. “Revealing Spatiotemporal Inequalities, Hotspots, and Determinants in Healthcare Resource Distribution: Insights from Hospital Beds Panel Data in 2308 Chinese Counties.” BMC Public Health, 24, 423 (2024).

本文揭示了中国2308个县域医疗资源分布中的时空不平等现象和热点区域,为优化医疗资源配置提供了科学依据。


Chao Song, Yaqian He, Yanchen Bo, Jinfeng Wang, Zhoupeng Ren, Jiangang Guo and Huibin Yang. “Disease Relative Risk Downscaling Model to Localize Spatial Epidemiologic Indicators for Mapping Hand, Foot, and Mouth Disease over China.” Stochastic Environmental Research and Risk Assessment (2019): 1-19.

该研究开发了疾病相对风险降尺度(DRRD)模型,精准估算了中国手足口病的空间流行病学新指标。


Chao Song, Xun Shi and Jinfeng Wang. “Spatiotemporally Varying Coefficients (STVC) Model: A Bayesian Local Regression to Detect Spatial and Temporal Nonstationarity in Variables Relationships.”Annals of GIS, 26:3, 277-291 (2020).

本文提出了贝叶斯时空变系数(STVC)模型,用于检测变量关系中的时空非平稳性,拓展了地理时空统计分析方法体系,并以中国东北地区县域医院床位指标为例,证实了STVC模型的有效性与先进性。


Chao Song, Yaode Wang, Xiu Yang, Yili Yang, Zhangying Tang, Xiuli Wang and Jay Pan. “Spatial and Temporal Impacts of Socioeconomic and Environmental Factors on Healthcare Resources: A County-Level Bayesian Local Spatiotemporal Regression Modeling Study of Hospital Beds in Southwest China.” International Journal of Environmental Research and Public Health, 17, 5890 (2020).

该研究利用贝叶斯STVC模型,分析了西南地区县级医院床位数量的社会经济与环境因素影响,并预测了我国西南地区完整县域医疗床位资源地图集。


Chao Song, Yaqian He, Yanchen Bo, Jinfeng Wang, Zhoupeng Ren, and Huibin Yang. “Risk Assessment and Mapping of Hand, Foot, and Mouth Disease at the County Level in Mainland China Using Spatiotemporal Zero-Inflated Bayesian Hierarchical Models.” International Journal of Environmental Research and Public Health, 15, no. 7 (2018): 1476.

该研究通过时空零膨胀贝叶斯分层模型评估了中国大陆县级手足口病的风险并进行地图绘制,为公共卫生决策提供了参考。

Part.5

研究总结

本研究标志着四川大学“华西健康医学地理”课题组在跨学科创新和国际合作方面取得的重要突破,推动了社会经济与健康地理领域的前沿进展。研究团队开发的渐进时空预测(PST)方法,成功克服了现有方法在处理大规模时空数据缺失值时的局限性,构建了首个完整的中国县级社会经济数据集。多个已发表的案例研究也展示了我们数据集在传染病防控、医疗资源分配等多个领域中的广泛应用,并为相关领域的科研人员提供了新的分析工具和思路。

研究结果表明,PST方法在填补缺失数据时表现优于其他常见算法。通过结合空间和时间的自相关效应,该方法能够高效处理大规模时空数据集中的缺失值问题,尤其在没有其他可用信息或所有县级变量数据均缺失的情况下,表现尤为优越。该研究不仅是数据科学领域的重大进展,也为解决大规模社会经济和健康地理问题提供了新的工具和视角。

尽管如此,研究也指出了PST方法的局限性,例如某些完全缺失数据的县域可能存在高估现象,且某些预测的估计值难以验证。同时,数据标准化问题也需进一步优化。未来,随着更多数据的公开和方法的改进,PST方法有望被应用于更广泛的领域,助力其他大规模时空数据集的缺失值估算。

欢迎关注公众号,每周分享优质资源

供稿 | 唐先腾

编辑 | 郑雪

审校 | 宋超

拓展阅读


时空变系数(STVC)模型:以探测健康地理现象中的时空非平稳性为例


研究进展 | 一种面向小区域医疗卫生资源的时空评价体系:揭示中国医院床位县域分布的时空不平等、热点和决定因素


研究进展 | 社会经济与环境因素对中国西南地区医疗资源的时空影响—基于贝叶斯时空变系数模型的实证研究


研究进展 | 公众对COVID-19风险感知的区域时空差异:基于贝叶斯时空变系数(STVC)系列模型的中国城市研究 


研究进展 | 全球老龄化时空演变与社会经济(62%贡献)和自然环境(37%贡献)密切相关,其关联存在时空差异


医学地理信息与空间卫生统计
分享地理信息科学(GIS)技术、空间统计、时空大数据、地理空间人工智能在医学信息、公共卫生、健康地理等交叉学科领域的前沿资讯。
 最新文章