(2024年3月21日)
图1 选定城市的网格化人口估计
全国人口普查是支持许多公共利益领域决策的重要数据来源。然而,这些数据在普查期间可能会过时,该期间可能长达数十年。准确的人口数据对于支持许多公共利益领域的决策至关重要,例如城市规划、环境危害风险管理和公共卫生。然而,这些估计可能具有高度不确定性,因为这些模型没有解决国家以下各级发生的人口动态,当人口普查数据特别过时,人口动态数据可能会与普查的数据明显不一致。
该研究用了自下而上的建模方法,这种方法避免了投影模型的局限性,因为它不依赖于国家人口普查,而是以空间高分辨率数据生成人口估计值。在这项工作中,该研究开发了一个贝叶斯分层模型,用于自下而上的人口估计,自下而上的模型利用了从近期的家庭调查中检索到的人口数据以及建筑足迹数据。
1. 进行家庭调查。该研究进行了基于地理定位的住户调查,对刚果民主共和国西部五个省份约3公顷定居面积的926个微型人口普查集群进行了完整统计。该数据是由加州大学洛杉矶分校-刚果民主共和国健康研究和培训项目牵头的两轮家庭调查收集的。数据包括获得知情同意的每个家庭内记录的人口总数,以及根据同一集群内每个家庭的平均人口计算的没有回应的家庭的人口总数。该研究还通过汇总个人调查记录,检索了各省标准化年龄(即1岁以下、1-80岁每5岁一组和80岁以上)和性别(即男性和女性)群体的人口总数。
2. 识别建筑足迹。该研究使用了Maxar Technologies提供的卫星图像以识别研究区的建筑足迹。为了高效快速的识别建筑足迹,该研究利用了Ecopia.AI自动提取研究区的建筑足迹。于Ecopia.AI开发了强大的质量控制流程,建筑足迹被认为提供了五个省人口空间分布最准确和最新的近似值。
3. 协变量处理与选择。该研究从建筑物足迹中得出形态和拓扑属性要素,并从人口分布研究中使用的标准网格数据集中提取附加要素。该研究使用散点图和皮尔逊相关性评估对数人口密度与跨集群的要素之间的关系,并以此来选择模型协变量。
4. 构建人口估计模型。该研究通过扩展现有的用于人口估计的分层贝叶斯建模框架来对人口总数进行建模,以估计刚果民主共和国西部五个省的人口总数以及年龄和性别细分。该模型引入了一种加权精度方法,通过相同的家庭调查数据从复杂抽样设计的住户调查和模型化的年龄和性别结构中得出对人口数量的无偏估计。
5. 构建年龄和性别结构模型。该研究中年龄和性别结构被建模为狄利克雷多项过程。该模型将年龄和性别组g以及省份p内观察到的人数Ng,p建模为多项式过程。
6. 模型拟合与诊断。该研究总结了小普查集群层面的人口总数和人口密度(人/建筑面积公顷)以及集群层面的年龄和性别比例的残差分析,以进行样本内和样本外后验预测。该研究使用Gelman-Rubin统计量评估三个MCMC链的收敛性,小于1.1的值被解释为收敛。
研究结果
图2 微观人口普查集群位置和相关人口密度
图3 预测的年龄和性别结构
图3显示了五个省份年龄和性别比例的后验分布均值(相对可信区间为 95%)。在以农村为主的宽戈省(图3c)、奎卢省(图3d)和迈恩东贝省(图 5e),年龄和性别结构相似。这些省份金字塔的底部很大,随着年龄的升高,底部变得越来越窄。在金沙萨(图3a)和刚果中部(图3b)等以城市为主的省份金字塔的底部较窄,这通常与较低的生育率有关。由于工作相关的移徙模式,金沙萨省也有较大比例的人口年龄在20岁至49岁之间。
研究通过对比预测与观测的人口数量、人口密度,认为该模型可以精确且有效的估计人口数量。图4直观地对比了根据聚落类型的观察到的人口总数(人)和密度(人/建筑足迹公顷)与样本内和样本外的后验预测。该图证明,该模型估计人口总数的效果较好,模型的估计与观察到的人口数较为一致。其中,模型对人口密度的拟合度降低似乎是由于农村住区人口稠密的集群的预测严重不足所致。
该研究开发的贝叶斯分层模型是一种基于家庭调查数据与建筑数据即可估计人口的模型。该模型表现出很好适应性,对微观人口普查组水平的人口总数的样本外预测R2值为0.79,对省级水平的年龄和性别比例的预测的R2值为1.00。此外,该模型具有较为广泛的适用性且所需的参数也易于获取,这为许多人口普查数据不易获取的地区提供了一种人口估计方法。不过,该研究建立的人口估计模型还有一定可以细化的空间,比如当前该研究假设每个省内的年龄和性别结构不变,忽略了省以下地区的差异。同时,该模型在权重设定上使用了大量符合正态分布或均匀分的随机数而非固定参数,这使得该模型拥有更广的适用范围,但也牺牲了一定的准确性。
Abstract:
The national census is an essential data source to support decision-making in many areas of public interest. However, this data may become outdated during the intercensal period, which can stretch up to several decades. In this study, we develop a Bayesian hierarchical model leveraging recent household surveys and building footprints to produce up-to-date population estimates. We estimate population totals and age and sex breakdowns with associated uncertainty measures within grid cells of approximately 100m in five provinces of the Democratic Republic of the Congo, a country where the last census was completed in 1984. The model exhibits a very good fit, with an R2 value of 0.79 for out-of-sample predictions of population totals at the microcensus-cluster level and 1.00 for age and sex proportions at the province level. This work confirms the benefits of combining household surveys and building footprints for high-resolution population estimation in countries with outdated censuses.
Citation:
Boo, G., Darin, E., Leasure, D.R. et al. High-resolution population estimation using household survey data and building footprints. Nat Commun 13, 1330 (2022). doi: 10.1038/s41467-022-29094-x
阅读原文了解更多