基于AutoGluon的动态人口制图
(Dynamic population mapping with AutoGluon)Yimeng Song, Yong Xu, Bin Chen, Qingqing He, Ying Tu, Fei Wang, & Jixuan Cai
及时且准确的人口分布绘制在科研和实践中都具有重要价值。得益于多源地理空间数据集的出现,以及统计学和机器学习等领域的发展,高时间分辨率的多尺度人口分布制图成为可能。然而,复杂的数据和模型为人口分布制图技术的可重复性带来了挑战。本研究利用有限的公开数据集和AutoGluon自动集成学习框架,提出了一个简化模型训练和估算过程的有效框架。我们将该方法应用于绘制中国的县级人口密度,取得了令人满意的结果:决定系数(R²)为0.974,均方根误差(RMSE)为427.61,优于当前主流的人口制图产品。此外,利用该框架绘制的月度人口密度和人口动态分布模式与早期基于其他数据源的研究结果较为一致,验证了该制图框架的有效性和鲁棒性。本研究是首个将AutoGluon应用于人口制图的工作。其高效、自动化的建模能力有助于推动更大规模和更精细的人口制图研究,为相关领域提供有力支持。
引用
Song, Y., Xu, Y., Chen, B., He, Q., Tu, Y., Wang, F., & Cai, J. (2022). Dynamic population mapping with AutoGluon. Urban Informatics, 1(1), 13.
https://link.springer.com/article/10.1007/s44212-022-00017-x
研究背景与问题
及时且准确的人口分布数据在流行病学研究、自然灾害管理、气候变化分析、生态脆弱性评估、应急响应、环境监测和可持续城市规划等领域具有重要价值。尽管普查数据在实际应用中最为常用,且准确性较高,但其较低的更新频率(通常为5-10年)和较低的空间分辨率使得分析结果和实际应用中存在较大的不确定性。
为了解决这一问题,基于时空数据的人口制图应运而生。目前的研究中,夜间灯光数据和光学卫星影像被频繁地作为关键遥感数据。夜间灯光数据能有效记录人类活动产生的光影足迹及其动态变化。然而,由于其空间和辐射分辨率较低,以及泛光效应和过饱和问题,使用该数据进行人口数量/密度估计和制图时会普遍低估高密度区域的人口数量。基于光学卫星影像的人口分布制图是基于不同土地覆盖类型人口承载力差异的理论进行估测。随着光学卫星传感器技术的发展,更多高时空分辨率卫星数据被应用到人口制图工作中,使产品的时空精度得到了进一步提升。然而,由于科研和实践对更丰富信息和更低不确定性的需求,短期人口流动导致的人口分布变化等信息的需求越来越大。但是,基于遥感影像的静态人口制图数据产品尚无法满足相关研究和应用对该类信息的需求。
随着移动互联网的迅猛发展,智能设备用户能够主动或被动地上传个人的时空信息,这使得我们可以在更广阔的时空范围内持续观察人们的实时空间行为。例如,包含地理标签的社交媒体数据、手机数据、POI数据和智能交通卡数据等已被用于探究人口多尺度的时空行为。除了融合多源数据,探索人口与各种特征变量之间的关系是人口制图中至关重要的部分。这些方法可以分为三类:统计模型、空间统计模型和机器学习。机器学习模型不仅包括随机森林回归模型等单一模型,还包括XGBoost等集成模型。然而,目前的相关研究依旧存在一些不足:
1. 多源数据融合的可获取性受到限制,导致方法难以被他人重复。
2. 空间统计模型的迁移性较差,难以在不同地区均得到令人满意的效果。
3. 机器学习模型的选择和参数调整需要投入大量成本。
为了解决这些问题,本研究提出了一种基于公开空间数据集和自动集成学习的人口制图框架。该框架被应用于绘制中国2015年的月度县级尺度人口密度分布,并揭示人口分布的动态变化特征。通过使用AutoGluon自动集成学习框架,能够大幅度降低模型选择和参数调整的成本。此外,该框架具有较高的可移植性,仅需替换社会感知数据便可用于其他区域的人口制图。这种方法有望在解决现有研究不足的同时,为未来更大规模和更精细的人口制图研究提供有力支持。
研究内容
一、数据和特征提取
本研究所使用的数据包括2015年县级人口普查数据、腾讯LBS数据、Landsat-8 OLI影像、NPP-VIIRS夜间灯光数据、土地利用数据、以及DEM。所有数据均可公开获取。我们提取了相应数据在县级行政边界内不同特征的平均值作为特征变量,并用于模型训练和验证。
二、模型训练和预测
本研究采用了AutoGluon(版本:0.5.2)内置的自动集成学习框架(https://github.com/awslabs/autogluon)来进行模型训练和表格数据预测。为了在训练过程中获得更可靠的性能评估,我们采用了5折交叉验证,以降低过拟合的风险并提高模型的泛化能力。我们在AutoGluon中使用了多种机器学习算法,包括神经网络、随机森林、极端随机树、k-近邻和梯度提升树。这些算法在训练过程中相互竞争,从而提高模型预测的准确性。此外,我们还应用了集成学习的堆叠集成,通过组合多个基础模型的预测结果,在最后的堆叠层进一步提高预测性能。
图1:AutoGluon的多层堆积框架的一个两层堆积层的例子
三、精度评估和比较
在本研究中,我们共有2851个样本,其中80%(2280个样本)用于训练,20%(571个样本)用于验证。为了评估和比较不同模型的性能,我们使用了四个评价指标:均方根误差(RMSE)、相对均方根误差(%RMSE)、平均绝对误差(MAE)和决定系数(R²)。如表1所示,最终的集成模型在训练和测试中均有更为优秀的表现。我们还使用了四个主流的人口分布数据集:WorldPop、LandScan、GPW和GHSL,以便对制图结果进行比较。如图2所示,与人口普查数据相比,我们所提出的基于AutoGluon框架的制图结果展现出了更好的拟合精度。
表1:根据四个指标比较不同机器学习模型的表现
图2:2015年中国县级人口分布制图
(a图为基于AutoGluon的人口密度图;b图和c图分别为AutoGluon和NeuralNetFastAI的结果与人口普查数据的差异)
四、月度人口分布制图
我们将最终得到的模型应用于除11月份之外的其他月份的人口分布制图。以11月份的人口密度为参照,我们发现9月、10月与11月的人口密度相似度最高,而1月和2月与11月的人口密度差异最为显著。这一结果与已有研究结论保持一致,反映了中国在春节期间的人口流动特征。这表明我们的模型在捕捉人口分布和变化方面表现出较高的准确性,有助于更好地理解不同月份的人口流动情况。
图3:月度动态人口分布
(a图为2015年各月度县级人口密度的皮尔逊相关系数,b图为2015年11月和2月的人口密度差异)
通过结合AutoGluon和多源地理空间数据,本研究提出了一个高效的人口制图框架。该框架具有以下优势:
(1)本框架使用较少的公开可获取的数据集进行建模,降低了数据收集的难度。
(2)本框架采用了自动集成学习模型AutoGluon,有效提高了预测准确度,同时显著降低了模型选择和参数调整的成本。
(3)本框架具有较高的可移植性,仅需替换社会感知数据(如人口数字足迹)便可应用于其他区域的人口制图。此外,对于缺乏观测数据的地区,本框架亦能提供较为准确的预测。
研究结果表明,该方法能较为准确地估测中国2851个县的人口密度,决定系数(R²)为0.974,均方根误差(RMSE)为427.61。与WorldPop、LandScan、GPW和GHSL数据的比较表明,本方法在估测精度方面优于当前主流的人口制图方法。
在所有参与建模的特征中,腾讯LBS平均值、城市面积覆盖率、夜间平均光照度和平均归一化建成指数是对估测准确度提高贡献较大的四个特征变量。
尽管本研究提出了一个有效的人口制图框架,但仍存在一定的局限性:(1)由于缺少街区尺度的观测数据,本研究方法在较小尺度上的制图性能未经验证。这意味着在更精细的空间尺度上,如街区或社区层面,模型的预测准确性可能会受到影响。(2)在对中国人口估测中,本研究存在一定的偏差。具体表现为西部地区(低人口密度)的人口估算高于实际值,而东部地区(高人口密度)的人口估算低于实际值。针对上述局限性,未来研究可以考虑收集更多精细尺度的观测数据,以验证和提升模型在较小尺度上的制图性能。此外,通过引入更多与人口密度相关的变量或空间信息,有助于进一步优化模型表现,提高人口估测的准确性。宋祎萌: 耶鲁大学博士后研究员,香港中文大学博士,曾任香港理工大学研究助理教授。研究兴趣:时空大数据在城市环境、人群移动、暴露评估和环境健康应用。
徐勇:广州大学副教授,香港中文大学博士,曾任普渡大学博士后研究员。研究兴趣:环境遥感、GIS在城市气候和城市规划中的应用。
https://www.researchgate.net/profile/Yong-Xu-11陈斌:香港大学助理教授,北京师范大学博士,曾任加州大学戴维斯分校博士后研究员。研究兴趣:多源数据融合和地理空间大数据分析,特别是在环境变化、人类活动和公共健康等领域的应用。
https://www.researchgate.net/profile/Bin-Chen-20何青青:武汉理工大学副教授,香港中文大学博士。研究兴趣:空间智能、地理统计、遥感和大数据在大气环境、人类健康和地球健康方面的应用。
屠滢:清华大学博士研究生,中山大学学士。研究兴趣:遥感图像分类、全球土地变化、利用地理空间大数据的城市计算。
https://www.researchgate.net/profile/Ying-Tu-3王飞:香港中文大学博士后研究员,香港中文大学博士。研究兴趣:多源数据、人工智能算法和时空统计模型在空气污染细尺度监测与预测方面的应用。
https://www.researchgate.net/profile/Fei_Wang142蔡纪烜:腾讯微信支付研究员,香港中文大学博士。研究兴趣:基于位置的服务、线上到线下的零售、社交网络和空间大数据挖掘。
https://scholar.google.com/citationsuser=VdvsV70AAAAJ&hl=enEND
编辑:李舒阳、刘乃瑜
审核/指导:宋祎萌、刘信陶、曹瑞