(2024年3月29日)
图1 基于OSM建筑数据完整性、基尼系数G和Moran's I的城市中心聚类的空间分布
OpenStreetMap(OSM)已发展成为全球城市分析的流行数据集,例如评估可持续发展目标的进展情况。由于OSM数据是由志愿者采集生成的,在OSM中的采集工作中更偏向于高收入国家,因此OSM建筑数据在全球范围内的分布并不均匀。然而,许多分析没有考虑到现有数据的空间分布不均衡情况。在许多基于建筑足迹数据的研究中,常常需要分析建筑存量的完整性以确保数据质量的要求。如果不考虑建筑数据的完整性,会导致研究人员得出只适用于OSM地图绘制完整地区的结论。本研究试图回答两个研究问题:1)在全球城市分析的研究中,OpenStreetMap建筑数据的完整性如何? 2)OSM建筑数据在全球范围内、不同地区之间和城市中心内的分布的不平等性如何?
该研究考虑到OSM建筑足迹数据在城市分析和政策制定中的广泛使用,分析了全球范围内OSM建筑数据的完整性和不平等性,涵盖全球13189个城市中心,共拥有35亿人口(约占全球人口的50%)。具体方法包括以下五个步骤。
1. 构建数据集。该研究针对全球13189个城市中心进行。使用GHS-UCBD数据库来划定研究区。此外,由于全球范围内没有单一的参考建筑数据集,该研究整合了一组外部数据集作为可参考的建筑数据集。然后,该研究使用了每个网格单元的OSM建筑占地面积,并考虑了所有带有building=*标签的OSM对象。在解释变量上,该研究一共选取了全球人类定居人口、次国家人类发展指数、夜间灯光、土地覆盖以及OSM网格道路长度作为解释变量进行预测。
2. 预测城市中心建筑面积。该研究使用随机森林(Random Forest, RF)模型来预测每个网格单元的总体建筑面积。研究使用Microsoft和其他权威建筑数据作为训练数据集(共包括6633个城市中心,约占本研究的50%),并选用五类解释变量进行全球城市中心建筑面积的预测。此外,该研究采用了基于K均值聚类的空间交叉验证方法来评估所提出的建筑面积预测的性能。
3. 评估OSM建筑数据的完整性。该研究使用面积比法计算了每个城市中心的OSM建筑数据的完整性,OSM建筑数据完整性是由OSM建筑面积与预测建筑面积的比值来表示。该研究逐月计算了全球城市中心的OSM建筑数据完整性,并按全球不同地区、SHDI类型和城市规模进行了OSM建筑数据完整性的分析。
4. 评估OSM建筑数据的不平等性。该研究使用基尼系数和Moran’s I评估OSM建筑数据的不平等性。首先使用基尼系数,利用OSM建筑面积的累积比例与缺失建筑面积的累积比例(OSM建筑面积与预测建筑面积之间的差异),衡量城市OSM建筑数据完整性的均匀程度。然后,该研究选用了Moran’s I来表示城市OSM建筑数据完整性的空间自相关性。
5. 评估城市内部OSM建筑数据的完整性。为了确保每个城市中心的像元达到一定的数量,研究选择了城市中心大于25平方公里的城市进行计算。OSM建筑数据完整性是使用每个像元的OSM建筑面积与预测面积相比得出的。同时在像元尺度上计算了OSM建筑数据完整性的基尼系数和Moran's I的空间自相关性。此外,研究对城市中心进行了层次聚类分析,将城市中心划分为了3个大类和5个小类。
研究结果
研究结果表明,对于1848个城市(占分析数量的14%),OSM建筑数据的完整性超过了80%。这些城市拥有4.92亿人口(占全球城市人口的16%)。相反,对于9163个城市(占分析数量的69%,占全球城市人口的48%),OSM建筑足迹数据的完整性低于20%。该研究分析发现,全球平均城市OSM建筑完整性为24%,欧洲和中亚(71%)以及北美(64%)的完整性相对较高。而拉丁美洲(20%)、东亚和太平洋地区(20%)、中东和北非(12%)以及南亚(9%)的完整性低于全球平均水平(表1,图2)。
(a)世界地区和(b)次国家人类发展指数(SHDI)类别
全球基尼系数为0.8,也表明城市中心之间的建筑完整性存在较高的不平等,在南亚和撒哈拉以南非洲最为明显(图4a)。此外,无论是在全球范围内还是在区域范围内,OSM建筑数据分布随着时间的推移都变得更加均匀。从2014-2023年,OSM建筑数据在均匀度和聚集度方面呈现逐渐减小的趋势。自2019年以来,基尼系数和Moran's I在全球水平上一直停滞不前,这可能表明由于新冠疫情的限制,OSM数据收集与上传工作有所减缓。
研究使用了层次聚类方法,将城市中心划分为3种类型(包含2个子类型),然后分别统计不同类型基尼系数和莫兰指数。类型(1)的城市中心通常表现出很低的完整性,并且可以分别进一步区分为子类型(1a)和(1b)。类型(2)城市中心的特点是莫兰指数较高,均匀度为中等到高,覆盖城市范围广泛,完整度高。类型(3)城市中心的绝大多数区域OSM建筑数据完整性都很高且空间聚集性极低(图5,图6)。
Abstract:
OpenStreetMap (OSM) has evolved as a popular dataset for global urban analyses, such as assessing progress towards the Sustainable Development Goals. However, many analyses do not account for the uneven spatial coverage of existing data. We employ a machine-learning model to infer the completeness of OSM building stock data for 13,189 urban agglomerations worldwide. For 1,848 urban centres (16% of the urban population), OSM building footprint data exceeds 80% completeness, but completeness remains lower than 20% for 9,163 cities (48% of the urban population). Although OSM data inequalities have recently receded, partially as a result of humanitarian mapping efforts, a complex unequal pattern of spatial biases remains, which vary across various human development index groups, population sizes and geographic regions. Based on these results, we provide recommendations for data producers and urban analysts to manage the uneven coverage of OSM data, as well as a framework to support the assessment of completeness biases.
Citation:
Herfort, B., Lautenbach, S., Porto de Albuquerque, J. et al. A spatio-temporal analysis investigating completeness and inequalities of global urban building data in OpenStreetMap. Nat Commun 14, 3985 (2023).
阅读原文了解更多