论文解读 |【IJCAI 2024】从像素看发展:基于卫星图像的欠发达区域路网识别与社会经济关联性分析

文摘   2024-11-24 20:40   北京  

论文标题:From Pixels to Progress: Generating Road Network from Satellite Imagery for Socioeconomic Insights in Impoverished Areas

作者:Yanxin Xi, Yu Liu, Zhicheng Liu, Sasu Tarkoma, Pan Hui, Yong Li

发表:IJCAI 2024


论文链接:https://www.ijcai.org/proceedings/2024/0831.pdf

代码链接

https://github.com/tsinghua-fib-lab/Road_network_extraction_impoverished_counties


导读  

可持续发展目标(SDGs)旨在解决社会性挑战,例如消除贫困和改善欠发达地区弱势群体的生活。这些欠发达地区依赖道路设施建设推动经济发展。尽管像 OpenStreetMap 这样的公开数据可以用于监测道路状况,但欠发达地区的数据完整性依然存在限制。同时,深度学习技术的发展和卫星图像的应用为地球监测展示了巨大的潜力。为应对欠发达地区道路网络评估的挑战,本研究开发了一种系统化的道路提取框架,结合了基于编码器-解码器架构的深度学习模型与图像的形态学操作,为跨学科研究人员提供了一个集成的分析工具。通过该框架,本研究成功提取了2017年和2021年中国382个贫困县的道路网络且进一步用于后续经济分析。 


背景

欠发达地区(如远离城市的落后区域)中的弱势群体因社会经济、健康或环境因素而面临多重风险。解决这些群体的社会性挑战对于实现可持续发展和“一个也不掉队”(LNOB)的目标具有重要意义。正如中国谚语所说,“要致富,先修路”,交通基础设施的建设已被证明是改善生活质量和促进欠发达地区经济发展的有效手段。然而,目前这些地区的道路数据获取存在局限,包括 OpenStreetMap(OSM)数据的不完整性。例如,一些短途道路和穿越山区的主要道路在 OSM 中更新不及时(如图1所示)。官方道路数据更新滞后,且缺乏详细空间信息。最后,商业平台购买道路数据的成本高昂,难以负担。这些问题严重限制了欠发达地区道路网络的实时监测。

图1 卫星图像、OSM路网、和本研究提取的路网的对比结果


近年来,基于卫星图像的深度学习分割方法展示出识别道路的巨大潜力,特别是在结合大规模道路标注数据集的情况下,能够实现高精度的道路识别。基于卫星图像的长时间跨度、广泛空间覆盖和高分辨率的优势,本研究提出了一个系统化框架,用于从卫星图像中提取欠发达地区的道路网络。该框架包括数据预处理、道路分割、形态学操作和路网结构提取等步骤。


方法

本研究将道路网络生成任务转化为基于卫星图像的道路分割任务,其整体框架如图2所示。首先,通过统计方法对卫星图像切片进行筛选,去除噪声或云覆盖的切片。其次,采用一种道路分割模型,该模型不仅关注道路的分割,还考虑相邻道路像素之间的连通关系,从卫星图像中生成二值化的道路掩膜。最后,对生成的二值化道路掩膜进行形态学处理,将其转化为“单像素宽度”的道路中心线图像,并进一步提取包含“点-边”结构的道路网络。

图2 基于卫星图像的道路网络提取框架


数据预处理

此步骤旨在减少噪声图像和云覆盖图像切片对道路分割结果的影响。由于天气条件或图像生成过程中可能出现云覆盖或噪声干扰,这些卫星图像会在道路分割中引入误差,进一步影响欠发达地区的社会经济分析。因此,本研究分别采用拉普拉斯方差和像素强度指标来识别这些无效图像:


🔹拉普拉斯方差:用于衡量图像中的高频细节,而正常的卫星图像通常呈现空间上缓慢变化的内容。

🔹像素强度基于自然图像先验假设,相比于云覆盖图像,正常卫星图像在至少一个颜色通道中会包含一些像素值很低的像素。


通过设定拉普拉斯方差阈值和像素强度阈值,噪声图像和云覆盖图像切片能够被筛选出来。对于这些无效图像,使用最近年份的卫星图像进行替换从而实现图像质量补全。


道路分割

此步骤基于编码器-解码器的道路提取模型从卫星图像中生成道路掩膜。具体而言,本研究采用连接注意力网络(CoANet)(如图2所示)从卫星图像切片中提取道路。该网络由编码器和解码器组成,其中编码器包含五个卷积模块用于特征学习,解码器则由四个方向卷积块组成,包括水平、垂直、左对角线和右对角线方向的条状卷积模块,以适配道路形状并提取线性特征。最终,解码器的分割结果与像素连接立方体模块相结合,生成具有更高连通性的道路掩膜。


形态学操作

对道路掩膜进行后处理,以进一步生成道路中心线。具体包括以下三个步骤:


🔹形态学闭操作:由于树木遮挡和阴影影响,二值化的道路掩膜可能会出现孔洞。通过形态学闭操作解决此问题,具体方法是先对二值图像进行膨胀处理,然后使用相同的形态学核对膨胀后的图像进行腐蚀。

🔹骨架提取:该步骤从二值化道路掩膜中提取道路中心线。由于卫星图像中的道路通常具有多个像素宽度,掩膜中包含等宽的道路区域。骨架提取的目标是移除前景边缘像素,将道路细化为单像素宽度的“骨架”,同时保留其连通性。

🔹精细化处理:道路作为连接不同区域的连通对象,需移除无人区域内的孤立误分类像素。通过 4-连通性确定道路骨架图像中的所有连通分量,移除长度低于特定阈值的连通分量。


道路网络提取

本研究采用 Combustion 算法来从精细化的道路中心线二值图像中提取包含节点和边结构的道路网络图,即在道路骨架二值图像中检测交叉像素,并在骨架上添加节点。具体而言,对每个像素,计算其邻域内道路边界的数量(即与该像素相连的道路段数)。若像素的边界数 n=1(道路端点)或 n>2(多个道路段交汇),则将其标记为交叉点。随后,对每个交叉点像素,沿各条道路段定位其相邻的交叉点像素,并在两个交叉点之间的道路像素上添加节点。最后,将节点的图像坐标转换为地理坐标,并根据道路骨架的连通性,在相邻节点之间建立边,从而完成道路网络图的构建。


实验结果


道路网络提取结果验证

本研究使用Environmental Systems Research Institute(Esri)提供的RGB卫星图像,其空间分辨率约为1.2米(缩放级别 = 17)。为进行后续经济分析,随机选取了2017年和2021年10县的卫星图像。真值数据来自某地图平台,提供每条道路的经纬度序列、道路ID和道路类型。对比基准算法包括RCFSNet、ViT和OSM路网数据。验证指标采用精确度、召回率和F1分数,这些指标可以展示提取的道路网络的几何和拓扑准确性。此外,还比较了提取的道路与真值道路之间的重建率,包括三条或更多道路连接的道路交叉点的重建率(RI@3)、道路长度的平均绝对百分比误差(MRL)和道路密度的平均绝对百分比误差(MRD)。


表1展示了2017年和2021年10贫困县的评估指标平均值。总体而言,除精确度外,本框架在所有评估指标上表现均好于基准算法,表明该框架在从卫星图像生成县级道路网络方面的有效性。此外,本框架生成的数据集在召回率和F1分数上明显优于基准方法,说明从拓扑和几何角度,其能够重建更多欠发达区域的实际道路。OSM在两年中的精确度较高,因为OSM中的道路由志愿者生成,且志愿者通常专注于主要道路,并可能参考其他信息。ViT表现出第二高的召回率和F1分数,展现了vision transformer在分割任务中的优势表现。RCFSNet的精确度高于本研究提出的方法,但召回率明显较低,可能是由于其在马萨诸塞数据集上训练的模型迁移效果有限。在道路长度和交叉点重建指标方面,本框架展示了最佳结果,这进一步证明了在382个贫困县中生成的道路网络数据集的有效性。图3展示了2021年两县部分区域道路提取结果,可以看出本框架提取的路网相比于基准算法可以覆盖更多道路。

表1 2017年和2021年10个县上道路网络提取结果


图3 2021年两县部分区域道路提取结果可视化。道路用红色标注。两县经纬度为 (Latitude=39.4255N, Longitude=114.2517E) 和 (Latitude=32.9858N, Longitude=107.7386E).


不同类型道路的重建率

在道路真值中,根据道路的宽度和限速,真实道路被分为十个类,其中第1类为最高等级的道路(高速公路),第10类为最低等级的道路(小路)。在欠发达地区,高等级道路较为稀少,而低等级道路更多且更为重要。但低等级道路在公开数据集中常常缺乏标注。因此,在欠发达困地区识别低等级道路具有更为重要的意义。在2021年10县识别不同等级道路的结果(即召回率指标)如图4所示。从图中可以看出,OSM在识别高等级道路时表现最佳,同时本研究提出的框架达到了相当接近的结果。然而,对于在贫困县中占主导地位的低等级道路(如普通道路和村内道路),本研究提出的框架达到最高的召回率,证明了该框架在研究欠发达地区低等级道路方面的有效性。

图4 10个县上的不同类型道路重建率



生成的道路网络数据集

本文使用提出的框架生成了一个覆盖中国22个省份、382个贫困县的道路网络数据集。贫困县的选择基于《中国832个国家贫困县名单》[国家乡村振兴局, 2014]。数据集涵盖了2017年和2021年,面积超过794,178平方千米,生成的总道路长度为103.4万公里,涉及贫困县的总人口为1,704.8万人。这些县被分配到中国四个主要经济区域,如图5所示,其中大多数贫困县位于西部和中部经济区域,占所选县总数的90.6%。数据集还包括贫困县的图像数量、面积、人口、国内生产总值(GDP)、第二产业增加值(SSE)、居民储蓄余额(Balance)、道路长度、道路密度和人均道路长度等信息,这些社会经济指标来源于《中国县市统计年鉴》。

图5 选定的贫困县的空间分布


社会经济指标分析


道路网络的标度律

标度律描述了随着城市发展,社会经济因素与基础设施建设之间的关系。本文研究提取的道路网络(代表基础设施状况)与贫困县人口之间的标度律,其定义为:,其中,代表道路基础设施,即数据集中的道路长度,代表人口,是估计的参数。


2021年人口(对数)与道路长度(对数)的拟合曲线如图6所示。总体而言,所有县的平均斜率为0.6,呈现亚线性形式,这一斜率与网络长度标度律的理论计算斜率值接近。从不同区域的角度看,2021年西部和中部地区的斜率差距较大,表明道路网络的空间发展存在不均衡。

图6 2021年贫困县人口与道路长度之间的标度律



道路网络与社会经济指标的相关性分析

道路网络被视为一个地区的骨架,与区域的社会经济状况密切相关。本文分析了道路网络长度与区域社会经济指标(包括人口、GDP、第二产业增加值(SSE)和居民储蓄余额)之间的相关性。2021年道路长度与社会经济指标的相关性如图7所示。结果表明,道路长度与GDP的相关性最高,值最大,这表明道路网络长度可以作为GDP的一个有效指标。其次,居民储蓄余额与道路长度的相关性也表现出类似的值。然而,人口和第二产业增加值(SSE)与道路长度的相关性较低,值较小。这些发现对后续关于弱势群体的研究具有重要意义。通过观察道路网络的变化,能够粗略估算社会经济指标,从而为后续政策的制定和实施提供参考。

图7 2021年贫困县道路长度与人口、GDP,第二产业增加值(SSE)、居民储蓄余额(Balance)之间的相关性


道路网络对于经济发展的影响

本文使用生成的数据集研究了在不考虑其他因素(如投资等)的情况下,仅道路网络在贫困县中的经济影响。本研究关注2017年到2021年期间道路网络的增长是否对区域GDP、第二产业增加值(SSE)和居民储蓄余额(Balance)产生了积极影响。具体而言,应用差异化方法(Difference-in-Difference, DiD)来研究道路网络的因果效应。DiD方法采用固定效应回归模型,表示为根据以下指标将贫困县分为对照组和实验组:2017到2021年期间的绝对道路长度变化(absolute RL)、道路长度相对变化(relative RL)和人均道路长度相对变化(relative RPC)。对于每个指标,属于后50%的县被选为对照组,属于前40%的县视为实验组。2017年为干预前(pre-treatment period),2021年为干预后(post-treatment period)。


图8展示了路网长度对GDP、SSE和Balance的因果效应估计。道路对GDP的影响最大,且道路长度的绝对增长对经济有推动作用。道路长度相对增长和人均道路长度相对增长也显示出对经济有积极影响。但是,本研究没有考虑其他因素如投资、政策和通货膨胀等也会对经济产生影响。上述因素与道路对经济的共同影响将在未来的研究中做进一步探讨。

图8 贫困县道路网络建设对经济发展的估算因果效应



结语

本文提出了一种可扩展的从卫星图像获取欠发达地区道路网络的框架,并通过广泛实验验证了其有效性。进一步,通过该框架生成了一个涵盖382个贫困县的道路网络数据集。在该数据集上的社会经济分析表明,道路基础设施建设与经济发展呈正相关。通过将该框架和数据集应用于公开道路数据不完整的欠发达地区,可以观察目标区域的可持续发展状况,比如消除贫困和基础设施可达性的进步等。


参考文献

[1] Jie Mei, Rou-Jing Li, Wang Gao, and Ming-Ming Cheng. CoANet: Connectivity attention network for road extraction from satellite imagery. IEEE Transactions on Image Processing, 30:8540–8552, 2021.


[2] James Biagioni and Jakob Eriksson. Inferring road maps from global positioning system traces: Survey and comparative evaluation. Transportation research record, 2291(1):61–71, 2012.


[3] Zhigang Yang, Daoxiang Zhou, Ying Yang, Jiapeng Zhang, and Zehua Chen. Road extraction from satellite imagery by road context and full-stage feature. IEEE Geoscience and Remote Sensing Letters, 20:15, 2022.


[4] Wenhuan Shi, Shuhan Shen, and Yuncai Liu. Automatic generation of road network map from massive gps, vehicle trajectories. In 2009 12th international IEEE conference on intelligent transportation systems, pages 1–6. IEEE, 2009.


[5] Sijie Ruan, Cheng Long, Jie Bao, Chunyang Li, Zisheng Yu, Ruiyuan Li, Yuxuan Liang, Tianfu He, and Yu Zheng. Learning to generate maps from trajectories. In Proceedings of the AAAI conference on artificial intelligence, volume 34, pages 890–897, 2020.


数据科学与智能实验室
本公众号为清华大学电子系数据科学与智能实验室的公众账号,主要推送实验室重要通知、日常活动、文章导读、前沿分享等资讯,敬请关注。
 最新文章