使用街景图像和混合语义图的多级城市街道表征方法

文摘科学 2024-10-30 20:36 广东

今天给大家分享一篇最近出版在ISPRS Journal of Photogrammetry and Remote Sensing的一篇文章。该杂志为国际摄影测量与遥感学会(ISPRS)的官方期刊，主要关注摄影测量、遥感、地理信息系统和计算机视觉等领域。

导语

街景影像已经密集地覆盖了城市。近几年来有大量的工作基于街景影像来表征城市街道的物质环境（physical environment），回答城市规划、环境评估、公共健康、社会不平等、交通系统、房地产、城市居民感知以及社区文化等领域的问题。例如，Gebru T （2017）和Fan（2023）的研究基于海量的数据，揭示了街景影像具有预测人口分布和社会经济指标的潜力。然而在基于街景影像来表征城市街道物质环境中依然存在两个关键挑战。

1.现有的研究通常只关注孤立的单个视觉要素（例如树木或建筑）的比例或数量，而不考虑这些元素在街景中的空间排列或相邻性方面的相互关系。在应对特定的城市问题时，这种简化表示无法完全捕捉到城市物质环境的复杂性。街景内部元素之间的空间关系（例如它们的相对位置和布局）对物质环境的感知有着关键影响。例如，如果两张街景图像中的树木比例相同，但在一张图像中树木均匀分布，而在另一张图像中，树木聚集在一端，这将导致这两个位置中的阴影、美学和行人流量明显不同。因此，第一个研究差距是如何在街道尺度下动态的将街景图像中视觉要素的空间关系纳入考虑，以便将这些信息整合到下游任务中。

2.此外，现有研究缺乏对街道之间的空间依赖和空间交互的综合考虑。相邻街道通常在外观、人类活动和社会经济属性方面表现出相似性，在进行街道表征时可以将这种空间依赖关系纳入考虑。而城市是人类活动的主要载体，即使是相距很远的街道也可能存在很强的联系。例如工作场所和住宅区之间，或者在商业区和住宅区之间，这常常会导致远距离的潜在的空间交互。现有研究缺乏对街道之间的空间依赖关系以及空间交互关系的理解，这些信息的缺乏可能无法有效的对街道进行表征和理解。因此，本研究的第二个研究空白在于量化街道之间的这两种空间关系，并将它们融合以更准确地表示空间环境。

为了应对这些挑战，本文提出了一种基于双重空间语义的动态城市街道图表征方法。在街道内（intra-street）层面，我们设计了一个动态加权模块，该模块结合了街景图像中视觉要素之间的空间关系，首先，通过语义分割获取每种视觉元素的比例，形成初始特征向量。然后，计算元素的像素相邻关系，生成邻接矩阵，表示各要素的空间分布。通过初始特征向量与邻接矩阵点积，得到了结合了空间邻接信息的加权特征向量，增强了对物质环境的理解。达到“相同元素，不同语义”的自适应调整的效果（图2）。而在街道间（inter-street）层面，我们基于路网拓扑和社交媒体中的人类移动（human mobility）轨迹构建了两张图：第一张图考虑街道节点的一阶或二阶邻居，捕捉浅层次的街道之间的空间依赖（topology）关系，另一张图捕捉人类活动带来的远距离空间交互关系。这两个图共同处理前一个模块的输出，融合后的特征用于街道表征任务。两个图分别用于捕捉短距离和长距离空间关系，这种混合空间关系的捕捉超越了“空间接近影响更强”的简单逻辑。（图3）

为了验证我们提出的动态城市图表征方法，我们以街道的交通流估计作为下游任务（它与人类动态和社会经济高度相关），并研究了不同视觉元素对城市交通流的可解释影响。我们的方法分别在车速和流量估计的任务中提高了 2.4% 和 6.4%的准确率。这表明街景影像不仅提供了有关城市交通的丰富视觉信息，而且也验证了我们表征结果的质量。此外，我们的空间可解释性分析表明，如果不考虑潜在的空间交互关系，传统图模型将会显著低估高密度城市中心的交通拥堵程度。

图 1. 论文整体框架：（1）在街道内层面，该框架基于元素邻接矩阵计算加权街景图像语义特征。（2）在街道间层面，该框架构建双重空间语义混合图，结合来自道路网络的空间依赖和来自社会关系的空间交互。（3）该框架开发了基于双重空间语义的动态城市街道图表示方法。（4）它提供了下游任务分析工具，包括准确性评估、空间估计、注意力可视化和可解释分析。模型通过多层迭代更新节点（城市中每一个街道都视为一个节点）特征，用户可以自主选择不同的图神经网络编码器和语义分割模型。

HighLights

重点

1. 考虑多层次空间作用的街景影像街道级表示框架

2. 动态加权模块结合了街道内视觉元素的空间邻接关系

3. 混合图神经网络在街道间融合了空间依赖关系图和空间交互图

论文发表于ISPRS（https://doi.org/10.1016/j.isprsjprs.2024.09.032），论文的相关代码开源在https://github.com/yemanzhongting/HybridGraph

主题词：GeoAI; Street-view imagery; Urban scene representation; Multi-modal; Spatial interaction; Traffic estimation

ref:

[1] Zhang Yan, Li Yong, Zhang Fan*. Multi-level urban street representation with street-view imagery and hybrid semantic graph[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2024, 218: 19-32.

[2] Gebru Timnit, Krause Jonathan, Wang Yilun, et al. Using deep learning and Google Street View to estimate the demographic makeup of neighborhoods across the United States[J]. Proceedings of the National Academy of Sciences, 2017, 114(50): 13108-13113.

[3] Fan Zhuangyuan, Zhang Fan*, Loo B P Y, et al. Urban visual intelligence: Uncovering hidden city profiles with street view images[J]. Proceedings of the National Academy of Sciences, 2023, 120(27): e2220417120.

方法

在街道内尺度（图2），与传统的语义分割方法仅计算各种视觉元素的像素比例来表示图像不同，我们的方法不仅计算视觉元素的比例，还引入了元素间的邻接关系。首先，通过语义分割获取每种视觉元素的比例，形成初始特征向量。然后，计算元素的相邻像素关系，生成邻接矩阵，表示各元素的相互作用。通过与邻接矩阵点积，得到加权特征向量，结合了空间邻接信息，增强了场景理解。该框架灵活，用户可选择不同模型，如不同分辨率、速度或数据量的架构。

图 2. 该工作流程图说明了如何将街景图像中的像素邻接关系纳入考虑的过程：（1）将原始全景图像分割成不同语义类别；（2）然后将每个类别像素化以计算元素分布；（3）计算每个视觉要素的空间邻接矩阵；（4）点积得到加权语义特征（相同元素，不同语义）。

图 3. 基于双重空间语义的动态城市街道表征方法的架构示意图。该方法采用浅层参数共享策略，集成自注意力和图卷积层进行动态加权。这种方法有效地将长距离空间交互与近距离空间依赖性融合在一起，增强了模型捕捉全局和局部交通模式的能力。残差连接的加入增强了模型的鲁棒性。由此产生的融合特征为城市街道的学习和表征提供了一种有效的方法。

（图3左）为了更好地适应各种下游任务，我们引入了注意力机制来处理加权特征向量。我们设计了一个动态注意力模块，用于捕捉街景图像中的关键特征，同时忽略不相关的信息，从而适应不同任务需求（如交通任务中车辆和行人是最重要的元素，绿视率等是健康任务中的关键元素）。该模块的最终输出是结合邻接矩阵和注意力机制加权的集成图像特征。具体而言，每个特征维度都具有特定的物理意义，并通过邻接矩阵和自注意力机制动态调整其重要性。自注意力模块通过学习为每个特征分配权重，聚焦最相关的输入数据，从而增强模型的预测能力。这一过程通过优先处理重要的视觉信息，提升了对场景的精确理解，使模型在各种任务中表现更佳。

在街道之间，街道的多个场景构成了街道间层面的最小分析单元。我们设计了一个混合图神经网络框架（图3右），由两个异构图组成，用于同时捕捉空间依赖和空间交互。第一个图关注长距离的空间交互（space Interaction），第二个图则处理短距离的空间依赖（spatial dependence）。这两个图共同处理前一个模块的输出，融合后的特征用于场景分类。模型通过多层迭代更新节点特征，用户可以选择不同的图神经网络编码器，如图注意力网络（GAT）或图卷积网络（GCN）。两个图分别用于捕捉短距离和长距离空间关系，整合后的特征通过多层感知器（MLP）进行最终分类输出。该方法通过融合多种空间信息，增强了模型对复杂城市环境的适应性和鲁棒性。

实验

基于城市物理环境反演交通运行状态是一个具有挑战性的问题，因为交通状态受多种因素影响且表现复杂。我们在2017年7月收集了5,115,512条出租车轨迹数据，记录了车辆的经纬度、速度、方向等关键信息，重点关注位置和速度数据。此外，还收集了14,115张覆盖主要道路的全景图像，并对这些图像进行了语义分割，使用了预训练的PSPNet模型，基于Cityscape分类标准（19个类别）生成了语义分割矩阵。矩阵代表了不同类别的物理特征，如道路、建筑物、交通标志、植被等，通过这些特征反映研究区域内的视觉场景。（图5）

图5. 研究区域示意图及研究数据

如图所示，我们将研究区域划分为多个路段，并利用车辆的GPS位置数据为各路段赋予交通状态属性，速度为平均值，交通量为一天内通过车辆总数。数据分布显示速度接近高斯分布，流量符合幂律分布。通过分位数分类方法将交通属性分为不同类型，平衡了预测样本数量。本文研究了短距离依赖（通过道路的直接影响）和长距离空间交互（超越物理邻近的隐性关联），后者主要通过社交媒体签到数据来量化。我们构建了基于签到顺序的空间交互矩阵，揭示了传统交通分析所忽略的模式，最终生成了包含131,652个交互关系的加权交互网络。

图6. 带有核密度估计的比较直方图展示了街道级交通数据的分布。左侧为平均速度分布，中值为 29.47 公里/小时，右侧为平均交通量分布，中值为 557 辆/街道。共计 5075 个道路样本。

为了验证本文方法的有效性，我们使用分位数法将街道按速度和流量标记为高速、中速、低速及高、中、低流量路段，并进行了10组对比实验，包括本研究提出的方法、传统GCN、随机森林、支持向量机等，以及两个消融实验（去除网络的不同模块）。实验结果如表2和表3所示，分别针对三类和四类标签进行交通状态预测。模型在PyTorch框架下实现，具有30个隐藏维度，并结合了图形注意网络（GAT）层、注意机制、全连接层和残差结构，采用Adam优化器训练，并使用dropout和批量归一化技术防止过拟合。实验结果显示，我们的方法在交通流量和速度估计方面优于其他方法，特别是在交通流量预测上表现更佳，表明街景图像在交通流分析中的潜在价值。

为了说明各种方法的空间性能，我们在图9中展示了消融实验1（仅使用空间依赖信息）和我们方法（结合空间依赖和空间交互信息）的预测结果。与传统方法相比，我们的模型更准确地预测了城市核心地区的拥堵情况，这是因为考虑了长距离的空间交互（典型的长距离交互是工作通勤）。整体结果表明我们的方法在预测城市拥堵方面更具优势，并提供了更精确的城市交通场景表示。

图 9. 交通流量和速度预测的比较可视化。面板 (a) 和 (b) 显示了交通流量和速度的真实情况。面板 (c) 和 (d) 分别显示了考虑长距离空间相互作用后预测的交通量和速度分布。面板 (e) 和 (f) 展示了当模型仅考虑近距离空间依赖性时预测值的空间分布。该图强调了当将长距离空间相互作用集成到模型中时，大多数区域的预测准确性得到提高。它特别突出了城市核心区域预测路段流速的明显下降（面板 (d) 和 (f)）和交通量预测的显著增加（面板 (c) 和 (e)），强调了传统交通预测方法在高密度城市区域的潜在局限性。

为了说明视觉元素对街道间预测值的可解释影响，我们绘制了图10，并分别分析了空间交互矩阵和空间依赖矩阵的作用。使用PyTorch框架提供的“钩子”方法进行特征重要性分析，图10的热图显示了环境特征变化对交通流量预测的影响，颜色从蓝色（负面影响）到红色（正面影响）。分析揭示了短距离和长距离影响的差异，例如人行道扩大会减少近距离交通流量，而墙体等障碍物则削弱了长距离交通。图10的结果表明视觉元素对交通流特征有显著影响，验证了从街景图像推断交通特征的可行性。

图 10.热图显示了各种视觉元素在图像层面对交通量预测的解释影响。单元格值表示空间依赖性和空间交互作用在低、中、高交通量类别中的影响程度。

在街道层面的解释中，注意力权重分数对于识别关键特征至关重要。模型通过为关键场景分配更高权重，能够“关注”对交通速度或流量有重要影响的部分。图11可视化了街道间的注意力权重，红色表示强相互影响，蓝色表示无显著相互作用。图11(a) 展示了空间依赖权重，表现出聚类模式，红线和蓝线成组出现；图11(b) 展示了空间交互权重，揭示了长距离的强烈影响，帮助模型捕捉复杂空间关系的长距离相关性。

图 11. 街道层面注意力图矩阵和的可视化：(a) 突出显示局部街道内的空间依赖性，(b) 说明街道对面的空间相互作用。

结论

本研究对城市视觉智能和 GeoAI 领域做出了两项贡献。首先，我们介绍了一种基于图神经网络的新方法，可以有效地解释空间交互。该方法利用了空间图建模的强大功能，确保有效地整合来自街道拓扑的短距离空间依赖关系以及从大量社交媒体签到数据中提取的长距离空间交互。其次，我们的局部自注意模块可以动态微调街道特征的权重，从而适应各种下游任务。与生成固定表示的传统方法（例如，基于语义分割的特征仅产生树木、建筑物和车辆的静态表示）不同，我们的方法可以根据不同的场景自适应地捕获最重要的环境因素。此外，通过残差连接和图卷积层内的混合图进行的信息融合显著增强了模型的鲁棒性，确保了整个网络架构的全面特征表示。该模型在流速和车流量预估任务上都取得了优异的成绩，消融实验进一步证实了各模块的有效性。此外，我们的空间可解释性分析揭示了一个关键洞察：传统的图神经网络算法往往会低估高密度城市中心的交通拥堵程度。我们的实验证实了使用街景图像和路网拓扑进行城市街道表征的有效性。该方法也适用于更广泛的城市下游任务，可作为人口估计、经济预测和功能识别等应用的有效初始视觉表征。但本研究也存在一定局限性：本研究涉及的微博数据并不能完全代表所有的长距离空间交互行为。社交活动涵盖了超出在线签到范围的广泛互动和行为。我们的方法可能无法全面考虑所有交互，我们必须根据特定的环境和应用场景来决定将哪种类型的社交交互纳入我们的框架。

更多阅读：

基于噪音投诉数据和视觉语言混合方法感知噪音暴露及不平等

空间结构如何影响心理恢复?一种基于图神经网络和街景图像的方法

物理-社会空间交互的视角：实现用户下一位置预测的异构图融合网络

考虑道路风险和道路行人需求的溃坝洪水灾害下的行人疏散规划

从街景图像中分析安全感知的性别差异

应用于城市分析的空间显式的可解释性人工智能

是高还是低？使用机器学习和街景图像探索视觉特征下的校园空间注意力恢复效果

一种基于街景图像从建筑环境特征推断社会经济环境的序列到序列方法

知识与拓扑: 基于时间序列街景图像识别城市功能的双重空间依赖图神经网络

迈向以人为本的数字孪生：利用计算机视觉和图模型预测户外舒适度

碳交易能否减少空间不平等？对中国200个城市的空间分析

基于多模态预训练模型的城市场景感知方法

City2vec：一种学习人口迁徙网络知识的新方法

基于社会感知的城市洪涝位置提取与语义计算

http://mp.weixin.qq.com/s?__biz=Mzg4NTE4NDE4NQ==&mid=2247487244&idx=1&sn=dab7126352817b016eeaf85a1141c140

城市感知计算

认识世界和改造世界，张岩博士和志愿者团队搭建的非盈利城市科学分享平台，欢迎加好友学术交流。