最新进展 | UrbanCLIP: 基于街景图像的零样本城市功能推断框架

文摘   2024-08-05 09:00   日本  

街景图像(SVIs)在很多研究中被证实有着很强的可用性,近些年也有一些研究用其来分析细粒度的城市功能(土地利用)。之前一些研究将使用街景图像进行细粒度城市功能推断视为图像分类问题,并训练(微调)深度视觉模型。这一策略比较有效,但也受限于真值样本的可得性(我们需要真值数据来训练或微调视觉模型)。同时,这些模型的迁移性也存在局限性,例如我们在A城市进行了训练,但是这一模型在B城市的效果并不能得到保证。

最近,视觉-语言模型的繁荣为解决上述限制提供了一个可行的途径。这些模型的一个关键优势是,它们的训练和推断不局限于一组预定的类别。它们是通过耦合视觉和语言模型(编码器)以及寻找正确的图像-文本对等目标来训练的。这就使得我们思考,也许我们可以直接利用这样的模型来对每一张街景所反映的城市功能进行推断(没有训练过程,只有推理过程),这样的话我们不再需要继续训练,不再需要真值数据样本,就可以获得答案。例如,对于流行的CLIP这一视觉语言模型,我们是否可以直接将每一幅街景图像与城市功能的分类(居住区、商业区、工业区)进行匹配,从而得到答案。这样我们就可以进行零样本推断,不需要训练,也不需要真值数据,是很令人期待的。

然而,我们发现这一简单匹配的方法效果并不好。第一个问题是城市功能类别影射了高级、抽象,有时是多义的语义。但是CLIP对具体概念处理的更好,而时常无法理解抽象的文本。第二个问题源于现实世界SVI中普遍存在的可能分散注意力的元素,例如车辆、道路表面、交通设施如公交车站、路边景观如树木等。这种频繁出现的视觉信息对推断城市功能的指示作用很弱,但可能会转移CLIP的注意力,例如,CLIP可能会错误地认为有几辆车的SVI反映了一个停车场。

在这种情况下,这篇文章提出了一种名为UrbanCLIP提示框架(如下图所示),以进行零样本的城市功能推断。UrbanCLIP的关键设计原则是简单性,它不需要标记样本也不需要模型训练,并且可以方便地在实际的城市分析中使用。UrbanCLIP具有两个关键组件:

1)城市名词词典:来将抽象城市功能类别(例如住宅)映射到CLIP易于理解的具体城市对象类型(例如公寓)的城市功能分类体系。简单来说,我们不再让CLIP来判断一张图片反映的是住宅还是商业还是工业等等功能属性,而是让其判断这是公寓楼、别墅、购物中心等等更细粒度的城市对象。这一城市名词词典如下图所示。

2城市功能提示模板:以减轻SVIs中的干扰和噪声。在这些模板中,tree, vehicle, road这些信号被明确指出来,这样就可以在CLIP判断的过程中对它们进行弱化。这些提示模板如下图所示。

我们在三个场景中验证了UrbanCLIP这个框架的有效性,分别是主要功能推断,多种功能推断,以及迁移实验。我们发现在这三种场景下,UrbanCLIP都取得了不错的效果,其效果比微调一个ResNet101要更好。考虑到UrbanCLIP是零样本方法,而微调一个ResNet101需要许多样本,这是一个很有实际意义的方法。下图展示了在主要功能推断中UrbanCLIP与一系列baseline的对比。

有了UrbanCLIP这个零样本的推理框架,我们对深圳的建成区进行了细粒度的城市功能推理和绘图(如下图所示)。

最后,我们想要分享的是,大模型对地理任务有一定的理解和能力。同时我们需要用我们的领域知识去进一步引导大模型来更好地理解我们的领域问题,这会对我们的分析任务大有裨益。

参考文献

Huang, W., Wang, J., & Cong, G. (2024). Zero-shot urban function inference with street view images through prompting a pretrained vision-language model. International Journal of Geographical Information Science. https://doi.org/10.1080/13658816.2024.2347322 

点击推送最下方的“阅读原文”即可下载论文和源码。





你可能感兴趣


教学 | 基于街景图像的城市绿化空间分析
论文 | 耦合街景影像和深度异常检测方法的微观尺度城市扒窃犯罪风险评估
论文 | 可视绿色空间预测情绪:来自社交媒体和街景数据的证据
论文 | 基于深度学习与街景图像的城市感知研究
论文 | 街景图像可以定量反映城市小区内部的职住模式吗?



UrbanComp位置智能和城市感知
中国地质大学(武汉)地理与信息工程学院姚尧老师课题组,UrbanComp@HPSCIL的科研发布公众号。研究方向为地理位置智能、时空数据挖掘和可计算城市科学。团队主页:https://www.urbancomp.net。
 最新文章