街景图像(SVIs)在很多研究中被证实有着很强的可用性,近些年也有一些研究用其来分析细粒度的城市功能(土地利用)。之前一些研究将使用街景图像进行细粒度城市功能推断视为图像分类问题,并训练(微调)深度视觉模型。这一策略比较有效,但也受限于真值样本的可得性(我们需要真值数据来训练或微调视觉模型)。同时,这些模型的迁移性也存在局限性,例如我们在A城市进行了训练,但是这一模型在B城市的效果并不能得到保证。
最近,视觉-语言模型的繁荣为解决上述限制提供了一个可行的途径。这些模型的一个关键优势是,它们的训练和推断不局限于一组预定的类别。它们是通过耦合视觉和语言模型(编码器)以及寻找正确的图像-文本对等目标来训练的。这就使得我们思考,也许我们可以直接利用这样的模型来对每一张街景所反映的城市功能进行推断(没有训练过程,只有推理过程),这样的话我们不再需要继续训练,不再需要真值数据样本,就可以获得答案。例如,对于流行的CLIP这一视觉语言模型,我们是否可以直接将每一幅街景图像与城市功能的分类(居住区、商业区、工业区…)进行匹配,从而得到答案。这样我们就可以进行零样本推断,不需要训练,也不需要真值数据,是很令人期待的。
然而,我们发现这一简单匹配的方法效果并不好。第一个问题是城市功能类别影射了高级、抽象,有时是多义的语义。但是CLIP对具体概念处理的更好,而时常无法理解抽象的文本。第二个问题源于现实世界SVI中普遍存在的可能分散注意力的元素,例如车辆、道路表面、交通设施如公交车站、路边景观如树木等。这种频繁出现的视觉信息对推断城市功能的指示作用很弱,但可能会转移CLIP的注意力,例如,CLIP可能会错误地认为有几辆车的SVI反映了一个停车场。
在这种情况下,这篇文章提出了一种名为UrbanCLIP提示框架(如下图所示),以进行零样本的城市功能推断。UrbanCLIP的关键设计原则是简单性,它不需要标记样本也不需要模型训练,并且可以方便地在实际的城市分析中使用。UrbanCLIP具有两个关键组件:
有了UrbanCLIP这个零样本的推理框架,我们对深圳的建成区进行了细粒度的城市功能推理和绘图(如下图所示)。
Huang, W., Wang, J., & Cong, G. (2024). Zero-shot urban function inference with street view images through prompting a pretrained vision-language model. International Journal of Geographical Information Science. https://doi.org/10.1080/13658816.2024.2347322
点击推送最下方的“阅读原文”即可下载论文和源码。