最新进展 | UrbanCLIP: 基于街景图像的零样本城市功能推断框架

文摘 2024-08-05 09:00 日本

街景图像（SVIs）在很多研究中被证实有着很强的可用性，近些年也有一些研究用其来分析细粒度的城市功能（土地利用）。之前一些研究将使用街景图像进行细粒度城市功能推断视为图像分类问题，并训练（微调）深度视觉模型。这一策略比较有效，但也受限于真值样本的可得性（我们需要真值数据来训练或微调视觉模型）。同时，这些模型的迁移性也存在局限性，例如我们在A城市进行了训练，但是这一模型在B城市的效果并不能得到保证。

最近，视觉-语言模型的繁荣为解决上述限制提供了一个可行的途径。这些模型的一个关键优势是，它们的训练和推断不局限于一组预定的类别。它们是通过耦合视觉和语言模型（编码器）以及寻找正确的图像-文本对等目标来训练的。这就使得我们思考，也许我们可以直接利用这样的模型来对每一张街景所反映的城市功能进行推断（没有训练过程，只有推理过程），这样的话我们不再需要继续训练，不再需要真值数据样本，就可以获得答案。例如，对于流行的CLIP这一视觉语言模型，我们是否可以直接将每一幅街景图像与城市功能的分类（居住区、商业区、工业区…）进行匹配，从而得到答案。这样我们就可以进行零样本推断，不需要训练，也不需要真值数据，是很令人期待的。

然而，我们发现这一简单匹配的方法效果并不好。第一个问题是城市功能类别影射了高级、抽象，有时是多义的语义。但是CLIP对具体概念处理的更好，而时常无法理解抽象的文本。第二个问题源于现实世界SVI中普遍存在的可能分散注意力的元素，例如车辆、道路表面、交通设施如公交车站、路边景观如树木等。这种频繁出现的视觉信息对推断城市功能的指示作用很弱，但可能会转移CLIP的注意力，例如，CLIP可能会错误地认为有几辆车的SVI反映了一个停车场。

在这种情况下，这篇文章提出了一种名为UrbanCLIP提示框架（如下图所示），以进行零样本的城市功能推断。UrbanCLIP的关键设计原则是简单性，它不需要标记样本也不需要模型训练，并且可以方便地在实际的城市分析中使用。UrbanCLIP具有两个关键组件：

1）城市名词词典：来将抽象城市功能类别（例如住宅）映射到CLIP易于理解的具体城市对象类型（例如公寓）的城市功能分类体系。简单来说，我们不再让CLIP来判断一张图片反映的是住宅还是商业还是工业等等功能属性，而是让其判断这是公寓楼、别墅、购物中心等等更细粒度的城市对象。这一城市名词词典如下图所示。

2）城市功能提示模板：以减轻SVIs中的干扰和噪声。在这些模板中，tree, vehicle, road这些信号被明确地指出来，这样就可以在CLIP判断的过程中对它们进行弱化。这些提示模板如下图所示。

我们在三个场景中验证了UrbanCLIP这个框架的有效性，分别是主要功能推断，多种功能推断，以及迁移实验。我们发现在这三种场景下，UrbanCLIP都取得了不错的效果，其效果比微调一个ResNet101要更好。考虑到UrbanCLIP是零样本方法，而微调一个ResNet101需要许多样本，这是一个很有实际意义的方法。下图展示了在主要功能推断中UrbanCLIP与一系列baseline的对比。

有了UrbanCLIP这个零样本的推理框架，我们对深圳的建成区进行了细粒度的城市功能推理和绘图（如下图所示）。

最后，我们想要分享的是，大模型对地理任务有一定的理解和能力。同时我们需要用我们的领域知识去进一步引导大模型来更好地理解我们的领域问题，这会对我们的分析任务大有裨益。

参考文献

Huang, W., Wang, J., & Cong, G. (2024). Zero-shot urban function inference with street view images through prompting a pretrained vision-language model. International Journal of Geographical Information Science. https://doi.org/10.1080/13658816.2024.2347322

点击推送最下方的“阅读原文”即可下载论文和源码。

你可能感兴趣

教学 | 基于街景图像的城市绿化空间分析

论文 | 耦合街景影像和深度异常检测方法的微观尺度城市扒窃犯罪风险评估

论文 | 可视绿色空间预测情绪：来自社交媒体和街景数据的证据

论文 | 基于深度学习与街景图像的城市感知研究

论文 | 街景图像可以定量反映城市小区内部的职住模式吗？

http://mp.weixin.qq.com/s?__biz=MzI2MDYwNzQzMQ==&mid=2247487406&idx=1&sn=5ddb28262a6afefd188438643910f19a

UrbanComp位置智能和城市感知

中国地质大学（武汉）地理与信息工程学院姚尧老师课题组，UrbanComp@HPSCIL的科研发布公众号。研究方向为地理位置智能、时空数据挖掘和可计算城市科学。团队主页：https://www.urbancomp.net。

最新文章

最新进展 | 共享单车出行背景下地铁站的异质可达性对土地利用变化的影响

最新进展 | 艾滋病防控新视野：时空分析揭示中国疫情发展关键节点

最新进展 | 基于心梗风险和医疗资源优化的自动体外除颤器（AED）位置选址

数据发布 | CN-MSLU-100K：地块（社区）尺度全国土地利用类别数据集

最新进展 | DCAI-CLUD：以数据为中心的土地利用数据集构建框架

最新进展 | 基于街景数据的老年人视觉绿地与抑郁的关系研究

最新进展 | UrbanCLIP: 基于街景图像的零样本城市功能推断框架

代码开源 | UrbanVCA（Python版）开源

公益讲座 | 地理空间智能（GeoAI）学术研讨会及编程工作坊 | 5.25 武大徕卡厅

Python地理空间Workshop | 基于多源数据融合的土地利用分类模型

Python地理空间Workshop | 面向复杂城市系统的大规模物流优化算法

Python地理空间Workshop | 基于街景图像的城市绿化空间分析

最新进展 | 融合多模态数据的城市土地利用识别和不确定性分析

学术讲座 | GeoAI 2024系列在线讲座

会议通知 | 第三届社会遥感地理计算暨中国遥感应用协会社会遥感地理计算专业委员会学术年会

最新进展 | 土地覆盖变化矢量元胞自动机模型的适用性及敏感性分析

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉