GRSM顶刊综述 | 遥感中的视觉-语言模型: 方法与数据资源汇总, 当前进展和未来趋势

文摘 2024-12-07 08:30 荷兰

RS DL

论文介绍

题目：Vision-Language Models in Remote Sensing: Current progress and future trends

期刊：IEEE Geoscience and Remote Sensing Magazine

论文：https://ieeexplore.ieee.org/document/10506064

年份：2024

单位：阿卜杜拉国王科技大学，纽约大学，北京大学，慕尼黑工业大学

说明：本文由论文原作者审阅

主要内容

视觉语言模型（VLMs）在遥感中的重要性：VLMs结合视觉和文本信息，能够提升遥感图像的语义理解和推理能力，适用于多种任务，如图像描述、文本检索和视觉问答。
研究现状和模型架构：现有研究主要使用融合编码器和双编码器架构，通过预训练和自监督学习，在遥感领域实现任务性能的显著提升。
主要应用领域：VLMs在遥感中应用于图像描述、文本生成图像、基于文本的图像检索、视觉问答等多个方面，推动了遥感数据智能化管理和分析。
挑战与未来方向：现有VLMs面临数据集规模小、领域迁移困难等问题，未来需构建更大规模的多模态数据集并增强模型的泛化能力。

从视觉模型到视觉语言模型

视觉模型（Vision Models）
主要介绍了传统卷积神经网络（CNNs）的发展历程，包括LeNet、AlexNet、ResNet等，以及最新的Transformer架构（例如ViT）。这些模型在视觉特征提取方面具有强大能力，但缺乏对语义和关系的理解。

语言模型（LLMs）

GPT系列、BERT及其变体推动语言理解的发展，并为跨模态建模提供了基础。

视觉语言模型（VLMs）

通过融合视觉和文本信息，VLMs克服了传统视觉模型的局限性，可实现语义推理和零样本任务。文章阐述了VLMs的两种主要架构：融合编码器和双编码器。

Fusion Encoder（融合编码器）

融合视觉特征和文本嵌入，使用跨模态Transformer通过自注意力或交叉注意力机制捕获视觉-语言的复杂交互。
典型模型如VisualBERT和ViLBERT，将视觉和语言特征联合编码生成共享语义表示。
精确捕获模态关系，适合图像描述生成等任务，但计算成本较高。

Dual Encoder（双编码器）

独立编码视觉和文本特征，通过点积或MLP在共享空间计算相似性。
典型模型如CLIP和ALIGN，效率高，适合文本图像检索等任务。
解耦模态处理，计算高效，但对复杂模态交互支持有限。

遥感中的视觉语言模型

基础模型（Foundation Models）

基础模型是通过大规模数据集预训练的深度学习模型，能够适应多种下游任务（分类、检测和分割），包括零样本和少样本学习。
现有进展：如RingMo模型基于自监督学习构建了遥感领域的生成式基础模型；其他研究结合大规模遥感数据（如MillionAID）开发了领域特定的视觉Transformer。
挑战：自然图像预训练模型存在域间差异，无法很好适应遥感图像，因此需要针对遥感构建专用的基础模型。

应用方向

图像描述（Image Captioning）

通过视觉语言模型对遥感图像进行自然语言描述，处理地物的多尺度特征和空间关系，常用UCM-caption、Sydney-caption、RSICD数据集。相比之前研究多聚焦于简短的图像描述，RSGPT提供了高精度、细粒度的图像描述，涵盖了地物目标细节信息，例如大小、位置、颜色等。

基于文本的图像生成（Text-Based Image Generation）

使用生成对抗网络（GAN）从文本生成遥感图像，帮助创建高质量的遥感数据集，如StrucGAN和Txt2Img-MHN。

基于文本的图像检索（TBIR）

通过文本描述检索遥感图像，多语言支持和多尺度特征提取是当前研究重点。

视觉问答（Visual Question Answering, VQA）

通过自然语言问题交互分析遥感图像，降低非专业用户使用门槛。

Visual Grounding

视觉指向任务旨在将自然语言描述与图像中的特定区域关联起来，增强对目标位置的精确标注。在遥感中，这一任务可以用于精确标记建筑物、道路等区域，以满足土地管理和城市规划需求。

零样本场景分类（Zero-Shot Scene Classification）

零样本场景分类任务旨在无需目标场景的标注样本，通过迁移学习或语义推理模型对遥感图像进行场景分类。视觉语言模型通过预训练的大规模数据集，结合语义嵌入（如Word2Vec、Glove），实现对新场景类别的准确分类。

小样本目标检测（Few-Shot Object Detection）

在有限的标注样本情况下，训练模型以检测新类别的目标。通过视觉语言模型的迁移学习能力，可以显著提高遥感图像中稀有类别目标的检测精度，例如检测灾害后新出现的建筑物损毁。

小样本/零样本语义分割（Few-/Zero-Shot Semantic Segmentation）

利用少量样本甚至无需样本的情况下，对遥感图像中的地物进行语义分割。基于视觉语言模型，遥感数据的分割可以结合语义推理与视觉特征，完成新类别地物的自动分割，例如未标注土地类型的分类。

实用资源总结

数据集

开源代码库

文章推荐了一些适用于VLMs研究的开源工具：

Huggingface: 提供Transformer库，简化VLM的下载、运行和微调过程。
MiniGPT-4: 展示了生成性和视觉语言任务的潜力，其增强版本（MiniGPT-v2）改进了空间理解和视觉定位能力。
LLaVA: 结合视觉编码器和语言模型的多模态模型，支持各种任务如科学问答和视觉-语言基准测试。
LAVIS: 提供统一的Python框架，支持20多个标准数据集和30多个预训练VLM。

在线工具

OpenAI API: 提供强大的多模态工具，如文本生成、图像生成和文本/图像嵌入。
Qwen-VL: 支持多语言交互的多模态模型，擅长跨语言文本识别和问答。
Midjourney: 用于文本到图像生成的强大工具，推动视觉语言研究的多样化。

结论和未来趋势

主要结论

革新遥感数据分析：VLMs结合视觉和语言两种模态，使得对遥感影像的分析与解读更加复杂且深入。这些模型增强了有意义信息的提取能力，连接了视觉感知与语言理解。
优于纯视觉模型的优势：VLMs在遥感的多项任务中表现出色，包括图像描述生成、文本驱动图像生成、文本图像检索（TBIR）、视觉问答（VQA）、场景分类、语义分割和目标检测等。它们具备零样本学习能力，可以更有效地处理分布外数据。
新兴研究领域：尽管已展示成功应用，VLMs在遥感领域仍属于起步阶段。本综述旨在激发更多研究探索与创新。

未来研究方向

大规模图像-文本配对数据集：构建多样化的大规模数据集，以支持遥感领域的大模型训练。
视觉-语言基础模型：开发更强大的基础模型，提升遥感图像的语义理解能力。
基于扩散模型的图像生成：利用扩散模型生成合成图像，增强数据多样性和模型鲁棒性。
小样本/零样本学习：设计新技术提升VLMs在少量数据条件下的学习与推理能力。
遥感数据的高效微调：通过Prompt微调、Adapter网络等技术减少模型参数调整的计算成本。
融合遥感领域知识：将遥感领域的传感器理论和空间特性融入模型优化过程。
结合地理文本信息：将社交媒体、新闻等地理文本信息与遥感数据融合，拓展新应用场景。
气候变化适应与缓解：通过VLMs监测森林覆盖变化，助力气候变化相关的保护与恢复行动。

相关工作

Yuan Hu, Jianlong Yuan, Congcong Wen, Xiaonan Lu, Xiang Li. RSGPT: A Remote Sensing Vision Language Model and Benchmark. ArXiv 2024.
Xiang Li, Jian Ding, Mohamed Elhoseiny. VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding. NeruIPS 2024.

招生

论文第一作者，雷丁大学李祥博士招收AI+对地观测方向博士研究生/实习生，有兴趣的同学请参考李博士主页https://xiangli.ac.cn.

更多图表分析可见原文

欢迎关注会议论文赏读系列

因配置了AI回复功能，除关键词自动回复外，号内信息主要由AI大模型回复。如需资源、投稿、合作等，请直接联系小助手微信（添加请备注：咨询、投稿、合作、加群，加群需备注姓名/昵称，单位和研究方向）。

公众号欢迎优秀作者投稿！可加入优秀论文作者群：欢迎加入AI遥感优秀论文作者群！

问题及讨论可直接在文章下方留言

最新文章

AAAI2025 | ZoRI: 零样本遥感实例分割, 代码已开源

技术实践 | Sora 遥感视频生成实践, 圣诞假期Plus用户可无限量使用Sora

导师一个idea都没给，但也发了遥感顶会，我摸索的这个方法绝了！

资讯 | NASA与IBM发布扩展版地理空间AI基础模型, 含demo测试

RSE | 以遥感AI分类算法的发展视角重新思考高光谱成像核心参数的权衡性问题

ISPRS | 北大团队提出用于建筑年龄预测的图神经网络模型BAPN

GRSM | 回顾500个公开遥感数据集, 提出EarthNet AI遥感开放平台, 算法性能比较与数据集共享

招生招聘 | 中科院空天院2025年度高层次人才招聘

TGRS | EHSnet: 基于文本高级语义增强的多模态高光谱域泛化分类网络, 代码已开源

TGRS | 多云多雨地区农作物分类制图, 结合物候信息的模型PhenoCropNet, 可结合GEE大规模作物制图

最新论文 | BAFE-Net: 密集红外弱小目标数据集与检测框架

GRSM顶刊综述 | 全面总结SAR在城市洪水制图中的应用

NeurIPS24 | Terra: 覆盖全球的多模态时空数据集

BEDJ | 清华团队构建的全球民用遥感卫星数据库, 超2000颗卫星详细信息

没创新点？照样发遥感顶刊！

汇总 | 希腊字母在遥感/GIS/CV领域公式中的常见含义汇总

ISPRS | 克服遥感建筑变化检测中的不确定性问题, 代码已开源

TGRS | RingMoGPT: 空天院团队提出统一的视觉-语言遥感基础模型, 六大任务表现出色

ISPRS | PolyR-CNN: 端到端的建筑轮廓提取

RSE | 检测被树冠遮挡的城市区域? 遮挡感知精细化制图, 用于全国31个城市

数据汇总 | GEE中的13个免费高分辨率遥感数据集, 含示例代码

GRSM顶刊综述 | 遥感中的视觉-语言模型: 方法与数据资源汇总, 当前进展和未来趋势

遥感顶刊秘籍，一键解锁！如何弯道超车？

资讯 | Sentinel-1C 卫星成功发射

GRSM顶刊综述 | 图神经网络在遥感中的应用

TGRS | 检测伪造遥感影像问题！用于卫星影像伪造信息定位与检测的框架FLDCF, 代码已开源

TGRS | CrossMatch: 提升半监督遥感语义分割性能, 跨视图学习框架

又一篇遥感顶刊！这个idea简直“ 杀疯了 ” ....

NeurIPS24 | 启航新领域! 用于(近)沿海洪水淹没预测的数据集与基准, 并提出两级架构

数据 | 全球农田边界数据fiboa介绍, 本地及GEE使用实测, 可转为Shapefile格式

ISPRS | 多模态遥感语义分割,使用RGB和SAR数据用于土地覆盖分类的网络ASANet

TGRS | CIG-STF: 变化信息引导的遥感影像时空融合

RSE | 双分支网络遥感农田制图，数据代码开源

从Transformer到生成式模型, 遥感SCI顶刊进阶！

TGRS | 构建山地植被知识图谱, 结合深度学习, 遥感影像, 地理学原理和地图数据

新研究 | 博士研究有损心理健康, 但没有以往担心的那么严重

TGRS | 可变形傅里叶卷积用于遥感道路分割,代码已开源

频发遥感顶刊！这个新方向杀疯了，抓紧搞起来

GRSM顶刊综述 | 深度学习用于时间序列卫星影像分析

TGRS | PolyRoad: 北大, 达摩院团队提出道路边界检测的transformer网络

ACM MM24 | UrbanCross: 通过跨域适配增强卫星图像-文本检索, 香港科技大学广州分校等团队提出

TGRS | 无需切成小块图像! 金字塔超像素transformer用于高光谱图像分类

NeurIPS24 | M3LEO: 剑桥大学等提出集成干涉SAR和多光谱影像的多模态多标签数据集

TGRS | UBCV2:全球建筑检测和细粒度分类数据集, 光学和SAR影像精准对齐

TIP | 武大团队提出跨模态异常检测模型UniADRS, 用于遥感图像

技术实践 | 如何在YOLO11中训练tif格式4波段遥感图像？

TGRS | U²ConvFormer: 复旦团队提出高光谱图像分类模型, 结合U-Net和Transformer

ISPRS | SoftFormer: 多层次融合处理多模态遥感数据, 土地利用和土地覆盖分类

资讯 | 2024软科世界一流学科排名! 遥感、计算机专业排名

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉