GRSM顶刊综述 | 遥感中的视觉-语言模型: 方法与数据资源汇总, 当前进展和未来趋势

文摘   2024-12-07 08:30   荷兰  

 RS   DL 

论文介绍

题目:Vision-Language Models in Remote Sensing: Current progress and future trends

期刊:IEEE Geoscience and Remote Sensing Magazine

论文:https://ieeexplore.ieee.org/document/10506064

年份:2024
单位:阿卜杜拉国王科技大学,纽约大学,北京大学,慕尼黑工业大学
说明:本文由论文原作者审阅

主要内容

  • 视觉语言模型(VLMs)在遥感中的重要性:VLMs结合视觉和文本信息,能够提升遥感图像的语义理解和推理能力,适用于多种任务,如图像描述、文本检索和视觉问答。
  • 研究现状和模型架构:现有研究主要使用融合编码器和双编码器架构,通过预训练和自监督学习,在遥感领域实现任务性能的显著提升。
  • 主要应用领域:VLMs在遥感中应用于图像描述、文本生成图像、基于文本的图像检索、视觉问答等多个方面,推动了遥感数据智能化管理和分析。
  • 挑战与未来方向:现有VLMs面临数据集规模小、领域迁移困难等问题,未来需构建更大规模的多模态数据集并增强模型的泛化能力。

从视觉模型到视觉语言模型

视觉模型(Vision Models)
主要介绍了传统卷积神经网络(CNNs)的发展历程,包括LeNet、AlexNet、ResNet等,以及最新的Transformer架构(例如ViT)。这些模型在视觉特征提取方面具有强大能力,但缺乏对语义和关系的理解。


语言模型(LLMs)
GPT系列、BERT及其变体推动语言理解的发展,并为跨模态建模提供了基础。

视觉语言模型(VLMs)

通过融合视觉和文本信息,VLMs克服了传统视觉模型的局限性,可实现语义推理和零样本任务。文章阐述了VLMs的两种主要架构:融合编码器和双编码器。

Fusion Encoder(融合编码器)

  • 融合视觉特征和文本嵌入,使用跨模态Transformer通过自注意力或交叉注意力机制捕获视觉-语言的复杂交互。

  • 典型模型如VisualBERT和ViLBERT,将视觉和语言特征联合编码生成共享语义表示。

  • 精确捕获模态关系,适合图像描述生成等任务,但计算成本较高。

Dual Encoder(双编码器)

  • 独立编码视觉和文本特征,通过点积或MLP在共享空间计算相似性。

  • 典型模型如CLIP和ALIGN,效率高,适合文本图像检索等任务。

  • 解耦模态处理,计算高效,但对复杂模态交互支持有限。

    遥感中的视觉语言模型

    基础模型(Foundation Models)

    • 基础模型是通过大规模数据集预训练的深度学习模型,能够适应多种下游任务(分类、检测和分割),包括零样本和少样本学习。
    • 现有进展:如RingMo模型基于自监督学习构建了遥感领域的生成式基础模型;其他研究结合大规模遥感数据(如MillionAID)开发了领域特定的视觉Transformer。
    • 挑战:自然图像预训练模型存在域间差异,无法很好适应遥感图像,因此需要针对遥感构建专用的基础模型。


    应用方向
    图像描述(Image Captioning)

    通过视觉语言模型对遥感图像进行自然语言描述,处理地物的多尺度特征和空间关系,常用UCM-caption、Sydney-caption、RSICD数据集。相比之前研究多聚焦于简短的图像描述,RSGPT提供了高精度、细粒度的图像描述,涵盖了地物目标细节信息,例如大小、位置、颜色等。

    基于文本的图像生成(Text-Based Image Generation)
    使用生成对抗网络(GAN)从文本生成遥感图像,帮助创建高质量的遥感数据集,如StrucGAN和Txt2Img-MHN。

    基于文本的图像检索(TBIR)
    通过文本描述检索遥感图像,多语言支持和多尺度特征提取是当前研究重点。

    视觉问答(Visual Question Answering, VQA)
    通过自然语言问题交互分析遥感图像,降低非专业用户使用门槛。

    Visual Grounding
    视觉指向任务旨在将自然语言描述与图像中的特定区域关联起来,增强对目标位置的精确标注。在遥感中,这一任务可以用于精确标记建筑物、道路等区域,以满足土地管理和城市规划需求。

    零样本场景分类Zero-Shot Scene Classification

    零样本场景分类任务旨在无需目标场景的标注样本,通过迁移学习或语义推理模型对遥感图像进行场景分类。视觉语言模型通过预训练的大规模数据集,结合语义嵌入(如Word2Vec、Glove),实现对新场景类别的准确分类。

    小样本目标检测Few-Shot Object Detection

    在有限的标注样本情况下,训练模型以检测新类别的目标。通过视觉语言模型的迁移学习能力,可以显著提高遥感图像中稀有类别目标的检测精度,例如检测灾害后新出现的建筑物损毁。

    小样本/零样本语义分割Few-/Zero-Shot Semantic Segmentation

    利用少量样本甚至无需样本的情况下,对遥感图像中的地物进行语义分割。基于视觉语言模型,遥感数据的分割可以结合语义推理与视觉特征,完成新类别地物的自动分割,例如未标注土地类型的分类。

      实用资源总结

      数据集

      开源代码库

      文章推荐了一些适用于VLMs研究的开源工具:

      • Huggingface: 提供Transformer库,简化VLM的下载、运行和微调过程。
      • MiniGPT-4: 展示了生成性和视觉语言任务的潜力,其增强版本(MiniGPT-v2)改进了空间理解和视觉定位能力。
      • LLaVA: 结合视觉编码器和语言模型的多模态模型,支持各种任务如科学问答和视觉-语言基准测试。
      • LAVIS: 提供统一的Python框架,支持20多个标准数据集和30多个预训练VLM。

      在线工具

      • OpenAI API: 提供强大的多模态工具,如文本生成、图像生成和文本/图像嵌入。
      • Qwen-VL: 支持多语言交互的多模态模型,擅长跨语言文本识别和问答。
      • Midjourney: 用于文本到图像生成的强大工具,推动视觉语言研究的多样化。

      结论和未来趋势

      主要结论

      • 革新遥感数据分析:VLMs结合视觉和语言两种模态,使得对遥感影像的分析与解读更加复杂且深入。这些模型增强了有意义信息的提取能力,连接了视觉感知与语言理解。
      • 优于纯视觉模型的优势:VLMs在遥感的多项任务中表现出色,包括图像描述生成、文本驱动图像生成、文本图像检索(TBIR)、视觉问答(VQA)、场景分类、语义分割和目标检测等。它们具备零样本学习能力,可以更有效地处理分布外数据。
      • 新兴研究领域:尽管已展示成功应用,VLMs在遥感领域仍属于起步阶段。本综述旨在激发更多研究探索与创新。

      未来研究方向

      • 大规模图像-文本配对数据集:构建多样化的大规模数据集,以支持遥感领域的大模型训练。
      • 视觉-语言基础模型:开发更强大的基础模型,提升遥感图像的语义理解能力。
      • 基于扩散模型的图像生成:利用扩散模型生成合成图像,增强数据多样性和模型鲁棒性。
      • 小样本/零样本学习:设计新技术提升VLMs在少量数据条件下的学习与推理能力。
      • 遥感数据的高效微调:通过Prompt微调、Adapter网络等技术减少模型参数调整的计算成本。
      • 融合遥感领域知识:将遥感领域的传感器理论和空间特性融入模型优化过程。
      • 结合地理文本信息:将社交媒体、新闻等地理文本信息与遥感数据融合,拓展新应用场景。
      • 气候变化适应与缓解:通过VLMs监测森林覆盖变化,助力气候变化相关的保护与恢复行动。


      相关工作

      • Yuan Hu, Jianlong Yuan, Congcong Wen, Xiaonan Lu, Xiang Li. RSGPT: A Remote Sensing Vision Language Model and Benchmark. ArXiv 2024.

      • Xiang Li, Jian Ding, Mohamed Elhoseiny. VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding. NeruIPS 2024.

      招生

      论文第一作者,雷丁大学李祥博士招收AI+对地观测方向博士研究生/实习生,有兴趣的同学请参考李博士主页https://xiangli.ac.cn.


      更多图表分析可见原文


      欢迎关注会议论文赏读系列

      因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。


      公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!




      问题及讨论可直接在文章下方留言


      相关链接:
      最新综述 | 首篇视觉语言地理基础模型综述,方法、数据集及能力对比
      TPAMI | Changen2, 用于生成多时相遥感图像及变化检测数据的基础模型
      论文赏读 | CVPR24 | S2MAE: 空间-光谱预训练基础模型,用于多光谱遥感数据
      论文赏读 | CVPR24 | msGFM: 桥接多源遥感数据的地理空间基础模型

        欢迎关注  


      分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



      欢迎加入遥感与深度学习交流群(点此加入)


      遥感与深度学习
      聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
       最新文章