TGRS | EarthGPT: 多模态遥感大语言模型, MMRS-1M数据已全部开源!

文摘   2025-01-06 08:01   挪威  

 RS   DL 

论文介绍

题目:EarthGPT: A Universal Multimodal Large Language Model for Multisensor Image Comprehension in Remote Sensing Domain

期刊:IEEE Transactions on Geoscience and Remote Sensing

论文:https://ieeexplore.ieee.org/abstract/document/10547418

数据/代码:https://github.com/wivizhang/EarthGPT

年份:2024
单位:北京理工大学
注:本篇由论文原作者审阅

创新点

  • 统一的多模态框架:EarthGPT设计为一个通用的多模态大语言模型(MLLM),集成了多种遥感(RS)任务,突破了传统的单一任务框架。
  • 多传感器数据融合:整合了光学、合成孔径雷达(SAR)和红外数据,支持全面的RS图像理解。
  • 模块:
    • 视觉增强感知(Visual-Enhanced Perception)。
    • 跨模态互理解(Cross-Modal Mutual Comprehension)。
    • 统一指令微调(Unified Instruction Tuning)。
  • 大规模数据集:构建了MMRS-1M数据集,包含超过100万组图像-文本对,为RS任务提供支持,填补了现有MLLM在RS领域的知识空白。

数据

构建了一个大规模的多模态、多任务遥感数据集 MMRS-1M,包含超过 100万组图像-文本对。这些数据来源于 34个现有的遥感数据集,涵盖了多种遥感成像模态和任务类型,主要用于支持模型的多任务训练和遥感领域的统一任务解译。

任务类型:

  • 分类(Classification):为遥感图像分配预定义的类别。
  • 目标检测(Object Detection):定位并分类图像中的目标,提供水平框(HBB)和旋转框(OBB)。
  • 图像描述(Image Captioning):生成描述遥感图像内容的文字。
  • 视觉问答(Visual Question Answering, VQA):根据图像回答语言问题。
  • 视觉定位(Visual Grounding):基于语言描述定位目标区域。
数据模态:
  • 光学(Optical)
  • 合成孔径雷达(SAR)
  • 红外(Infrared)
多模态数据的统一性:
数据集将不同模态和任务格式转化为统一的“图像-指令-回答”格式,通过对现有数据的清理和标准化,生成对话式多轮任务数据。
数据集来源:

数据集构建

  • 数据来自广泛的公开遥感数据集,涵盖多个领域应用场景(如地面目标分类、船舶检测等)。
  • 数据清理和标准化后生成统一的对话式多任务数据格式。
  • 使用多轮交互机制,每个图像可以包含多组指令-回答对,显著提升数据多样性。

方法

总体结构

  • 视觉增强感知机制(Visual-Enhanced Perception Mechanism):通过结合多种视觉编码器,提取多尺度、多层次的视觉信息。

  • 跨模态互理解方法(Cross-Modal Mutual Comprehension Approach):融合视觉与语言感知信息,实现多模态输入的对齐与推理。

  • 统一指令微调方法(Unified Instruction Tuning Method):通过大规模遥感指令数据集(MMRS-1M)微调模型,实现多任务统一解译。


视觉增强感知

该机制旨在增强对遥感图像的理解,克服遥感图像中常见的噪声与复杂性,通过两种编码器实现:

  • 多层次空间上下文感知
    • 使用视觉Transformer(ViT)捕获遥感图像中的长距离上下文信息。
    • 提取多个层次的视觉特征,并在通道维度上进行特征融合,提升对细微差异的捕捉能力。
    • 多尺度局部细节感知
      • 使用卷积神经网络(CNN)提取多尺度的局部特征(如边缘和纹理)。
      • 对不同尺度的特征进行上采样,使其分辨率一致,并在通道维度上融合,捕捉遥感图像中的局部细节。

      跨模态互理解

      该方法旨在融合视觉与语言特征,增强多模态之间的对齐与交互。
      • 特征对齐:

        • 将视觉特征与语言特征拼接为多模态输入。

        • 采用 LLM 的自注意力机制和归一化层(部分解冻)进行训练,确保视觉与语言模态的深度融合。

        • 多模态输入生成:

          • 视觉特征通过 ViT 和 CNN 提取并压缩为 1D 向量。

          • 语言指令经过分词和嵌入编码,转化为 1D 向量。

          • 将视觉和语言特征拼接后输入 LLM,用于多模态对齐。

          统一指令微调方法

          为了适应遥感领域特定任务,EarthGPT 进行统一指令微调。
          • 指令格式化:
            • 将 MMRS-1M 数据集的所有任务转换为统一的指令形式,例如分类、检测、描述等任务都以视觉问答(VQA)格式表示。
            • 偏置微调:
              • 冻结模型的大部分参数,仅在线性层中引入可学习的偏置(bias)和偏移(shift)参数,提升模型对新任务的适应能力。
              • 偏置和偏移初始化为稳定值,确保训练稳定性。
              • 遥感领域迁移:
                • 结合自然领域知识和遥感领域指令数据(MMRS-1M),通过两阶段训练(预训练和微调),实现从自然图像到遥感数据的高效迁移。

                实验与分析

                全面评估 EarthGPT 在遥感领域的多任务性能,并与现有最优模型(SOTA)进行对比。实验表明 EarthGPT 在多模态融合、多任务解译和领域迁移中表现优越,尤其在统一解译和零样本推理上具有显著优势。
                • 分类任务:评估模型在多种地物类型上的分类能力。
                • 图像描述:测试模型生成遥感图像语义描述的准确性。
                • 视觉问答:验证模型在回答遥感问题中的推理能力。
                • 目标检测:评估模型对光学、SAR 和红外目标的定位与识别能力。
                • 零样本能力:分析模型在未见场景或数据上的泛化表现。

                可视化

                更多图表分析可见原文


                公众号AI回复功能已启用,如需加群、投稿或合作,请微信联系小助手(备注:咨询/投稿/合作/加群,加群需姓名/昵称、单位和研究方向)。

                公众号欢迎优秀作者投稿!投稿说明请查看:投稿说明

                往期推荐

                论文赏读 | ECCV24 | LHRS-Bot: 遥感视觉语言多模态大模型; 基于OSM地理信息和遥感影像构建大型数据集

                2024-07-15

                TGRS | RingMoGPT: 空天院团队提出统一的视觉-语言遥感基础模型, 六大任务表现出色

                2024-12-10

                论文赏读 | ECCV24 | MMEarth: 多模态预训练数据及方法, 用于遥感任务

                2024-09-20


                  欢迎关注  


                分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



                欢迎加入遥感与深度学习交流群(点此加入)

                遥感与深度学习
                聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
                 最新文章