RS DL
论文介绍
题目:EarthGPT: A Universal Multimodal Large Language Model for Multisensor Image Comprehension in Remote Sensing Domain
期刊:IEEE Transactions on Geoscience and Remote Sensing
论文:https://ieeexplore.ieee.org/abstract/document/10547418
数据/代码:https://github.com/wivizhang/EarthGPT
创新点
统一的多模态框架:EarthGPT设计为一个通用的多模态大语言模型(MLLM),集成了多种遥感(RS)任务,突破了传统的单一任务框架。 多传感器数据融合:整合了光学、合成孔径雷达(SAR)和红外数据,支持全面的RS图像理解。 模块:
视觉增强感知(Visual-Enhanced Perception)。 跨模态互理解(Cross-Modal Mutual Comprehension)。 统一指令微调(Unified Instruction Tuning)。
大规模数据集:构建了MMRS-1M数据集,包含超过100万组图像-文本对,为RS任务提供支持,填补了现有MLLM在RS领域的知识空白。
数据
构建了一个大规模的多模态、多任务遥感数据集 MMRS-1M,包含超过 100万组图像-文本对。这些数据来源于 34个现有的遥感数据集,涵盖了多种遥感成像模态和任务类型,主要用于支持模型的多任务训练和遥感领域的统一任务解译。
任务类型:
分类(Classification):为遥感图像分配预定义的类别。 目标检测(Object Detection):定位并分类图像中的目标,提供水平框(HBB)和旋转框(OBB)。 图像描述(Image Captioning):生成描述遥感图像内容的文字。 视觉问答(Visual Question Answering, VQA):根据图像回答语言问题。 视觉定位(Visual Grounding):基于语言描述定位目标区域。
光学(Optical) 合成孔径雷达(SAR) 红外(Infrared)
数据集构建
数据来自广泛的公开遥感数据集,涵盖多个领域应用场景(如地面目标分类、船舶检测等)。 数据清理和标准化后生成统一的对话式多任务数据格式。 使用多轮交互机制,每个图像可以包含多组指令-回答对,显著提升数据多样性。
方法
总体结构
视觉增强感知机制(Visual-Enhanced Perception Mechanism):通过结合多种视觉编码器,提取多尺度、多层次的视觉信息。
跨模态互理解方法(Cross-Modal Mutual Comprehension Approach):融合视觉与语言感知信息,实现多模态输入的对齐与推理。
统一指令微调方法(Unified Instruction Tuning Method):通过大规模遥感指令数据集(MMRS-1M)微调模型,实现多任务统一解译。
视觉增强感知
该机制旨在增强对遥感图像的理解,克服遥感图像中常见的噪声与复杂性,通过两种编码器实现:
多层次空间上下文感知
使用视觉Transformer(ViT)捕获遥感图像中的长距离上下文信息。 提取多个层次的视觉特征,并在通道维度上进行特征融合,提升对细微差异的捕捉能力。
多尺度局部细节感知
使用卷积神经网络(CNN)提取多尺度的局部特征(如边缘和纹理)。 对不同尺度的特征进行上采样,使其分辨率一致,并在通道维度上融合,捕捉遥感图像中的局部细节。
跨模态互理解
特征对齐:
将视觉特征与语言特征拼接为多模态输入。
采用 LLM 的自注意力机制和归一化层(部分解冻)进行训练,确保视觉与语言模态的深度融合。
多模态输入生成:
视觉特征通过 ViT 和 CNN 提取并压缩为 1D 向量。
语言指令经过分词和嵌入编码,转化为 1D 向量。
将视觉和语言特征拼接后输入 LLM,用于多模态对齐。
统一指令微调方法
指令格式化:
将 MMRS-1M 数据集的所有任务转换为统一的指令形式,例如分类、检测、描述等任务都以视觉问答(VQA)格式表示。
偏置微调:
冻结模型的大部分参数,仅在线性层中引入可学习的偏置(bias)和偏移(shift)参数,提升模型对新任务的适应能力。 偏置和偏移初始化为稳定值,确保训练稳定性。
遥感领域迁移:
结合自然领域知识和遥感领域指令数据(MMRS-1M),通过两阶段训练(预训练和微调),实现从自然图像到遥感数据的高效迁移。
实验与分析
分类任务:评估模型在多种地物类型上的分类能力。 图像描述:测试模型生成遥感图像语义描述的准确性。 视觉问答:验证模型在回答遥感问题中的推理能力。 目标检测:评估模型对光学、SAR 和红外目标的定位与识别能力。 零样本能力:分析模型在未见场景或数据上的泛化表现。
可视化
更多图表分析可见原文
公众号欢迎优秀作者投稿!投稿说明请查看:投稿说明
2024-07-15
2024-12-10
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。