概要:当前多模态大模型主要依赖通用图像数据集进行训练,缺乏地理空间数据,导致在遥感观测等任务中的表现不佳。为了解决这一问题,视觉-语言地理基础模型(VLGFMs)应运而生。VLGFMs通过从零开始的数据收集和利用现有数据集进行数据增强,构建了适用于地理空间任务的数据集。模型架构方面,VLGFMs分为对比型、对话型和生成型,以适应不同的应用场景。这里对VLGFMs的两个近期工作进行介绍:RemoteCLIP和GeoChat。RemoteCLIP是首个用于遥感图像的视觉-语言基础模型,通过引入大规模遥感图像数据集,学习具有丰富语义的视觉特征并与文本嵌入对齐。RemoteCLIP通过Box-to-Caption(B2C)和Mask-to-Box(M2B)方法扩展数据集,设计了图像和文本编码器,并使用InfoNCE损失函数进行训练。实验结果表明,RemoteCLIP在多种下游任务上表现优异,包括零样本图像分类、线性探测、k-NN分类、少样本分类、图像-文本检索和对象计数。GeoChat是一个基于大语言模型的遥感视觉-语言模型,针对遥感图像的高分辨率、多尺度变化和大量小物体,提供了区域级推理和场景整体解释的能力。GeoChat的模型架构和训练方法详细介绍了图像和文本编码器的设计。Benchmark实验包括场景分类、视觉问答和视觉定位三个任务,分别在AID、UCMerced、RSVQA-HRBEN、RSVQA-LRBEN和SAMRS数据集上进行评估,结果显示GeoChat在这些任务上相比于其他通用多模态模型表现出色。
论文题目:Remoteclip: A vision language foundation model for remote sensing
论文链接:https://arxiv.org/abs/2306.11029
论文代码:https://github.com/ChenDelong1999/RemoteCLIP
发表日期:2023.06
方法动机:先前工作在卫星图像分析中主要使用掩码图像建模(MIM)方法。MIM方法通过随机掩码和补全图像的方式进行训练,学习图像的低级特征。然而这种方法存在一定的局限性。首先是低级特征学习:Kong等人[1]和Li等人[2]的研究表明,MIM方法主要学习遮挡不变特征,即通过隐式对齐原始图像的两个视图(一个带随机掩码,一个带互补掩码)来学习特征。这种遮挡不变性在自然图像识别中很重要,因为地面视图经常会有不可避免的对象遮挡。然而,遥感图像的空中视图提供了无遮挡的感知,因此遮挡不变性变得不那么必要。其次缺乏语义信息:理论和实证研究[3,4]表明,MIM方法主要学习低级特征,缺乏语义信息。这些特征在低级密集预测任务(如检测和分割)中具有优势,但在高级语义识别任务(如线性探测和少样本学习)中表现不佳。此外,Park等人[5]指出,MIM方法倾向于学习高频纹理特征,而不是捕捉长距离的全局模式,这与人类行为证据相悖,可能限制了模型性能和鲁棒性。
方法要点:本文首要贡献是引入大规模遥感图像数据集,提出了BoxtoCaption(B2C)和MasktoBox(M2B)自动构建数据集,可以将异构标注转换为统一的图像文本数据格式,扩展预训练数据集。其次提出新的视觉语言基础模型RemoteCLIP:包括图像编码器和文本编码器的设计,以及通过InfoNCE损失函数进行训练。最后在多种下游任务上进行广泛评估:包括零样本图像分类、线性探测、kNN分类、少样本分类、图像文本检索和对象计数。
图1数据扩增流程
通过Box-to-Caption(B2C)和Mask-to-Box(M2B)转换方法将异构注释转换为统一的图像-文本数据格式。Box-to-Caption(B2C)生成方法旨在将对象检测数据集中的边界框注释和标签转换为一组自然语言描述。具体步骤如下:
类别数量描述:根据图像中不同对象类别的数量生成描述。从边界框注释列表中随机选择对象,生成描述。如果某个对象的出现次数超过10次,使用更通用的术语(如“许多”、“很多”)来增强描述的可读性和多样性。
图2 Mask-to-Box
Mask-to-Box(M2B)转换方法旨在将语义分割数据集中的分割掩码转换为边界框注释,从而可以进一步应用B2C生成方法。具体步骤如下:
1. 处理分割掩码
按类别处理:对每个类别的分割掩码进行处理,将每个像素标签编码为目标类别。
提取轮廓点:识别每个类别在掩码图像中的连通区域轮廓点。
2. 确定边界框坐标
排序轮廓点:对每个连通区域的轮廓点进行排序,提取水平和垂直坐标的最小值和最大值,据此获取每个物体的边界框。
主要结果:
图3 图文检索
图4 Zero-shot分类结果
相关工作:
[1] Kong X, Zhang X. Understanding masked image modeling via learning occlusion invariant feature[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 6241-6251.
[2] Li S, Wu D, Wu F, et al. Architecture-Agnostic Masked Image Modeling--From ViT back to CNN[J]. arXiv preprint arXiv:2205.13943, 2022.
[3] Xie Z, Geng Z, Hu J, et al. Revealing the dark secrets of masked image modeling[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023: 14475-14485.
[4] Tao C, Zhu X, Su W, et al. Siamese image modeling for self-supervised vision representation learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 2132-2141.
[5] Park N, Kim W, Heo B, et al. What do self-supervised vision transformers learn?[J]. arXiv preprint arXiv:2305.00729, 2023.
论文题目:Geochat: Grounded large vision-language model for remote sensing
论文链接:https://arxiv.org/abs/2311.15826
论文代码:https://github.com/mbzuai-oryx/geochat
发表日期:2023.11
方法动机:遥感图像的高分辨率、多尺度变化和小物体特性,需要区域级推理和场景整体解释。当前多模态大模型主要依赖通用图像数据集进行训练,缺乏地理空间数据,导致在遥感观测等任务中的表现不佳。GeoChat通过多模态融合和区域级推理,提升模型在遥感图像中的表现。
方法要点:
使用目标检测数据集构造遥感图像自然语言表达式后通过vicuna-v1.5-7b生成fine-tuning数据集。
图1 生成fine-tuning数据流程
模型结构: 视觉编码器在CLIP ViT-L/14 336px上通过位置编码插值将分辨率提升为504px,MLP Adaptor为LLaVA的权重直接冻结使用,只在LLM上进行LoRA微调。
图2 模型结构
Benchmark构造:
场景分类:在AID和UCMerced数据集上进行评估,提示模型使用所有类别进行分类,并要求其输出一个单词或短语,计算零样本准确率。
视觉问答:在RSVQAHRBEN和RSVQALRBEN数据集上进行评估,约束答案为简单的yes/no,并添加适当的提示,计算平均准确率。
视觉定位:使用SAMRS数据集的验证集构建新的基准,包括指代表达检测、视觉定位描述和区域级描述,使用IoU(Intersection over Union)作为评估指标,计算准确率@0.5。
主要结果:
图3 实验结果
相关工作:
[1]Bazi Y, Bashmal L, Al Rahhal M M, et al. Rs-llava: A large vision-language model for joint captioning and question answering in remote sensing imagery[J]. Remote Sensing, 2024, 16(9): 1477.
[2]Luo J, Pang Z, Zhang Y, et al. Skysensegpt: A fine-grained instruction tuning dataset and model for remote sensing vision-language understanding[J]. arXiv preprint arXiv:2406.10100, 2024.
主持人:李金秋