作者提出了SAM4MLLM,这是一种创新的方法,将Segment Anything Model(SAM)与多模态大规模语言模型(MLLMs)相结合,用于像素感知的任务。作者的方法使MLLMs能够在不改变现有模型架构或添加专用标记的情况下,学习像素 Level 的位置信息。
作者提出了一种基于询问的方法,可以有效地找到SAM执行分割的提示点,该提示基于MLLM。
它以统一的语言方式将详细的视觉信息与大规模语言模型的强大表达能力相结合,而无需额外的计算开销。在公共基准测试上的实验结果证明了作者的方法的有效性。
1 Introduction
随着生成式AI的快速发展,大语言模型(LLM) 成为研究和应用的关注焦点。它们在理解和生成文本方面展现出强大的能力,推动了机器学习和人类机交互的演变。
近年来,研究取得了从简单的文本处理到复杂的多模态理解的进步。多模态大规模语言模型(MLLM)的出现是将其图像处理模块集成到LLMs的结果。它们成功地赋予了LLMs处理视觉信息的能力,从而在视觉和语言任务之间建立了重要的桥接。最近的研究使MLLMs能够根据图像内容进行深入的对话。后续的研究通过数据或结构的修改提升了MLLMs的能力,导致了能实现目标边界框输入输出的细粒度视觉对话的增强MLLM。
引用表达分割(RES)的目标是标记出自然语言表达中相应于特定目标或提到的单元。它涉及准确地识别和分割由语言描述指代的目标。
在本论文中,作者专注于RES,并使用MLLM来解决这个任务。然而,仅使用边界框是不够精确地指示图像中物体的位置的。这导致了以像素级精度改进标注的研究重点集中在MLM,增强图像信息编码,以及设计能够输出详细分割 Mask 的模型。尽管取得了显著的进步,但这些改进需要对原MLLM结构进行大量修改。有些研究引入了额外的模型结构来输出分割 Mask [39]; 其它方法利用与原LLM中不同的特殊标记,或者依赖应用多个损失进行模型优化[27]。这些调整增加了MLLM的架构复杂性,可能使得扩展到其他任务更加困难。
在本论文中,作者提出了一种简单的解决方案,可以增强MLLM理解物体在像素级上的位置能力。作者的方法简单但有效,升级了MLLM的视觉能力,使其能准确理解图像中像素级位置的参照表达。
作者的方法借鉴了以下上下文。与生成式AI和多模态语言模型的同时发展,图像分割领域也取得了重要的突破,即引入了分割 Anything 模型(SAM)[25],这是一个在SA-1B[25]高质量图像分割数据集上训练的,可提示分割的模型。SAM,一个可提示分割的模型,可以根据用户提供提示,如点或边界框,在图像中生成高质量的语义无关分割 Mask 。
作者观察到,虽然MLLM对图像语义有深刻的理解,但它们在表述像素级信息上存在困难。相反,SAM,尽管没有语义感知,但只需要最小的提示就可以描绘出复杂的分割 Mask 。基于这一点,作者提出了采用SAM的MLLM(称为SAM4MLLM)的新方法,该方法将MLLM与SAM无缝集成。具体而言,作者采用直接但有效的方法,在保持MLLM原始架构不变的同时,将像素级信息引入训练数据集中。
这使得MLLM能利用常用 LLM 所使用的文本交叉熵损失来获取像素级信息。考虑到MLLM在像素表达方面的潜在限制,例如输入分辨率限制和没有专门针对视觉任务而设计的模型架构,作者进一步增强了输出,通过预处理MLLM输出以获得相对容易地获得更精确分割 Mask 。为了连接SAM与MLLM,作者采用一个简单的方法,即使MLLM能够为SAM生成提示点。然而,有效地产生多个点可能会具有挑战性。因此,作者引入了一种利用LLM对话能力的新方法,即主动向LLM Query 获取有效的提示点以供SAM使用。作者解决了RES问题,并展示了作者方法的有效性。
本工作的主要贡献如下:
作者提出了SAM4MLLM,该方法使MLM能够在不更改MLLM模型架构、引入新标记或采用附加损失的情况下理解像素级细节。这在RES方面简单但有效。
为了将MLLM与SAM连接起来,作者引入了一种积极 Query 语言系统以获得提示点线索的新方法。
通过在各种RES基准测试上的实验,包括RES数据集、GRES和ReasonSeg,作者验证了SAM4MLLM的有效性,并演示了其处理像素感知任务的良好性能。
2 Related Works
在本节中,作者回顾了相关的主题:RE search, 图像分割,MLLM和MLLM在分段方面的研究。
在引用表达式分割中,早期研究关注的是将语言和视觉模型的特征结合,以有效地统合这两种信息。Yu等人[56]将语言注意力、主题、位置和关系模块结合,用于局部定位目标区域。在STEP[9]中,应用了一个DNN架构,用于迭代地优化分割热力图。随后,Hui等人引入了语言结构引导上下文模型(LSCM),用于聚合多模态特征。为了从不同视角理解语言表达,VLT[16]生成了几组 Query ,并引入了一个 Query 平衡模块,以关注最合适的 Query 。Zhu等人[63]将RE视为一个点预测问题,并设计了一个简单的基于 Transformer 的网络进行参考分割。最近,[51]中的方法利用了一种新的适应器来促进跨模态信息。这些研究为后续在RE中的MLLM工作奠定了基础。
随着多模态模型的进展,它们已经引入到RE领域,提高了分割的准确性和效率。Wang等人[48]引入了多模态模型CLIP[40]到RE任务中。随着MLLM的出现,以这些模型为基础的研究也出现了,利用它们在理解和文本和图像中显著的 abilities。[27, 39, 42, 50]。此外,[32]指出,某些经典的RE基准数据集在某些情况下并不十分全面,导致提出了通用引用表达式分割(GRES)[32]数据集以扩大其应用范围。GRES允许同时引用多个目标,可以解决图像中目标的缺失,进一步增强实际应用中的适用性。在LISA[27]中,提出了一个更复杂的数据集ReasonSeg。它需要模型具备复杂的推理能力和对现实世界的基本理解,解决更接近真实场景的挑战。
图像分割和分割任何东西。图像分割是计算机视觉的一个核心任务,旨在在像素 Level 识别和标记图像中的目标。像Fully Convolutional Networks[35], Mask R-CNN [19]和Mask2Former[14]这样的方法已经极大地推动了这一领域。最近,SAM[25]模型正在SA-1B[25]数据集上进行训练,该数据集有价值的一亿像素级分割标注。SAM可以根据简单的提示分割高质量的目标 Mask 。EfficientViT-SAM[8]进一步将多尺度线性关注引入到SAM的ViT背中,在不降低性能的情况下,将SAM的运行速度提高了几个数量级。作者的SAM4MLLM使用MLLM指导SAM进行精确的目标分割。
语言理解与生成模型(LLMs)。这些模型在语言理解和生成领域表现出卓越的能力,显著的例子包括GPT-3 [17],BLOOM [49],PaLM [15],OPT [60],LaMA [46],LaMA-2 [47],Mistral [23],Qwen [6],等,极大地推动了自然语言处理领域的研究。这些模型不仅证明了接近人类的熟练程度,还激发了研究视觉与语言交互的兴趣,推动了MLLMs的发展。
MLLMs向分割。研究行人在MLLMs中不仅专注于增强模型对多模态数据的了解,还旨在赋予MLLMs处理详细信息的能力。例如,DetGPT [38]提出了一种将MLLMs与开源目标检测器相结合的方法。GPT4RoI [59]将感兴趣区域(ROI)信息整合到指令中。Kosmos-2 [37]构建了一个大规模的地面图像文本配对数据集,名为GRIT,帮助MLLMs理解图像内的区域信息。Shikra [11]将所有区域信息以语言形式编码,无需引入新的词汇、位置编码器或解码器到MLLMs。Ferret [54]使用一种混合区域表示方法,将离散坐标与连续特征相结合,描述图像内的区域。然而,这些方法模型的输出仅限于边界框,尚未实现像素级精确操作。
在这个基础上,Lai et al. [27]提出了一种基于引入[SEG]标记和SAM解码器的方法,使MLLMs能够执行推理分割任务。在PerceptionGPT [39]中,采用轻量级视觉任务编码器和解码器来处理分割 Mask ,使MLLMs能够输入和输出分割 Mask 。Ren et al. [42]提出了一个能够与相应的物体分割 Mask 无缝集成生成自然语言应答的地面语言模型。
尽管所提到的模型可以生成分割 Mask ,但它们需要修改原始的MLLM架构或者添加新的模型结构以输出分割 Mask ,或者引入不属于原始LLM的特殊标记。它们可能需要利用多个损失函数以同时优化模型,这增加了MLLM设计的复杂性,并阻碍了模型向更多任务扩展。作者的SAM4MLLM无需承受这些负担,只需与现成的SAM模型集成,即可输出高质量分割 Mask ,为复杂像素级任务提供了新的解决方案。
3 Method
在本节中,作者提出SAM4MLLM方法。首先,作者介绍如何使用SAM的提示来编码分割 Mask ,然后作者用MLLM来引导SAM的解决方案。
Encode Segmentation Mask into SAM Prompt
现有的分割MLLM(例如LISA [27],PerceptionGPT [39],GLaMM [42],GSAV [50])依赖特定的模型结构设计、分割特定标记以及异构损失函数来预测目标 Mask 。例如,LISA [27]引入了一个特殊的标记[SEG]和相关架构。它使用n dice和二元交叉熵损失进行分割,并使用文本损失进行训练。这增加了模型的复杂性和优化难度。
作者的方法利用了SAM(Subject-Attribute-Object Model)的特性,它可以将少数离散文本提示标记(例如,边界框加几个点表示它们在目标区域内部还是外部)转换为高质量的连续边界分割 Mask 。作者的 SAM4MLLM使用了离散化的图像坐标点。通过使用边界框和 个点来编码任意形状的 Mask 。边界框表示为 ; 个点的提示(每个点包含三个值,即 坐标、 坐标和该点是否在目标 Mask 上),编码为 。
通过将连续分割 Mask 编码为离散化 SAM 提示,作者避免了添加任何标记或改变模型结构,同时保持仅使用只有文本自动回归交叉熵损失进行训练。这种方法与语言模型的原始训练模式一致,使得 MLLM 能够理解像素级信息,并便于未来模型扩展。
Prompting SAM Using MLLM
将SAM集成到MLLM中的统一方法的一个主要问题在于获取SAM的提示点,包括物体 Mask 区域内的正面提示点和外部提示点。为此,作者提出了两种解决方案,即《提示点生成_PPG》和《主动 Query 提示点_PQPP》。前者通过MLLM模型在推理阶段直接生成建议点。后者则以间接方式获取这些点;首先在边界框中均匀采样点,然后对每个点询问MLLM模型该点是否在物体区域内。作者将它们在以下部分中进行具体介绍。
SAM4MLLM-PPG。在这种方法中,作者采用了可以同时处理文本提示和图像输入的MLLM。为了使MLLM与分割功能对齐,作者使用参数高效的微调技术LoRA [20]来训练模型,该模型基于带有图像文本对和 GT Mask 的某些RES数据集。LoRA输出了包括边界框和组正面和负面点的提示词,如图1(a)所示,其中每组包括个正面点和个负面点(在作者的实现中,,)。
为LoRA提供位置监督,作者在训练期间根据物体 Mask 随机采样组()的点,这些点将被作为提示发送给SAM。对于每组,SAM将提供分割结果。作者将那些与 GT Mask 相比,与度量 Mask 的交并比低的提示点删除,并只保留前组(图1(c))。在作者的实现中,只需要文本损失(自回归交叉熵损失)即可,通常为64,。在推理阶段,LoRA将直接提供SAM要进行分割的点,如图1(b)所示。4.1节可以找到更多细节。
SAM4MLLM-PQPP。在这种方法中,作者提出利用MLLM的 Query -响应能力的优势,提出先获取物体 Mask 边界框和组采样点,然后通过 Query -响应的方式,询问MLLM这些点是否在 Mask 内或外。
在训练阶段,作者在 GT Mask 上随机采样边界框和组点,并开展两次对话。在第一次对话中,LoRA响应边界框。在第二次对话中,对于个点中的每一个,LoRA在训练期间响应这部分点是否在 Mask 内(是或否)。
在推理阶段,当输入文本 Query 和图像时,LoRA输出一轮对话中的边界框。作者然后均匀采样边界框中的点。这些采样的网格点被送入MLLM-LoRA再次询问是否为正值或负值;这些答案被应用到SAM进行分割。作者通常将网格大小设置为。SAM4LLM-PQPP的训练和推理过程如图2所示。
为了在将提示点发送到SAM之前提供高质量的提示点,作者将去掉不确定的点的部分。更多信息可以在4.1节中找到。
两种解决方案的特点如下。PPG采用直接使用已经训练好的MLLM来生成提示点,不仅可以生成提示词包括边界框,但同时学习多个点可能是具挑战性的。因此,在PPG中使用的提示词较少。
PQPP利用MLLM的对话能力。它可以首先询问一个初步的边界框,然后通过 Query -回答的方式,在边界框内探究多个感兴趣的点,以提示SAM,这种方式比PPG更灵活。作者在实验中比较了它们的性能。
RES Training
为将基础MLLM对齐到RES任务,作者使用包含与RES相关的示例的数据集来引导模型朝着目标前进。作者使用三个数据集来训练作者的SAM4MLLM以与RES任务对齐。其中的两个(RES数据集和gRefCOCO数据集)包含带有真实 Mask 的RES数据。
第三个(VQA)是一个没有 Mask 的视觉对话数据集,用于进一步增强 joints 视觉语言理解的能力。
在训练过程中,为了保持 MLLM 在图像上的泛化能力,作者冻结大部分网络参数,只调整 MLLM 的视觉重采样器以及LoRA Adapter 。以下为各数据集的简述。
参考表达式分割数据集(RES数据集): 该数据集中的每个样本都提供一张图像和一个指代图像中特定目标的短语。该短语仅对应一个目标。此数据集包括公开的子集、refCOCO[57],refCOCO+[57]和refCOCOg[36]。[57]基于MSCOCO[30]中的图像,通过不同的标注过程进行 compile。RefCOCO+ 与 RefCOCO 的主要区别在于前者禁止使用基于位置的描述(例如,“图中的右侧行人”),这迫使标注者更关注描述目标的 appearance 特性。RefCOCOg 提供了更长且更详细的描述,除了 appearance 信息外,还可能包括动作、地点以及与其他目标的关系的细节。
广泛参考表达式分割(GRES数据集)[32]: 与RES数据集相似,每个样本提供一张图像和指代图像中目标的短语。短语可能不在图像中出现,也可能同时指代多个目标。作者使用公开的可获得的 gRefCOCO[32]数据集进行此任务。SAM4MLLM 可以自然地生成针对分割多个实例的 SAM 提示。在 Query 目标不存在时,作者的模型被训练预测“不在图像中的目标”。
视觉问答(VQA): 为了保持 MLLM 的视觉对话能力,作者引入了 VQA 数据,具体为 VQAv2[4]。
对于上述所有数据集,作者在训练过程中不使用数据增强,因为翻转和/或裁剪可能会改变图像中目标之间的相对位置或关系。
4 Experiments
在本节中,作者概述了作者SAM4MLLM方法的实验设置,涵盖网络架构、实现细节、评估数据集以及实验结果的分析。
Implementation Details
网络结构: 作者将 Qwen-VL-7B-Chat [6] 作为作者的 MLLM Backbone 网络结构,因为它可以从预训练阶段输出边界框。具体而言,LoRA Adapter 配置如下:LoRA 秩设置为 256,LoRA alpha 设置为 128,LoRA 丢弃率为 0.05。关于 SAM [25],作者使用 EfficientViT-XL1-SAM [8] 来加速实验,在作者的试点研究中只观察到轻微的准确性损失。
训练详情: 作者的训练是在 8 个 NVIDIA 32G V100 GPU 上进行的,使用 float16 精度。作者使用 deeplyspeed [3] ZeRO2 进行多 GPU 分布式训练。作者使用 Lion [12] 作为作者的优化器。学习率设置为 1e-5,权重衰减为 0.1。作者使用余弦退火学习率调度器,其中 Warm up 周期覆盖总步数的 3%。损失函数仅包括 LLM 的文本交叉熵损失。每个 GPU 的批处理大小为 2,梯度累积设为 8。训练期间,作者截断最大文本长度为 2048,仅训练模型 3 个周期以防止过拟合。
微调 SAM 轻量级解码器: 为了确保在 COCO 扩展数据集上的公平比较和最佳性能,作者将 SAM 轻量级解码器进行微调。由于 COCO 数据集[25]内的 mask 标注存在内在偏差,直接进行推理而不对 SAM 的轻量级解码器进行微调,无法与已在 COCO 上具有 mask 解码器的训练过的方法进行公平比较。因此,作者在 COCO 数据集上一周期进行 SAM 解码器的微调。此外,为了防止数据泄漏,作者从 COCO 中排除了 RefCOCO、RefCOCO+、RefCOCOg 和 gRefCOCO 验证和测试集中的图像。
PPG 指针策略详述: 在 PPG 的训练数据生成阶段,作者在真实边界框内的 64 个点组中随机选择。每个组包括真实 mask 内的两个正点和真值 mask 外的一个负点。作者保留与真实 mask 具有最高 Intersection over Union (IoU) 的 16 个点组,然后从中随机选择一个。选取的点组以"mask as prompt" 方法编码为文本,作为训练标签。在测试时,作者的解析器获取两个正点和一个负点。
PQPP 指针策略详述: 为了训练 PQPP,作者随机选择 10 个点来自真实边界框。如果这些点落在真实 mask 内,则将其标记为正点,否则标记为负点。在测试时,作者从由 MLLM 生成的边界框中均匀选择 格式的点。作者然后根据 MLLM 的响应(是或否)来过滤结果,根据输出标记的关联概率水平(生成该标记的概率)进行过滤。作者只保留大于 0.9 的置信度结果,并将它们输入 SAM 生成 mask。
Benchmarks
作者使用第3.3节中描述的数据集进行训练。它们的比例划分为测试集用于评估(RES dataset, GRES, VQA)。此外,作者将ReasonSeg[27]作为零样本评估从复杂的推理场景进行分割。这种全面的评估方法评估了作者的模型在不同类型的参考表达式分割场景下的灵活性和有效性。
值得一提的是,与其他基于MLLM的方法相比,作者的方法所需的训练数据大大减少。表1中进行了详细比较。例如,GLaMM [42]使用GranD[42]数据集,该数据集包含1100万张图像和8100万的目标 Mask 。标注是通过包括各种视觉和语言模型,包括基于GPT-4的现有开源数据集的重写来收集的。相比之下,作者的SAM4MLLM只使用少量的 Mask 标注数据(100K张图像,82K个目标 Mask ),以便让MLLMs学习通用信息,但与SAM结合可以产生高质量分割 Mask 。
Main Results
作者将作者的SAM4MLLM两种变体(PGP和PQPP)与先前的各种任务中的方法进行了比较。最近出现了许多基于LLM的方法,但作者的比较主要集中在具有相似规模(7B)的模型结果上。
RES数据集:在表2 中,作者呈现了 PPG 和 PQPP 在 refCOCO 数据集 [57] 上 [57] 的性能,其中作者的方法在大多数最新的基于LLM的方法中超越了表现,并取得了与最先进 的 GLaMM [42] 相比的可比结果。此外,作者在这些数据集上观察到不同的性能差异。
具体来说,作者的方法在具有复杂叙事 Query 的 RefCOCOg 数据集上比 GLaMM 更好,而在具有简单短文 Query 的 RefCOCO 和 RefCOCO+ 数据集上作者得到了较差的结果。这种优势可能源于作者模型的简洁结构,该结构更有效地保留了语言模型的理解和推理能力,从而在复杂 Query 上获得更好的结果。
值得注意的是,作者的模型是在比 GlaMM 少的近 100 倍图像和少的 10000 倍屏蔽的情况下进行训练的,但它仍取得了可比的质量。
结果显示,只需要利用预先训练的大规模多模态数据和SAM之间的连接,作者的模型就可以用 considerably 更少的训练数据将已经用大量多模态数据 pre-trained 的 MLLM 调整到 RES 任务。既然作者的模型训练与原始 LLM一致,那么在作者的方法在较长且更复杂的句子理解(RefCOCOg)上,作者的方法甚至超过了所有其他方法。
Gres:作者在表3中对比了gRefCOCO数据集 [32]。与RES数据集不同,该数据集包括多个实例或没有实例被指代的情况。在这个泛化的RES任务中,作者的方法在大多数切分和指标上取得了最先进的性能,除了“测试集A”,那里作者稍逊于最近的GSVA [50]。
ReasonSeg:作者的方法在复杂的推理分割任务上也表现出优秀的结果,如表4所示。值得注意的是,作者在零样本方式下评估这个数据集,也就是说作者的模型在评估之前没有被训练过相关的任务。此外,作者使用更多的训练数据训练SAM4MLLM,称为SAM4MLLM*。尽管使用的训练数据比LISA少,但它可以超越LISA-13B-LLaVA1.5。
Vqa:这个数据集并不是为RES而设计的,而是用于视觉问答。作者使用它来验证尽管有了图像分割功能,作者的模型仍然保持了原始能力。表5中的VQA成绩表明,作者的方法没有降低在MLLM Backbone 预训练阶段的VQA能力。实际上,VQA性能甚至有所提高,可能是由于作者在更多数据集上的微调。
Pqpp和PPG:作者的PQPP在大多数结果上都优于PPG。作者在更详细的消融研究中进一步讨论了点提示策略的影响。
质量结果:图3呈现了作者SAM4MLLM方法在不同参考表达式分割数据集上的定性示例。作者在上行的RES任务中展示了作者的结果。最左边的图像来自refCOCO,显示出成功分割名为“在另一只后面”的特定斑马。中间左边的图像,来源于refCOCO+,演示了在多个实例中准确识别出“中间动物”。中间右边的图像来自refCOCOg,说明模型能够处理更复杂的参考表达式,如“像婴儿一样大的泰迪熊”。
最后,最右边的图像也来自refCOCO+,展示了模型对相对位置的理解,正确地分割出指代目标最近的“盘子”。底部一行展示了SAM4MLLM在泛化后的RES任务上的能力,作者的方法可以准确地根据给出的文本分割多个实例。这些例子突显了SAM4MLLM根据不同数据集上的多种参考表达式准确分割物体的能力。
5 Ablation Study
为了更深入地了解贡献因素,作者对性能最好的变体 SAM4MLLM-PQPP 进行了消融研究,主要集中在以下几个方面:PQPP中基于MLLM响应的点过滤阈值,以及为边界框内选择点而采用的采样策略,从而洞察作者方法的可健壮性和适应性。
PQPP点过滤阈值首先,作者检查了用于PQPP中基于MLLM响应的点过滤阈值的影响。作者在RefCOCO验证集上实验了从0.6到0.95的阈值,并评估了它们对cIoU指标的影响。作者的结果(见表6a)表明,阈值为0.9时取得最佳平衡,进一步增加或减少阈值会导致cIoU显著下降。这一发现强调了 carefully 调整信心阈值以确保获得最佳可能的分割质量的重要性。
PQPP内点采样策略接下来,作者探索了边界框内点采样策略对整体性能的影响。作者比较了两种方法:网格采样和随机采样,同时 varying了采样点的数量。
如表5(b)所示,基于5x5网格的采样模式一直获得了最高的准确性。该结果表明,在边界框内均匀分布的点对于MLLM最准确地确定物体的位置和形状提供了最具有信息性的线索。
6 Conclusion
在本论文中,作者提出了SAM4MLLM,一种将Segment Anything Model(SAM)与多模态大型语言模型(MLLMs)相结合的方法,以解决指向性表达分割(RES)任务。
通过将目标 Mask 编码为离散文本提示,作者的方法使MLLMs能够在不需要复杂的架构修改或额外的损失函数的情况下理解并生成像素级物体定位信息。作者的方法简单且有效。
通过在各种RES基准测试上的实验,作者证明SAM4MLLM在保持原始语言模型的简单性和通用性的同时,实现了竞争力的性能。
作者的工作为利用基础模型的能力以更简洁和统一的方式解决复杂的视觉语言任务开辟了新的方向。作者希望从这次研究中得出的见解能够激发进一步的研究来有效地结合不同模型的优势。
参考
[1].SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation.