摘要
多模态大型语言模型 (MLLMs) 在视觉语言任务中展现出非凡的能力;然而,有效地将图像分割整合到这些模型中仍然是一个重大挑战。 在本文中,我们介绍了 Text4Seg,这是一种新颖的 文本作为掩码 范式,它将图像分割视为文本生成问题,从而消除了对额外解码器的需求,并显着简化了分割过程。 我们的关键创新是 语义描述符,这是一种新的分割掩码的文本表示形式,其中每个图像块都映射到其相应的文本标签。 这种统一的表示允许无缝集成到 MLLMs 的自回归训练管道中,以简化优化。 我们证明,用
1引言
多模态大型语言模型 (MLLMs) Yin 等人 (2023) 已成功地将强大的大型语言模型 (LLMs) 的能力扩展到视觉领域。 最近的进展表明,这些模型在自然语言驱动的 人机交互 和基于文本的视觉输入推理方面具有非凡的能力 Liu 等人 (2024c);Lu 等人 (2024);Liu 等人 (2024a);Bai 等人 (2023);Chen 等人 (2024)。 MLLMs 已成为视觉中心任务的强大工具,包括图像生成 Song 等人 (2024);Wang 等人 (2024b)、目标检测 Wang 等人 (2024a);Ma 等人 (2024);Zhang 等人 (2023) 和语义分割 Lai 等人 (2024);Zhang 等人 (2024b)。 然而,将 MLLMs 无缝集成到这些任务中,尤其是在语义分割等密集预测任务中,仍然具有挑战性,因为语言和视觉模态之间存在内在差异。
大多数现有工作 Lai 等人 (2024);Xia 等人 (2024);Zhang 等人 (2024b);He 等人 (2024);Ren 等人 (2024);Rasheed 等人 (2024);Zhang 等人 (2023);Wu 等人 (2024) 采用了一种直接的方法,即向 MLLM 添加额外的视觉解码器 (例如,SAM Kirillov 等人 (2023)),如 图 1(a) 所示。 尽管有效,但这种组合存在一些局限性:1) 它通过额外的损失函数使端到端训练流水线变得复杂;2) 它需要对 MLLM 架构进行仔细修改,导致在扩大训练规模时出现意想不到的挑战。 VisionLLM Wang 等人 (2024a) 尝试将分割掩码转换为多边形坐标序列,如 图 1(b) 所示。 但是,性能通常不令人满意,因为 LLM 可能难以将多边形坐标与形状关联起来,导致在 VisionLLMv2 Jiannan 等人 (2024) 中重新引入特定于分割的解码器。 找到一种更有效的方法来释放 MLLM 的分割能力至关重要。 这种方法应该遵循 MLLM 的下一个词元预测范式以简化优化,需要更少的架构更改以提高可扩展性,并充分利用 LLM 的文本生成能力。
在本文中,我们介绍了一种新颖的 文本作为掩码 范式,它将图像分割视为一个文本生成问题,这大大简化了分割过程。 我们提出了 Text4Seg,一个用于基于 MLLM 的图像分割的无解码器框架,如 图 1(c) 所示。 我们方法的核心是分割掩码的一种新颖的序列表示。 与使用索引掩码或数字坐标不同,我们将输入图像的每个扁平化的补丁映射到其对应的文本描述 (例如,语义标签、短语或长句),形成图像的纯文本表示,称为 语义描述符。 这种表示具有以下几个优点:1) 统一的序列表示无缝集成到自回归训练流水线中,使文本任务的联合优化更容易;2) 不需要架构更改,允许充分利用现有的 MLLM 训练基础设施,使其非常适合扩展;3) 支持大型标签词汇表,相当于语义词;以及 4) 在指示表达式分割、开放词汇分割和其他视觉接地任务之间灵活切换。
受 ViT Dosovitskiy 等人 (2021) 的启发,我们证明了 用 16
借助提出的语义描述符,训练用于分割的 MLLM 需要最少的额外工作。 我们首先从现有的分割数据集构建指令遵循数据,将原始语义掩码转换为语义描述符格式,然后使用查询-响应对话微调模型。 这种方法适用于各种以视觉为中心的任务,例如指代表达式分割、开放词汇分割和视觉接地任务。 我们的实验表明,Text4Seg 可以将分割能力无缝集成到现有的 MLLM 架构中,例如 LLaVA-1.5 Li 等人 (2024a)、Qwen-VL Bai 等人 (2023)、DeepseekVL Lu 等人 (2024) 和 InternVL2 Chen 等人 (2023b),无需任何架构修改。 毫不夸张地说,Text4Seg 始终比之前的模型表现更好或相当,突出了它的效率、灵活性以及鲁棒性。 总之,我们的主要贡献如下:
•
我们提出了 Text4Seg,一种新颖的 文本作为掩码 范式,它将图像分割重新定义为文本生成问题,充分利用了 MLLM 的文本生成能力。
•
我们引入了语义描述符,这是一种分割掩码的文本序列表示,可以无缝地与现有的 MLLM 集成,以实现更轻松的优化。 我们证明
语义描述符足以实现强大的性能。16 × 16 •
我们开发了行级游程编码 (R-RLE) 来压缩语义描述符,显着缩短其长度并降低推理成本,而不会影响性能。
•
我们通过在各种以视觉为中心的任务中取得最先进的性能,验证了 Text4Seg 基于各种 MLLM 主干的有效性和鲁棒性。
2相关工作
多模态大型语言模型。
MLLM 通常是通过用视觉感知模块增强大型语言模型 (LLM) 来开发的,这些模块可以生成基于多模态输入的连贯文本对话。 例如,Flamingo Alayrac 等人 (2022) 引入了 Perceiver Resampler,它将预训练的视觉编码器与 LLM 相连,以实现有效的少样本学习。 OpenFlamingo Awadalla 等人 (2023) 和 Otter Li 等人 (2023a) 在此架构的基础上进行构建,重点关注多模态的上下文指令调优。 BLIP-2 Li 等人 (2023b) 和 InstructBLIP Dai 等人 (2023) 使用轻量级查询 Transformer (Q-Former) 来弥合模态差距,展示了在零样本视觉到语言任务中的增强性能。 LLaVA 系列 Liu 等人 (2024c; a) 使用线性层或 MLP 作为模态连接器,在使用 GPT-4 生成的多模态语言图像指令遵循数据上进行训练,展示了在多模态聊天交互中的显著能力。 它们在多模态聊天交互中展示了令人印象深刻的能力。 相反,Qwen-VL Bai 等人 (2023) 和 mPLUG-Owl2 Ye 等人 (2024) 探索通过具有可学习查询的交叉注意机制将特征压缩到固定长度,优化了计算效率。 最近的进展 Liu 等人 (2024b); Xu 等人 (2024); Li 等人 (2024a; b; c); Lin 等人 (2023) 专注于通过高分辨率输入来增强视觉编码。 例如,LLaVA-UHD Xu 等人 (2024) 实施了一种图像模块化策略,将原生分辨率图像分割成更小的、可变大小的切片,以提高可扩展性和编码效率。 同样,LLaVA-NEXT Liu 等人 (2024b) 和 LLaVA-OneVision Li 等人 (2024a) 利用 AnyRes 方案来容纳高分辨率图像输入。 在这项工作中,我们提出了 Text4Seg,它赋予现有的 MLLM 以图像分割能力,基于指令调优,无需对其架构进行任何更改。
语言引导的语义分割和定位。
最近的进展使 MLLM 能够为以视觉为中心的任务整合特定于任务的模块。 LISA Lai 等人 (2024) 引入了嵌入作为掩码范式,利用一个特殊的
3方法
在本节中,我们首先概述多模态大型语言模型,详见 Sec. 3.1。 接下来,我们将详细阐述语义描述符和行式行程编码的设计,详见 Sec. 3.2。 最后,我们将展示如何构建视觉指令数据来训练我们提出的 Text4Seg,详见 Sec. 3.3。
3.1预备知识
多模态大型语言模型 (MLLMs) Yin 等人 (2023) 指的是能够从多模态信息中处理、推理并生成响应的基于 LLM 的模型。 通常,如图 2 所示, 一个 MLLM 可以抽象成三个主要部分:1) 一个预训练的视觉编码器,负责从输入图像中提取视觉符号,2) 一个预训练的大型语言模型 (LLM),用于处理推理和生成输出,以及 3) 一个模态连接器,作为视觉编码器和 LLM 之间的桥梁。
3.2语义描述符
语义描述符的定义。
我们的语义描述符受到 ViT Dosovitskiy 等人 (2021) 的启发,它将图像表示为
•
遵守 MLLM 的下一个符号预测范式,便于更容易优化。
•
不需要架构更改,确保无缝集成和可扩展性。
•
采用“文本作为掩码”范式,充分利用 LLM 的文本生成能力进行分割。
行级 RLE。
全长语义描述符的主要限制之一是由于图像中固有的空间冗余导致的符号长度过长。 例如,在 refCOCO Kazemzadeh et al. (2014) 数据集中,
一种直接的方法是将 RLE 直接应用于整个语义描述符,称为图像级 RLE (I-RLE)。 但是,我们凭经验发现,这会导致性能显着下降,表明压缩后的描述符可能会丢失关键的空间信息。
为了缓解这个问题,我们提出了一种新颖的行级游程编码 (R-RLE) 技术。 如 图 3 所示,R-RLE 在行级别进行操作,每行由“
3.3Text4Seg 的视觉指令调优
基于提出的语义描述符,我们利用现有的分割数据集构建了视觉指令数据。 图 5 展示了引用表达式分割和语义分割的示例。 给定一对
查询 :
请注意,
凭借这种纯粹的文本响应,Text4Seg 可以无缝地集成到现有的 MLLM 中,而无需任何架构修改,如图 5 所示。 我们使用低秩自适应 (LoRA) Hu 等人 (2021),在我们的可视化指令数据上微调 MLLM,使用其原始的自回归训练目标
4实验
4.1实施细节
模型架构。
我们的方法基于几个开源 MLLM,包括 LLaVA-1.5 Liu 等人 (2024a),DeepseekVL Lu 等人 (2024),InternVL2 Chen 等人 (2024) 和 Qwen-VL Bai 等人 (2023)。 主要实验涵盖了 6 个 MLMM,其模型大小范围从 13 亿到 130 亿个参数,以及 3 个连接器,包括 MLP (LLaVA-1.5, DeepseekVL)、Pixel Shuffle + MLP (InternVL2) 和交叉注意力 (Qwen-VL)。 在实验过程中,所有架构均保持不变。 此外,我们使用配备 ViT-H 的现成 SAM 作为我们的掩码优化器。
模型训练。
我们的方法使用 SWIFT Zhao et al. (2024) 实现。 所有模型都在 8 个 Tesla A800 GPU(40GB)上训练,全局批次大小为 128。 我们使用 AdamW 优化器 Loshchilov (2017),初始学习率为 2e-4,在预热阶段之后遵循线性衰减计划,比率为 0.03。 权重衰减设置为 0,梯度范数在 1.0 处被裁剪。 为了最大程度地减少 GPU 内存使用量,我们使用 LoRA(秩为 64)以及 ZeRO-2 阶段内存优化来微调所有模型。
4.2指称表达式分割
设置。
对于指称表达式分割 (RES),我们遵循标准评估协议 Lai et al. (2024); Xia et al. (2024),并使用 refCOCO 系列评估我们的方法。 我们通过组合训练集 refCLEF、refCOCO、refCOCO+ Kazemzadeh 等人 (2014) 和 refCOCOg Mao 等人 (2016),构建了指代分割数据集,数据集包含 80 万个样本。 我们的模型在这个数据集上训练了 5 个 epoch。 此外,为了评估在多目标/非目标分割任务上的性能,我们使用训练集 grefCOCO Liu 等人 (2023a),构建了一个包含 41.9 万个样本的泛化指代表达式分割数据集。 我们继续对模型进行微调,共 2 个 epoch。
单个目标的结果。
如表 1 所示,我们的 Text4Seg 在 refCOCO (+/g) 数据集的所有分割中都取得了最高的性能。 对于 70 亿规模的 MLLM,Text4Seg
多目标/无目标的结果。
如表 2 所示,Text4Seg 在多目标和无目标指代表达式分割任务中保持着竞争优势。 例如,在 70 亿规模下,Text4Seg 在 gRefCOCO 数据集上的平均得分在 69.9 到 71.1 之间,明显高于 GSVA 的 65.6。 在 130 亿规模下,Text4Seg
4.3指示词理解
设置。
我们的 Text4Seg 也可以直接应用于目标检测,使用简单的 mask2box 范式,该范式首先根据输入生成分割掩码,然后从掩码中推导出边界框。 我们采用这种方法来评估我们模型的指示词理解,使用与 RES 中相同的数据集。 具体来说,如果预测的边界框与真实边界框之间的 IoU 超过 0.5,则预测被认为是正确的。
结果。
如 表 3 所示,我们的 Text4Seg 在 refCOCO 和 refCOCO+ 数据集上取得了最佳结果,而 Groma 在 refCOCOg 上表现良好。 然而,Text4Seg
4.4视觉理解
设置。
我们的文本作为掩码范式允许将下游分割任务无缝集成到 MLLM 的预训练中。 为了评估其有效性,我们使用 LLaVA-1.5-7B 模型作为基线,评估了该模型在各种视觉理解基准上的性能。 我们的方法 Text4Seg 基于 LLaVA-1.5-7B 的第二阶段,在 LLaVA-v1.5-mix665k 数据集和我们的参考分割数据集上进行训练。 为了进行全面的比较,我们还报告了基于我们实现的 LLaVA-1.5-7B 模型的性能。
结果。
表 4 展示了 LLaVA-1.5 和 Text4Seg 在各种 VQA 和 RES 基准上的比较。 Text4Seg 在混合数据集上训练,不仅在视觉问答任务中取得了与 LLaVA-1.5 相当的性能,而且在 RES 基准上也展示了强大的结果。 这些结果验证了我们基于文本生成的分割方法是一种无缝的增强,为预训练 MLLM 提供了一种简化的途径。 它成功地集成了强大的分割功能,而不会影响模型的对话能力。
4.5开放词汇分割
设置。
我们遵循 LaSagnA Wei 等人(2024) 来评估 Text4Seg 在开放词汇分割任务上的性能。 我们构建的 Text4Seg 基于 LLaVA-1.5-7B 并在 COCOStuff Caesar et al. (2018) 上训练了 1 个 epoch。 我们使用 mIoU 作为评估指标,评估了模型在 ADE20K (A-150) Zhou et al. (2019)、PASCAL Context 59 (PC-59) Mottaghi et al. (2014) 和 PASCAL VOC 20 (PAS-20) Everingham (2009) 数据集上的性能。
结果。
如 Tab. 5 中所述, 可以预期 Text4Seg 的性能落后于专门的分割模型 (e.g.,ClearCLIP Lan et al. (2024a)、ProxyCLIP Lan et al. (2024b)、MaskCLIP Ding et al. (2022)、GroupViT Xu et al. (2022)、OVSeg Liang et al. (2023) 和 SAN Xu et al. (2023)),因为 LLM 通常需要相当大的数据集才能得到充分的训练。 然而,Text4Seg 在 PC-59 基准测试中仍然表现出具有竞争力的性能,突出了其效率。 更重要的是,它明显优于基于 MLLM 的 LaSagnA,后者使用了额外的解码器,展示了其在开放词汇分割方面的强大潜力。
4.6消融研究
鉴于这项工作的重点是为视觉分割和接地引入语义描述符,我们进行了一系列消融研究,以评估语义描述符对性能的影响,使用 InternVL2-8B Chen et al. (2024) 作为 MLLM。
语义描述符的分辨率。
为了分析语义描述符分辨率变化对 RES 性能的影响,我们创建了具有不同语义描述符密度的指令调优数据集。 具体而言,我们使用 16
使用 SAM 变体的掩码细化器。
表 6 比较了各种掩码细化器的性能,例如具有不同架构的 SAM,以及在
I-RLE 与 R-RLE。
我们使用 refCOCO 和 refCOCO+ 数据集的 训练/验证 分割,研究了在
4.7可视化示例
我们展示了 Text4Seg 和 GSVA 在 图 9 和 10 中的定性比较。 在单目标 RES 任务中,Text4Seg 展示了对指示表达的更优理解,与 GSVA 相比,生成了更准确、更精确的分割图。 在 GRES 任务中 (图 10),尽管包含了
5结论
在这项工作中,我们提出了 Text4Seg,这是一个无解码器框架,它通过一种新颖的 文本作为掩码 范式与现有的 MLLM 无缝集成,用于图像分割。 通过新颖的语义描述符,Text4Seg 在各种分割任务中实现了最先进的性能,而无需修改架构。 我们进一步引入了行级游程编码 (R-RLE) 来压缩语义描述符,这在保持性能的同时显着提高了 Text4Seg 的效率。 总之,这项工作强调了 Text4Seg 在弥合 MLLM 与视觉中心任务之间的差距方面的灵活性和有效性,为未来多模态学习研究提供了一种可扩展的解决方案。