01
论文信息
题目:PrimitiveNet: Decomposing the Global Constraints for Referring Segmentation
作者:Chang Liu, Xudong Jiang & Henghui Ding
引用格式:Liu, C., Jiang, X., & Ding, H. (2024). PrimitiveNet: decomposing the global constraints for referring segmentation. Visual Intelligence 2, Article no. 16.
全文链接:https://link.springer.com/article/10.1007/s44267-024-00049-8
关键词:Referring segmentation, PrimitiveNet, Primitive, Cross-primitive attention, Language-primitive attention, Multimodal
02
文章摘要
本文提出了PrimitiveNet模型,将复杂的全局约束分解成一组简单的基本单位,即“原语”或“Primitive”。每个原语产生一个代表简单语义含义的原语掩码,例如,同一类别中的所有实例。然后,输出分割掩码通过根据语言表达选择性地组合这些原语来进行计算。此外,本文还提出了一个交叉原语注意(CPA)模块和一个语言原语注意(LPA)模块,用于在原语和语言表达之间交换信息。本文所提出的CPA和LPA有助于网络找到合适的原语掩码权重,从而恢复目标对象。在三个RefCOCO数据集上的实验证明了所提方法的有效性。
03
文章概述
引用分割(referring segmentation)旨在为给定语言表达描述的对象生成分割掩码。图像通常包含大量信息,包括实例和其他元素等,而给定的自然语言表达则指定了图像中要被分割的目标对象。引用分割涉及计算机视觉和自然语言处理这两个人工智能领域中的重要研究方向,是多模态学习中最基础和最具挑战性的任务之一。自从2016年研究者提出这个概念以来,学术界和工业界已经提出了各种方法,并在不同的数据集上取得了显著的性能。
引用分割是一种受限制的图像处理问题,它依据输入的语言描述来执行图像分割任务。这个任务的核心在于解析语言表达背后的约束条件。现有的处理方法通常采用整体方式来建模这些约束,例如使用全卷积网络将语言和视觉特征合并处理。这种整体方法在处理包含复杂描述的多维信息时面临挑战,特别是当描述涉及多种视角,如颜色、形状、语义类别、位置及与其他对象的关系时,理解这些复杂约束变得更加困难。
为了解决这些问题,本文提出了我们称之为PrimitiveNet的分层方法。基于给定的语言表达,该方法将复杂的约束分解为一组更简单的基本子约束,称为“原语”,并在语言表达的指导下将这些原语综合起来,以获得目标掩码,如图1所示。一个原语可以是单个单词或描述某些简单约束的一组单词。例如,对于表达“左边的斑马”,一个原语可能描述子约束“在左边(on the left)”,或者是子约束“斑马(zebra)”。此外,它还可能是一些在不同样本中常见的基本子约束,尽管这些并没有在语言表达中明确提出,例如“所有前景区域”。
图 1 PrimitiveNet的分层方法
注:在网络中,图像通过一组原语(Primitive)被分解。每个原语代表某种基本子约束的特定方面。目标对象的分割掩码通过这些原语的选择性融合生成。
04
研究方法
本文提出了一种用于引用分割的分层约束建模方法,该方法将语言表达中复杂的全局约束分解为一组更简单的基本子约束,称为原语。全局约束包含了识别目标对象所需的所有知识,而一个原语只包含全局约束的某个特定方面。例如,在句子“背景中穿着白衬衫的人”中,一个原语可能包括图像中所有的“人”,另一个原语可能包括所有在“背景”中或颜色为“白色”的区域。原语的内容是输入信息的一个子集,使得模型更容易理解。基于这一理解,在提出的PrimitiveNet中,生成了Np个不同的原语来提取全局约束的不同视角。每个原语包含一组描述子约束的原语特征。每个原语进一步生成一个原语掩码,代表图像中受子约束影响的区域,如图2所示。通过这种方式,本文将理解复杂和抽象的全局约束的任务分解为理解一组更简单成分的任务。然后,通过组合包含不同信息视角的不同原语,将不同原语所对应的掩码进行加权求和,可以再次重构全局约束。整体网络结构如图3所示。
图 2 使用原语生成输出掩码的过程
注:每个原语根据其特征评估一个系数,输出掩码是所有原语掩码及其相应系数的加权求和。
图 3 PrimitiveNet的整体网络结构
05
实验结果
本文提出的PrimitiveNet分层约束建模方法在三个RefCOCO系列数据集上相比于现有最佳方法均能取得最佳的性能。这证明了拆解全局约束对引用分割的有效性。
表 1 PrimitiveNet与现有最佳方法在RefCOCO上的比较
在最新的广义引用分割数据集GRES上,PrimitiveNet同样可以取得有竞争力的成绩,见表2。
表 2 PrimitiveNet与现有最佳方法在gRefCOCO上的比较
部分分割结果可视化见图4。
图 4 PrimitiveNet的输出示例
06
文章总结
本文聚焦于引用分割这一具有挑战性的问题。我们提出了一个分层约束建模框架,将复杂的全局约束分解为一组称为原语的基本子约束。在提出的框架中,不同的原语代表具有某些相似性的不同类型的语义区域。通过在所有原语和语言表达之间交换信息,网络找到一组合适的系数,并通过线性组合所有原语掩码及其系数来恢复全局约束并找到目标对象。在RefCOCO、RefCOCO+和RefCOCOg数据集上的实验证明了所提方法超越了当前最先进的方法。
更多细节,敬请参考论文原文。
刘畅,新加坡南洋理工大学(NTU)电气与电子工程学院博士研究生,研究方向为计算机视觉,多模态学习和机器学习。
丁恒辉,复旦大学青年研究员、博士生导师,入选国家级青年人才计划、上海市海外高层次青年人才,上海市计算机学会副秘书长。研究方向为计算机视觉、多模态大模型、场景理解、图像和视频分割等。