涂鸦、边界框和点通吃,SAM-COD在伪装目标检测中的应用 !

教育   2024-08-31 09:01   福建  

关注“FightingCV”公众号

回复“AI”即可获得超100G人工智能的教程

点击进入→ FightingCV交流群

大部分伪装目标检测(COD)方法严重依赖 Mask 标注,这些标注的获取既耗时又费力。现有的弱监督COD方法与全监督方法相比性能显著较差,难以同时支持现有的所有伪装物体标签类型,包括涂鸦、边界框和点。

即使在Segment Anything Model(SAM)中,处理弱监督COD仍然是一个问题,而且通常会遇到涂鸦标签的提示兼容性、极端响应、语义错误响应和不稳定特征表示等挑战,从而在伪装场景中产生令人不满意的成果。为了减轻这些问题,作者提出了一种统一的COD框架,称为SAM-COD,该框架可以支持任意弱监督标签。作者的SAM-COD利用提示调整器根据SAM处理涂鸦作为提示。同时,作者引入了响应过滤器和语义匹配模块来提高在COD提示下SAM获得的 Mask 的质量。

为了减轻不准确 Mask 预测的负面影响,作者采用了新的提示适应性知识蒸馏策略,以确保可靠的特征表示。为了验证作者方法的有效性,作者在三个主流COD基准上进行了广泛实证实验。结果表明,作者的方法在弱监督和甚至全监督方法方面优于最新的成果。

1 Introduction

伪装目标检测(COD) 旨在从各种背景中检测潜在的物体,其视觉外观无法察觉,并与环境高度相似。它在实际应用[12,17,18,9,20,10]中具有巨大的潜力,如物种发现,医学图像分割[7]和动物追踪[7]。考虑到口罩标注作为全监督学习标签[8]并非总是可得,如每个图像耗时60分钟[8],弱监督标签作为一种有吸引力的替代方案,如涂鸦(约10秒)[15],边界框(约5秒),点(约2秒)等,具有很大的潜力。

然而,目前很少有工作研究如何利用弱监督标签进行COD。仅有两项工作,CRNet[15]使用了涂鸦标注,WS-SAM[14]使用了涂鸦和点的标注来解决弱监督COD。然而,它们的表现相比全监督COD方法有显著差距。因此,在本文中,作者试图早期探索一种针对不同弱监督标签的COD的统一解决方案,包括_点_,_边界框_和_涂鸦_等,使其性能可与全监督COD方法相媲美,结果如图1所示。

尽管Segment Anything Model(SAM)[19]可以直接为WSCOD提供候选项,但使用SAM辅助解决WSCOD任务并非易事。

SAM主要面临四个典型挑战:

1)涂鸦的提示兼容性:SAM主要支持矩形、点或文本类型输入,但并不支持现有WSCOD中适用的涂鸦输入,如图2(a)所示。其次,直接使用点输入并不总是产生令人满意的结果。探索如何使WSCOD中不同类型的标注与SAM兼容是很有必要的。

2)极端响应:对于COD,SAM在使用非常小的区域或整个背景区域时容易产生错误响应,如图2(b)所示。这是由于伪装物具有各种仿生图案、斑点和低对比表面纹理的保护特征所致。

3)语义错误的响应:SAM也容易对伪装物产生错误的语义响应,包括:a)非伪装目标响应:SAM在相关数据训练不足,无法理解伪装语义的情况下发挥作用。b)局部响应:SAM具有丰富的分割粒度,使其容易生成局部语义响应,如图2(c)所示。

4)不稳定的特征表示:WSCOD任务的图像在非常相似的情况下可能表现出完全不同的性能,如图2(d)所示。这是由于COD场景具有挑战性,SAM的基础模型和学生的模型在规模上有显著差异。直接使用有限监督进行蒸馏会导致不稳定的学习特征。

在这项工作中,作者提出了一个支持任意弱监督标签输入的统一弱监督COD框架SAM-COD,其中,例如由大型视觉模型SAM输入的点、框或涂鸦等任意弱监督标签。作者可以舍弃使用完全监督标签对SAM进行微调和探索使用弱监督标签来提示SAM。为了应对上述问题,作者首先引入了提示 Adapter ,它抽取出涂鸦标签的骨架,然后将其以离散的方式采样为点,使其与SAM兼容。接下来,作者制定了响应过滤器,通过计算 Mask 与图像大小的比率来从SAM中过滤掉 extreme 响应。然后,作者创建了一个语义匹配器,通过语义熵计算 Mask 的语义得分,并结合SAM的分割得分来选择平衡分割细节和准确语义的面部。根据不同的提示类型,作者设计了一个具有提示适应性的知识蒸馏器,通过引入COD任务的任务导向知识来增强知识蒸馏,提高从SAM蒸馏出的特征的质量。

总的来说,作者的贡献如下:

  • 作者提出了一种新颖的统一框架,继承自SAM,该框架将三种监督标签(即涂鸦、边界框和点)集成到一个强大的无监督遮挡目标检测器中。据作者所知,这是作者首次支持当前所有无监督标签的WSCOD方法。
  • 作者设计 Response Filter 和 Semantic Matcher 模块,以解决 SAM 在 COD 场景中产生不可靠的错误响应的问题,以获得高质量的物体 Mask 。
  • 作者提出了一种 Prompt-适应性知识点蒸馏(PKD)以解决 WSCOD。所蒸馏的知识可以根据三类输入提示(即涂鸦、边界框和点)自适应地学习,这通过关注 Mask 场景中值函数的高值区域的知识蒸馏在 WSCOD 中得到加强。
  • 在三个广泛使用的 COD 数据集上进行大量实验,证明作者的方法具有最先进的表现。根据作者的知识,这是首个在所有无监督标签下,相比全监督方法都具有优势的 WSCOD 方法。此外,该框架在迁移到显著目标检测(SOD)和多面体分割任务时也取得了良好的结果。

2 Related Work

伪装目标检测。COD专注于检测图像中的伪装目标。SINet [8] 提出了一种COD数据集,其中包含了10000张伪装图像,每张图像的平均标注时间约为60分钟。[24, 27] 通过精心设计的特征探索模块,试图从背景中挖掘伪装目标的不显眼特征。ZoomNet [25] 引入了混合尺度的三元组网络,以解决COD所提出的挑战。上述的COD方法依赖于具有像素级标注的大规模数据集。然而,界限模糊使得像素级标注的伪装目标成为一项耗时且劳动密集的任务。CRNet [15] 是第一个引入S-COD数据集的,它使用涂鸦标注作为弱监督。WS-SAM [14] 使用涂鸦和点标注作为弱监督,但没有构建具有点标注的数据集。此外,框标注尚未得到探索。因此,作者提出框和点标注来构建COD数据集。作者还提出第一个同时支持各种弱监督标签且超过完全监督方法的第一种模型。

SAM在COD中的使用。SAM [19] 在传统分割任务上表现出色,在某些时候甚至能匹配完全监督方法的表现,在零样本设置下。[3, 28] 表明,尽管SAM在通用目标分割上显示出前景,但其COD任务性能受到限制。SAM-Adapter [3] 采用了一种 adaptor 以进行有效的调整,而不是依赖传统的微调方法。这种适应性使得SAM可以适应COD的数据分布,从而降低了微调的成本,同时增强了SAM在COD中的性能。WS-SAM [14] 将三个增强的图像通过SAM处理,并将获得的 Mask 融合以获得最终的对齐标签。但是它的缺点也很明显:1) SAM的推理时间被翻倍了2) SAM的潜在能力并未得到充分利用,而是只使用了最高分数的 Mask 代替前三的 Mask 。作者应用SAM设计了一个统一的框架,支持点、框和涂鸦标注。

知识蒸馏。知识蒸馏(KD)[1, 16] 主要用于训练一个较小的网络去模仿较大网络的输出以压缩模型。DINO [2] 引入了一种简单的不监督方法,可以描述为无需标签的自蒸馏模型以优化表示学习。WSCOD(无标签伪装目标检测)下的蒸馏与传统蒸馏不同,因为1)COD场景具有挑战性,2)监督较少。这使得传统蒸馏方法不适用,目前还没有探索WSCOD任务下的蒸馏方法。所以,作者为WSCOD任务设计了一种提示自适应的知识蒸馏方法。

3 Approach

所提出的框架的整体结构如图3所示。提示 Adapter 用于处理涂鸦以适应SAM提示输入。响应过滤器用于处理SAM在提示下出现的极端响应情况。语义匹配器用于改善SAM由于缺乏与COD相关的语义而出现的响应问题。在WSCOD中的知识蒸馏采用了提示适应的知识蒸馏方法。

Prompt Adapter

作者使用三种弱监督标签作为提示符:点、框和涂鸦。SAM直接支持点、框作为输入提示符。不幸的是,SAM不支持涂鸦类型的提示符。因此,作者设计了一个提示符 Transformer ,将涂鸦转换为离散点,使其与SAM兼容,如图3所示。

具体而言,作者首先使用[35]中的Zhang-Suen算法提取涂鸦的骨架。然后,对其进行离散采样。具体而言,作者首先创建一个网格G,其中网格点均匀分布且距离为αW最小值(其中H和W分别表示输入图像的长度和宽度),α为超参数。之后,作者通过采样与涂鸦骨架和网格线相交的点来形成离散点集S^a。此时,作者得到SAM的提示:prt = {P, B, S^a},其中P和B分别表示点和框的标签。

Response Filter

在COD中,伪装目标通常表现出极好的拟合效果。因此,SAM在有限的提示下容易找到过度的响应,如图2(b)所示。为了解决这个问题,作者设计了一个响应过滤器,以防止利用这些显然异常的响应,如图3所示。

具体来说,SAM给出的输入提示为:

其中 提供第i个目标的伪装, 表示相应的分割置信度。SAM 默认为使用置信度得分最高的那个mask。然后,作者设计了一个响应过滤器,通过计算 mask 的大小与图像大小的比例来确定是否出现过度的响应:

其中 是一个指示函数。 是第i个mask 的区域。 分别表示最大值和最小值。

Semantic Matcher

SAM 的语义知识匮乏,尤其是对伪装和整体细节的语义理解不足,导致其响应与物体不匹配,如图2(c) 所示。为了解决这个问题,作者设计了一个语义匹配器,通过语义熵来测量语义评分。接着,选择具有准确语义的 Mask ,如图3 所示:

具体而言,作者首先在 COD 数据上训练模型,得到 Mask  

其中 用于提供输入图像, 分别表示模型的编码器和解码器。尽管 在进行分割细节方面可能无法与 SAM 的 Mask 相媲美,但在 COD 数据上的训练能为模型提供初步理解的伪装语义。

接下来,作者设计了一个使用 计算语义熵的语义熵 ,以测量 Mask   的语义评分:

其中 是像素索引。 值越小,表示 的语义评分越高。

作者选择乘积为 的最大值,该乘积平衡了分割细节和准确语义,形成 中最佳的 Mask  

Prompt-Adaptive Knowledge Distillation

作者采用知识蒸馏方法将大型视觉模型SAM中的知识迁移到较小的模型,从而降低数据成本和模型大小。然而,COD任务具有挑战性,且弱监督使知识蒸馏更加困难。具体来说,作者提出的框架将SAM中最佳 Mask   作为教师知识 转换为学生知识 。此外,作者利用不同提示的先验知识来增强蒸馏质量。

自知识蒸馏。输入提示(涂鸦,方框和点)分别包含伪装目标的纹理、边界和区分区域。这些已被证实对于COD任务[15, 33]至关重要。因此,作者根据输入提示构建一个自适应提示 Mask  ,用于知识蒸馏。在 的关键蒸馏区域内标记为0(黑色区域)。具体而言,1)涂鸦标签,保留标记的前景物体,丢弃背景;2)点标签,中心为点标签的 的内嵌圆形;3)盒状标签,用下划线“强调”的框表示,边宽和高度分别为盒状标签长度和宽度的四分之一。

然后,自适应提示知识蒸馏损失定义为:

其中 是预测 Mask , 是像素索引。=1+ =0) 和 是示例函数。 作为蒸馏损失中的系数,为提示引导区域分配权重,引导蒸馏过程关注学习关键蒸馏区域。

自知识蒸馏。模型的学习特征表示可能不足以保证足够的鲁棒性,如图2 (d) 所示。受到自知识蒸馏(SKD)的启发,作者设计一个学生模型来增强表示学习。具体而言,对于图像 ,作者采用视觉变换 (缩放,颜色晃动等),这些变换能够改变图像的外观,如图2(t)所示。

然后作者编码和解码增强图像 ,并将它们转换为两个预测图 ,表示为:。作者的目标是使两个预测图之间的距离最小:,其中是像素索引。当对图像 应用变换 (例如缩放,裁剪等)时,此变换应应用于 以与对齐。作者遵循SKD的设计,即在一路径停止梯度更新,这将SKD损失函数定义为:

通过最小化上述损失,可以从教师模型学习到稳健的特征表示。

Network

编码器和解码器设计 编码器和解码器的设计可以灵活地替换为现有的模型。在本工作中,作者使用PVT[29]作为编码器,该编码器获得多尺度特征()。解码器包括四个3x3卷积层,将的通道维数减少到64,然后通过上采样将这些缩小到相同的大小。然后,通过 ConCat 进行组合,最后,使用一个3x3卷积层来获得最终的 Mask 。在作者这种方法中,所有编码器和解码器都指的是相同的模型。

训练细节 作者的训练过程包括两个主要步骤。在训练步骤1中,作者在语义匹配器中训练编码器和解码器,以获得最终的蒸馏源。在训练步骤2中,作者使用进行知识蒸馏,以重新训练编码器和解码器。更多细节请参阅S.M。

损失 与[31, 34, 15]等其他弱监督方法相比,作者只有两个损失。最终损失包括定义为的,如下所示:

4 Experiments

开始是实验部分的第4节。

Experimental Setup

数据集 作者的实验基于三个COD基准测试:CAMO[20],COD10K[8]和NC4K[22]。为了评估作者的方法,作者首先在涂鸦标注的数据集S-COD[15]上训练作者的网络。然后,作者从COD10K(3040张图像)和CAMO(1000张图像)中各重新标注4040张图像,创建了带有标注的数据集(P-COD)和带有边界框标注的数据集(B-COD),用于训练,而剩余的图像则用于测试。

评估指标 作者采用四种评估指标:平均绝对误差(MAE),S-measure(S)[5],E-measure(E)[6],加权F-measure(F)[23]。

实现细节 作者使用PyTorch实现作者的方法,并在一张GeForce RTX4090 GPU上进行实验,使用SAM的ViT-H版本。作者选择PVT-B4[29]作为编码器。作者使用带有动量的随机梯度下降优化器,动量参数为0.9,权重衰减为-4,采用最大学习率-3的三角形学习率调度。批处理大小为8,训练周期为60。输入图像调整为。作者采用离线蒸馏,仅执行一次前向计算,训练时间为7小时。

Compare with State-of-the-art Methods

定量比较。 作为第一个将点、涂鸦和框式监督融入到WSCOD方法中的方法,所提出的算法主要利用涂鸦监督和全( Mask )监督作为 Baseline 。如图1所示,作者的方法取得了显著的改进,在三个弱监督标签上平均提高了26.8%的MAE,同时提高了6.1%的S和5.5%的E。与先进的弱监督COD方法WS-SAM [14]相比,平均增强了26.8%的MAE,6.1%的S和5.5%的E。特别是在点式和框式监督下,作者的方法表现非常出色。它突显了作者可以用更少的标注实现更好的性能。作者的方法甚至超过了最先进的全监督方法,ZoomNet [25]。为了验证作者的方法相对于简单使用SAM的优势,作者分别与SAM-S和SAM-P进行比较,这两种方法分别用涂鸦和点式监督微调SAM的 Mask 解码器,通过部分交叉熵损失。在测试中,SAM-S和SAM-P使用自动提示生成策略,并报告最高的IoU分数。作者可以看到在使用涂鸦监督或点式监督微调SAM后,SAM-S和SAM-P的性能有所提高,但结果仍然低于作者的方法。这证明了作者的方法的优势,它利用SAM提示适应性知识蒸馏为小型模型提供更好的性能。为了进一步分析分割质量,作者在测试集上的密度分布图4绘制了S和目标大小。作者可以看到,与CRNet和ZoomNet相比,所提出的方法取得了整体改进和更稳定的性能。尤其是在CAMO数据集上,相比CRNet和ZoomNet,作者的模型有显著的改进。特别是作者设计了"Mix"训练方法,即在训练中逐张图随机分配一种弱监督标签。研究发现,性能接近框式监督方法,特别是在CAMO数据集上,性能显示出显著的优势。训练的多样性是由不同标签的混合引入的,有利于学习更复杂和丰富的特征表示,涵盖了不同水平的特征。

图4:关于S和物体大小密度的密度分布图。方框和椭圆分别代表具有挑战性的小和大目标,其性能较差。

图5:与一些代表性的最先进的全监督和涂鸦监督模型进行可视比较。

定性评估。 作者的方法生成的预测图具有更清晰的更完整物体区域,更锋利的边缘,明显优于最先进的最弱监督COD方法CRNet [15]和全监督COD方法ZoomNet [25],如图5所示。作者的方法在各种具有挑战性的场景中表现良好,包括小型目标(第3行),大目标(第4行),高内在相似度(第2行),不确定的边界(第2和3行)和复杂背景(第1行)。

参数复杂性。 在相同的参数复杂度和计算成本开销下,作者的模型超过了全监督方法ZoomNet [25],如图2所示。

Ablation Study

由于COD10K是最具代表性的数据集,后续的所有消融实验都是在这个数据集上进行的。除特别指明外,所有结果都是三种不同提示(点、框、涂鸦)的平均值。

提示 Adapter 的效果。 提示 Adapter 的消融结果见表4。Adapter 对涂鸦提示的性能影响较大。此外,与 Baseline 相比,可以通过 Adapter 得到更准确的预测图,如图6所示。Adapter 还有一个超参数α来控制离散采样的程度,见表5,合适的离散采样可取得最佳效果。

响应滤波器的效果。如表3所示,使用响应滤波器可以显著提高结果。图6直观地说明了响应滤波器可以提高预测图的精度。响应滤波器有两个超参数τ_s和τ_b来控制效果,见表5。

语义匹配器的效果。作者对语义匹配器进行了消融实验,见表3。此外,通过使用语义匹配器,可以得到更完整的预测图视觉化,如图6所示。

基于提示的KD(PKD)效果。作者测试了PKD与传统KD之间的效果。如表3所示,作者的PDK性能更好。此外,使用PKD可以提高预测图的精度,并能够持续优化表示,将纠缠物体与背景进行区分,使模型最终学习到稳健的表示,如图7所示。如表7所示,MARGIN LOSS在PKD中表现最好。

自知识蒸馏(SKD)的效果。作者对SKD进行了消融实验。首先,作者将具有和没有SKD的模型分别进行测试,作者的自知识蒸馏取得了显著的改进,见表3。此外,作者对数据增强进行了全面的实验,这是SKD的一项重要操作,见表6。作者对知识蒸馏的损失类型进行了测试,并发现L1 LOSS表现最好,见表7。

Extension to SOD

作者的方法不仅在COD上表现出色,同时在SOD上也取得了显著的性能。具体来说,作者根据点、涂鸦和框的标签在SOD数据集上进行训练,所得结果如图表8所示。作者将这种成功归因于作者对SAM潜力的探索以及知识蒸馏方面的改进,这使得作者在WSSOD上的表现非常强大。

Discussion

SAM提示自适应KD的重要性?

1)数据效率。 作者还在少样本设置下评估了作者的模型和CRNet的表现,如图8(a)所示。具体来说,作者的模型仅使用COD10K-Train数据集进行训练,该数据集包含类别并在COD10K-Test数据集上进行测试与CRNet相比,作者的模型在更少的训练数据下实现了有前途的结果。(图8(a)验证了作者提出的方法的有效性和效率。)通过SAM提示自适应知识蒸馏,作者从SAM传输知识到作者的模型,仅需要少量数据。

2)训练效率。 作者可视化了训练过程中各种指标的曲线,如图8(b)所示,CRNet和作者的模型共享相同的实现细节,包括优化器、学习率、周期和其他相关参数。可以观察到作者的模型表现出极高的收敛速度。为了实现相同的效果,作者的模型只需要一轮回的训练,而CRNet通常需要超过10轮回的训练。因为模型通过提示自适应知识蒸馏从SAM传输教师知识到作者的小模型,这比从零开始学习一个模型要快得多。

3)模型性能。 作者对在各个任务上的模型性能进行了详细的评估。如在表1中所示,与CRNet相比,作者的模型在各任务上的性能都有不同程度的提升。实验结果表明,通过SAM提示自适应知识蒸馏,作者可以有效地将SAM的知识转移到作者的模型中。

如表1所示,作者的模型在各任务上的性能都有不同程度的提升。实验结果表明,通过SAM提示自适应知识蒸馏,作者有效地将SAM的知识转移到作者的模型中。

5 Conclusion

在本文中,我们提出了一种名为SAM-COD的SAM引导的统一框架,用于弱监督的伪装对象检测(WSCOD)。它整合了所有现有的伪装对象标签(即涂鸦、边界框和点),并在对抗最先进的弱监督方法和甚至完全监督方法方面取得了显著的性能。提出的SAM-COD通常旨在解决WSCOD任务中SAM的问题,即涂鸦标签的提示兼容性、极端响应、语义错误响应和不稳定特征表示。具体来说,在SAM-COD中,我们设计了一个提示适配器来处理不同的标签,并使用响应过滤器和语义匹配器来减轻SAM对于伪装对象的不完美输出的影响。此外,还提出了一个提示自适应的知识蒸馏,用于可靠的 feature 表示。我们在伪装对象数据集上进行了广泛的实验,证明了提出方法的有效性,它改进了SAM,使其更适合WSCOD。

参考

[1].SAM-COD: SAM-guided Unified Framework for Weakly-Supervised Camouflaged Object Detection.

From 集智书童


往期回顾


基础知识

【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇

【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇 (超多图警告)

【CV知识点汇总与解析】| 技术发展篇 (超详细!!!)


最新论文解析

NeurIPS2022 Spotlight | TANGO:一种基于光照分解实现逼真稳健的文本驱动3D风格化

ECCV2022 Oral | 微软提出UNICORN,统一文本生成与边框预测任务

NeurIPS 2022 | VideoMAE:南大&腾讯联合提出第一个视频版MAE框架,遮盖率达到90%

NeurIPS 2022 | 清华大学提出OrdinalCLIP,基于序数提示学习的语言引导有序回归

SlowFast Network:用于计算机视觉视频理解的双模CNN

WACV2022 | 一张图片只值五句话吗?UAB提出图像-文本匹配语义的新视角!

CVPR2022 | Attention机制是为了找最相关的item?中科大团队反其道而行之!

ECCV2022 Oral | SeqTR:一个简单而通用的 Visual Grounding网络

如何训练用于图像检索的Vision Transformer?Facebook研究员解决了这个问题!

ICLR22 Workshop | 用两个模型解决一个任务,意大利学者提出维基百科上的高效检索模型

See Finer, See More!腾讯&上交提出IVT,越看越精细,进行精细全面的跨模态对比!

MM2022|兼具低级和高级表征,百度提出利用显式高级语义增强视频文本检索

MM2022 | 用StyleGAN进行数据增强,真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022|只能11%的参数就能优于Swin,微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍!人大提出交互协同的双流视觉语言预训练模型COTS,又快又好!

CVPR2022 Oral|通过多尺度token聚合分流自注意力,代码已开源

CVPR Oral | 谷歌&斯坦福(李飞飞组)提出TIRG,用组合的文本和图像来进行图像检索


FightingCV
一个专注于解析计算机视觉、多模态方向前沿论文,解答科研问题,分享科研时事的公众号!
 最新文章