COCO-0cc 闭合全景分割和图像理解的基准,遮挡感知全图分割 !

科技   2024-10-12 09:02   上海  

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群




想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF

行业技术方案👉AI安防、AI医疗、AI自动驾驶
AI模型部署落地实战👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

为了帮助解决全图分割和图像理解中的遮挡问题,本文提出一个新的大规模数据集COCO-Occ,该数据集起源于COCO数据集,通过手动将COCO图像标记为三个感知到的遮挡 Level 而得到。

使用COCO-Occ,作者对具有不同遮挡 Level 样本的全图分割性能进行了系统的评估和量化。

与SOTA全图模型进行的比较实验表明,遮挡的存在显著影响了性能,更高遮挡 Level 的性能显著较差。

此外,作者提出了一种简单而有效的方法作为利用对比学习利用遮挡标注的初步尝试,以使模型学习更鲁棒的代表,捕捉不同严重程度的遮挡。

实验结果显示,所提出的策略提高了基准模型的性能,并在提出的COCO-Occ数据集上实现了最先进性能。

I Introduction

由于大规模数据集的发布和有效方法的设计,计算机视觉[7]和图像理解任务取得了显著进步。然而,一些任务,如目标检测,实例分割和泛部分割,在其他任务中的性能仍有所不足。场景中某些物体部分遮挡其他物体的遮挡问题,是目前最主要的和最常见的问题之一,阻碍了各种计算机视觉任务,如目标检测和分割,的进一步性能提升。这是由于算法难以感知被遮挡的物体并充分提取其特征。图1说明了在泛部分割任务中遮挡问题的示例,因遮挡而有错误的预测。为了解决这个挑战,一些研究已经探索了专门用于处理遮挡的目标检测和实例分割的模型结构。例如,提出了一个组合卷积神经网络(CompositionalNets),通过将不同的可导性组合模型集成到深度卷积神经网络中,增强了深度卷积神经网络在部分遮挡下的鲁棒性。将组合卷积神经网络推广到了多目标遮挡,并提出了遮挡推理模块(ORM)来后处理分割错误。

尽管已经取得了性能提升,但这些方法通常因缺乏大规模遮挡标注数据而作为直观或基于规则的而开发,这阻碍了潜在的进一步改进。因此,除了模型结构的设计外,专为遮挡分析设计的数据集同样至关重要。[38]提出了一个用于视频实例分割[39]的遮挡程度下的视频实例分割基准数据集, OVIS。他们对每一帧中的物体分配一个唯一的遮挡 Level ,并定义了框面遮挡率(BOR)来评价整个帧的遮挡 Level 。[40] 提出了MOSE,该数据集是部分继承自OVIS,用于复杂场景下的视频物体分割。这些数据集促进了更好的视频理解方法,但是它们的规模相对较小,只覆盖了常见类别的一小部分。此外,很少有研究探索2D图像场景中的遮挡问题,这是比3D视频更具有挑战性的,因为缺乏时间序列信息[24]。

为填补这一空白,作者从常用的图像理解基准数据集,即COCO数据集[4]中的图像中标注遮挡 Level 。当前的遮挡测量方法,如BOR,使用带有标签的图像数据来定义遮挡 Level ,即由场景实例的边界框计算的IoU。然而,在大多数情况下,边界框并没有完全包含整个物体,导致计算得到的BOR值不能准确地表示遮挡 Level 。此外,BOR计算严重依赖于遮挡器和被遮挡区域的并集,而忽略物体被遮挡的绝对面积,这进一步降低了其在遮挡测量中的使用价值。因此,虽然费时费力,作者选择直接方法,手动标注场景的观察到的遮挡 Level (低、中、高),从而得到名为COCO-Occ的新数据集,如图2所示。

然后,作者研究了最近的最先进方法的性能,如SOTA,通过在所提出的COCO-Occ数据集上的panoptic分割任务中的性能来探索它们对被遮挡图像的理解。请注意,虽然这项工作探索了在panoptic分割任务上利用提出的基准,但 Proposal 的遮挡基准可以用于任何图像理解任务,如目标检测和图像识别。在此基础上,作者进一步评估了在不同遮挡 Level 下新训练的Mask2Former [29]。实验结果显示,随着遮挡 Level 从低到高的增加,性能降低显著,强调了遮挡给最先进的panoptic分割方法带来的挑战。

作为利用提出的遮挡标注的第一尝试,作者在这里也提出一种基于对比学习的panoptic分割表示学习方法。具体而言,作者利用triplet损失将具有相同遮挡 Level 的样本在特征空间中拉近,同时将具有不同 Level 的样本推开。实验结果显示,所提出的简单方法在COCO-Occ数据集上达到了最先进的性能。进一步的消融研究证明了所 Proposal 方法的有效性。

总之,作者的贡献有三个方面:

  1. 作者建立并发布了一个大规模的数据集COCO-Occ,旨在帮助解决被遮挡的图像理解任务。该数据集来源于COCO数据集,经过人工标注的可见遮挡 Level ,共计30,000张训练图像和5,000张测试图像。

  2. 作者系统地研究了遮挡 Level 的影响,通过探索在所提出的基准上以理解被遮挡图像的SOTA全光学分割方法性能。

  3. 作者设计了一种方法,使用对比学习从 proposed occlusion标注 中利用提出的遮挡标注来提高全光学分割任务的代表学习效果。实验结果表明了所提出方法的有效性。

II Method

COCO-Occ Dataset

本文中,作者对图像的遮挡等级进行了标注,具体步骤如下:

  1. 对于所有选择的图像,作者首先根据真实的标注信息使用COCO API在图像上绘制多边形 Mask ,因为多边形 Mask 可以比边界框更准确地确定物体占据的区域。

  2. 然后,作者计算被遮挡区域与整个遮挡物(包括被遮挡部分)的比率,称为遮挡率。但是,由于COCO标注只提供物体可见部分的 Mask ,因此作者无法直接获取被遮挡区域的面积。为了解决这个问题,作者参考了一种理论,该理论认为人们可以根据物体的整体形状、分类或与其他物体的关系来估计被遮挡部分的形状。因此,作者选择通过视觉估计被遮挡区域的形状并根据此估计遮挡物的遮挡率。最后,作者将最高遮挡率定义为图像的遮挡等级。根据这个标准,作者手动将图像分为三个遮挡等级:低、中、高,分别对应于0%、(0%, 50%]和(50%, 100%)的遮挡率。

  3. 当确定50%阈值时,遮挡率通常难以估计,这时作者将这些图像分类为中遮挡等级。

本文还包括了COCO-Occ数据集的统计信息。COCO-Occ数据集包含35,000张图像,其中30,000张为训练图像,来源于原始COCO训练集(前30,000张图像),剩下的5,000张为验证图像,与原COCO验证集相同。

训练集中,12,081张图像被标注为高遮挡,11,251张图像为中遮挡,6,668张为低遮挡。验证集中,1,791张图像为高遮挡,2,075张为中遮挡,1,134张为低遮挡。此外,作者还根据遮挡等级将验证集划分为三个子集,进一步验证模型的性能。

Contrastive Learning on Occlusion Level

有了遮挡等级的标注,作者旨在利用这个信息来提高模型在遮挡图像理解方面的性能。模型需要识别来自不同图像的不同遮挡等级,以便学习更强大的特征表示。最简单的方法是基于遮挡等级形成一个分类任务。然而,分类需要来自同一遮挡等级的样本严格映射到相同的潜在空间,而忽视来自不同遮挡等级样本之间的相似性,因为遮挡是一个高层次的概念。为此,作者在高层次图像理解任务(即全图分割)上采用相对较软的方法,即对比学习方法,以提高遮挡下的特征表示学习。具体而言,作者将具有相同遮挡等级的图像对视为正样本对,而具有不同遮挡等级的图像对视为负样本对。采用基于距离的Triplet Loss实现对比学习,这样可以在负样本对中容忍一定的相似性。

整体架构如图3所示。具体而言,作者首先将 Backbone 网络的最后一层特征映射通过 输入,得到特征嵌入 。然后,作者基于 计算图像样本之间的余弦相似度,并应用Triplet Loss实现对比学习,如图3中的方程式1所示。其中 表示第 i 个样本的遮挡等级, 是边际。

作者观察到低和高的图像水平之间显示出更明显的差异,而中和高水平之间在遮挡空间中则共享更多的相似性。鉴于这一点,作者将低和高图像对分别设置严格的边际,而对于其他对设置更高的边际。具体而言,作者将设置严格的阈值 使低和高图像对更接近,并将更高阈值 用于其他对以容忍更多的相似性。

通过提出的对比学习可以捕获不同样本之间的遮挡差异,从而学习更 discriminative 和 robust 的特征表示。模型由提出的对比损失 和全图分割损失 联合优化。最终的损失 如图3中的方程式2所示,其中 是超参数,用于平衡分割损失和基于遮挡的对比学习贡献。

III Experiments

作者研究了不同遮挡水平下的图像如何影响使用新提出的COCO-Occ数据集的最先进的全图分割方法的性能。除了标准的全图分割指标PQ [24],作者还报告了实例分割和语义分割的AP和mIoU[29]。最后,作者通过消融研究证明了所提出方法的有效性。

Implementation Details

为了研究不同的遮挡 Level 对方法性能的影响,作者进行了一项验证实验,该实验加载了最近最先进的行人分割方法(在整个COCO数据集上训练)的预训练权重(这些权重是针对作者的提出的COCO-Occ数据集进行测试)并使用官方代码和脚本测试它们在不同验证子集(遮挡 Level )上的性能。

关于验证作者提出方法有效性的实验,作者采用Mask2Former(带有ResNet-50)作为 Baseline ,并在作者提出的COCO-Occ数据集的训练集中训练模型。实验中所有与方法比较的方法均使用官方代码对COCO-Occ数据集进行重新实现。输入图像均被重新缩放并裁剪为512×512。在公式2中,参数λ设置为1.0。边界参数τ_{l,h}和τ_{m}分别设置为0.4和0.6。

Experimental Results

首先,作者对当前最先进的panoptic分割方法进行了性能基准测试,包括Panoptic FPN [25]、Panoptic DeepLab [27]、Panoptic FCN [26]、Mask2Former [29] 和 Mask DINO [30],在提出的COCO-Occ验证集上进行测试。特别的是,作者在表1中报告了不同遮挡 Level 的遮挡子集上的结果。结果表明,随着遮挡 Level 的增加从低至高,性能指标(PQ、PQTh、PQSt、和APTh)显著下降。

这种恶化强调了当前最先进的panoptic分割方法处理遮挡的关键限制,这些方法难以在遮挡过程中保持准确性和一致性。同时,这也证实了作者人工标注的正确性,反映了图像的遮挡 Level 。

然后,作者通过在COCO-Occ上重新训练并测试模型来验证作者提出的方法的有效性。作者在验证集的三种遮挡子集上展示了作者提出的该方法的结果和 Baseline ,并将作者的方法与近期最先进的SOTA方法在表2中进行了比较。可以明显看到,配备 Proposal 对比学习的模型的改进在所有遮挡 Level 上都是显著的。具体而言,对于低遮挡,PQ提高了0.6,PQSt显著增长了2.3,这说明在'stuff'类的分割上有了强大的改进。同样,在高遮挡下,该方法实现了PQ的0.4提高和PQSt的1.0提升。

所有结果都证明了与 Baseline 相比,在各种遮挡 Level 上作者方法的 effectiveness。请注意,panoptic分割是一个具有挑战性的任务,尤其是在大规模具有挑战性的数据集中COCO上,即使是小的改善也难以实现。此外,作者的方法取得了最佳的整体性能,这些结果证实了作者的理论,并证明遮挡特征表示可以在训练和提高整体分割准确性方面发挥辅助作用,尤其是在分割和标记较大、较模糊的区域时。

Ablation Study

此外,作者在表3中的消融试验的基础上,进一步 conducted一个消融试验,以分析在作者的对比学习方法中,在验证集的整体性能上的有效性。如IV所示,在添加了所提出的方法后,不同遮挡子集以及整个验证集上的改进都可以看到,特别是PQSt在整个验证集上提高了0.8。这表明,所提出的对比学习方法使模型学习的更为遮挡鲁棒特征,从而提高其整体性能。

然后,作者研究了作者提出的对比学习中的边界的影响,在表5中。特别是,作者先固定一个阈值,然后增加另一个阈值来评估的组合。当第一个阈值固定在0.3时,从0.4增加到0.8,对整体性能的影响最小。当增加到0.4时,的组合实现最高的PQ。然而,当进一步增加到0.6以上时,整体性能开始下降。这表明,忽视任一阈值的影响都将导致整体性能的下降。

作者的方法是利用遮挡标注的初步尝试。作者相信,当提出更先进的方法以充分利用作者所提出的数据集时,可以实现更大的改进。

IV Conclusion

在这项工作中,作者提出了COCO-Occ,这是一个新型的用于助力全图分割和其他图像理解任务中的遮挡研究的大规模数据集。该数据集来源于具有手动遮挡标注的COCO数据集,提供了包含30,000个训练图像和5,000个测试图像的综合基准,这些图像按遮挡 Level 被分为三级。

作者在该数据集上系统地评估了目前最先进的全图分割方法的性能,结果表明,遮挡,尤其是在更高 Level 上,会显著降低模型性能。

此外,作者还提出了一种基于对比学习的遮挡增强的方法,以提高模型在处理遮挡时的鲁棒性。尽管作者的方法非常简单,但它还是在 Baseline 之上实现了性能提升。

这项工作不仅突显了遮挡对全图分割任务的重要影响,还为将来研究更有效的遮挡感知方法提供了量化的基础。

参考

[1].COCO-Occ: A Benchmark for Occluded Panoptic Segmentation and Image Understanding.

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称



点击下方“阅读原文”,
了解更多AI学习路上的「武功秘籍」


集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
 最新文章