TPAMI 2024 | UniDetector：面向异构监督的通用目标检测

文摘 2024-11-19 19:02 中国香港

点击下方“PaperEveryday”，每天获得顶刊论文解读
点击加入论文投稿、写作、阅读分享交流群
论文信息

题目：UniDetector: Towards Universal Object Detection with Heterogeneous Supervision

UniDetector：面向异构监督的通用目标检测

作者：Zhenyu Wang; Yali Li; Xi Chen; Ser-Nam Lim; Antonio Torralba; Hengshuang Zhao; Shengjin Wang

论文创新点

异构标签空间训练：UniDetector能够利用来自不同源的图像和异构标签空间进行训练，这保证了足够的信息来构建通用表示。
异构监督训练：通过引入弱标注图像和未标注图像，UniDetector减轻了对有限的全标注图像的依赖，这在目标检测领域是一个新颖的训练方法。
解耦训练方式：我们提出了将提议生成阶段和RoI分类阶段解耦的训练方式，这有助于提升模型对新类别的泛化能力。
类别不可知的定位网络（CLN）：为了在开放世界中产生泛化的区域提议，我们提出了CLN，它结合了RPN和RoI头部的优势。

摘要

在本文中，我们正式提出了通用目标检测问题，其目标是在每个场景中检测每个类别。对人类注释的依赖、有限的视觉信息以及开放世界中新类别的出现严重限制了检测器的普遍性。我们提出了UniDetector，这是一种通用目标检测器，能够识别开放世界中的巨大类别。UniDetector的关键点包括：1）它通过图像-文本对齐，在训练中利用多源图像和异构标签空间，保证了通用表示的充分信息。2）它涉及异构监督训练，减轻了对有限全标注图像的依赖。3）它能够轻松地推广到开放世界，同时保持对已见和未见类别的平衡。4）它通过我们提出的解耦训练方式和概率校准，进一步促进了对新类别的泛化。这些贡献使得UniDetector能够检测超过7k个类别，迄今为止可测量的最大规模，仅用约500个类别参与训练。我们的UniDetector在大型词汇数据集上表现出强大的零样本能力——在未见任何对应图像的情况下，超过了有监督基线5%以上。在13个不同场景的检测数据集上，UniDetector也实现了最先进的性能，仅使用了3%的训练数据。

关键字

开放世界与通用目标检测，异构标签空间，异构监督学习

1. 引言

通用目标检测旨在检测每个场景中的所有内容，即预测每个类别的类别标签并在每个场景中定位它们。尽管现有的目标检测器[1]、[2]、[3]、[4]取得了显著进展，但它们严重依赖于大规模基准数据集[5]、[6]。然而，目标检测在类别和场景（即域）上有所不同。在开放世界中，与现有图像相比存在显著差异，并且出现了未见类别，人们不得不重建数据集以确保目标检测器的成功，这严重限制了它们对未见信息的开放世界泛化能力。相比之下，即使是小孩也能在新环境中快速泛化。因此，普遍性成为了人工智能与人类之间的主要差距。一旦训练完成，通用目标检测器可以直接在未知情况下工作，无需任何进一步的再训练，从而显著接近于使目标检测系统像人类一样智能的目标。通用目标检测器应该具备以下三个能力，以检测每个场景中的所有内容。首先，它应该利用多源图像和异构标签空间进行训练。需要大规模的分类和定位协作训练，以确保检测器能够获得足够的信息以实现泛化。理想的大规模学习需要包含多样化的高质量边界框注释和大类别词汇表的图像。然而，由于人类注释者的限制，这无法实现。实际上，与小词汇数据集[5]、[6]相比，大词汇数据集[7]、[8]往往是嘈杂的注释，有时甚至存在不一致问题。相比之下，专门的数据集[9]、[10]、[11]只关注一些特定类别。为了覆盖足够的类别和场景，检测器需要从上述所有图像中学习，从多源异构标签空间的图像中学习，以便它能够学习全面和完整的知识以实现普遍性。其次，它应该从异构监督的图像中学习。尽管在数据收集上投入了许多努力，但目标检测的全标注图像数据集仍然在数据集规模和类别词汇表上比弱标注图像数据集（仅注释类别标签）小得多。为了避免有限的全标注图像的限制，应该涉及弱标注图像以扩展词汇表。此外，未标注图像，这些图像很容易收集且几乎无限，可以进一步利用以提供增强的信息以实现检测器的普遍性。第三，它应该能够很好地泛化到开放世界。具体来说，这里的泛化指的是检测器在开放世界中识别未见类别的能力，与见过类别相比，性能下降不大。由于不可能为训练而注释所有类别，检测器应该学会识别在训练期间未见过（未注释）的新类别。因此，从见过类别到未见类别的泛化能力对于目标检测器的普遍性是必要的。然而，纯视觉信息无法实现这一目的，因为完整的视觉学习需要人类注释以进行全监督学习。在本文中，我们正式提出了通用目标检测任务。为了实现上述通用目标检测器的三个能力，需要解决三个相应的挑战。第一个是关于使用多源图像进行训练的问题。从不同来源收集的图像与异构标签空间相关联。现有的检测器只能从单一标签空间预测类别，数据集特定的分类和注释不一致使得统一多个异构标签空间变得困难。第二个是关于使用异构监督进行训练的问题。弱标注图像和未标注图像不能提供实例级监督信号，未标注图像的标签空间也不明确。监督信息不足使得传统的全监督训练方式无法利用这些图像。第三个是关于新类别鉴别的问题。受到最近图像-文本预训练成功[12]、[13]、[14]的启发，我们利用它们的预训练模型和语言嵌入来识别未见类别。然而，全监督训练使检测器专注于训练期间出现的类别。在推理时，模型将偏向于基础类别，并对新类别产生不自信的预测。尽管语言嵌入使其有可能预测新类别，但它们的性能仍然远远低于基础类别。我们提出了UniDetector，一个通用目标检测框架，以解决上述三个问题。在语言空间的帮助下，我们首先研究了可能的结构，以训练具有异构标签空间的检测器，并发现分区结构同时促进了特征共享并避免了标签冲突。接下来，为了利用区域提议阶段对新类别的泛化能力，我们解耦了提议生成阶段和RoI分类阶段，而不是联合训练它们。这种训练范式很好地利用了它们的特点，从而有利于检测器的普遍性。在解耦方式下，我们进一步提出了一个类别不可知的定位网络（CLN），用于产生泛化的区域提议。然后，我们进行自训练并生成高质量的伪框，以利用弱标注和未标注图像，并发现弱标注图像主要推动了RoI分类阶段，而未标注图像促进了提议生成。最后，我们提出了概率校准以去偏见预测。我们估计了所有类别的先验概率，然后根据先验概率调整预测的类别分布。校准很好地提高了新类别的性能。我们的主要贡献可以总结如下：

我们提出了UniDetector，一个通用检测框架，使我们能够利用异构标签空间的图像并泛化到开放世界。
考虑到在识别新类别时泛化能力的差异，我们提出解耦提议生成和RoI分类的训练，以充分探索类别敏感特性。
我们通过引入弱标注和未标注图像到通用检测中，提出了异构监督训练，并通过自训练与伪框解决了监督不足的挑战。
我们提出校准产生的概率，平衡预测的类别分布，并提高新类别的自信度。所有上述贡献导致UniDetector从已见信息到未见信息的强大泛化能力，从而实现了其强大的普遍性。广泛的实验很好地证明了这一点：它识别了最多的可测量类别。在没有看到训练集中的任何图像的情况下，我们的UniDetector在现有的大型词汇数据集上比全监督方法高出5%的AP。除了开放世界任务，我们的UniDetector在封闭世界中也取得了最先进的结果——在COCO上使用纯CNN模型ResNet50和1×计划实现了49.3%的AP。与我们的会议论文[15]的不同之处。本文显著改进了我们的会议版本[15]。1)我们引入了弱标注图像和未标注图像，这些图像提供了更丰富的训练样本和类别词汇表，从而在训练和推理时提高了检测器的普遍性；2)我们为所提出的概率校准提供了更多的理论解释，从而进一步验证了其对开放世界检测的好处；3)我们对全监督和混合监督UniDetector进行了更多的实验和分析，以说明其普遍性，并进行了更多的消融研究，以证明我们所提出模块的有效性。

3 预备知识

给定图像$I$，目标检测的目标是预测其标签，包括边界框坐标$b$和类别标签$c$。我们通常给定一个单一的数据集$D_s = \{(I_1, b_1, c_1), ..., (I_n, b_n, c_n)\}$，目标是在测试数据集$D_{test}$上进行推理。在这项工作中，我们提出了一个全新的目标检测任务，专注于检测器的普遍性。在训练时，我们利用来自多个源的图像。也就是说，具有异构标签空间$L_1, L_2, ...L_n$的图像。此外，还有一组弱标注图像$D_w = \{(I_1, c_1), ..., (I_n, c_n)\}$，其中图像标签只包含类别标签$c_i$，以及一系列未标注图像$D_u = \{I_1, ..., I_n\}$。$D_w$的标签空间表示为$L_w$，通常比$L_i$大。在推理时，检测器从用户提供的新标签空间$L_{test}$预测类别标签。传统目标检测技术不能轻易适应我们的通用检测任务。主要原因是推理时存在新类别。传统目标检测中的技术有利于基础类别，但可能伤害新类别。因此，我们工作的核心问题是如何利用异构标签空间和异构监督的图像，以及如何泛化到新类别。因此，与类别不可知的提议生成阶段相比，RoI分类阶段更容易受到这种噪声的影响，可能会导致开放世界性能下降。相比之下，类别不可知的区域提议生成阶段更能抵抗类别级别的噪声，因此可以从这些未标注图像中受益。因此，我们只采用未标注图像在区域提议生成阶段。

4 UniDetector框架

我们提出了UniDetector框架来解决通用目标检测任务，如图2所示。基本过程包括四个步骤：大规模图像-文本对齐预训练、异构标签空间训练、异构监督训练和开放世界推理。以下是每个步骤的详细描述。

4.1 异构标签空间训练

现有的目标检测器只能从单一标签空间学习，因为它们只有一个分类层。为了使用异构标签空间进行训练并获得足够的多样化信息以实现普遍性，我们提出了三种可能的模型结构，如图3所示。一种可能的结构是分别对每个标签空间进行训练。如图3a所示，我们在每个数据集（即标签空间）上训练多个模型。

有了新语言嵌入在推理时，每个单独的模型可以在测试数据上执行推理。这些单独的测试结果可以组合以获得最终的检测框。另一种结构是将多个标签空间统一为一个标签空间，如图3b所示。然后我们可以像以前一样处理这些数据。由于图像被视为来自单个数据集，它们可以通过Mosaic[79]或MixUp[79]、[80]等技术来增强不同标签空间之间的信息整合。有了语言嵌入进行分类的帮助，我们还可以使用图3c中的分区结构，其中多源图像共享相同的特征提取器但拥有自己的分类层。图3c中的分区结构自然解决了[41]中提出的不一致性问题。有了它们自己的语言嵌入，来自一个源的图像的分类过程与其他分类层无关。只有来自它们自己的分类层的损失才会贡献给训练。因此，视觉-语言对齐只会受到相应源图像的梯度信息的影响，不容易受到其他源图像的影响，这大大缓解了不一致性问题。在推理时，我们可以直接使用测试标签的类别嵌入。

解耦提议生成和RoI分类。两阶段目标检测器由视觉主干编码器、RPN和RoI分类模块组成。给定来自数据集D的图像I，其标签空间为L，网络可以总结为：

$$\{z_{ij}\}^{|L|}_{j=1} = \Phi_{RoI} \circ \Phi_{RP N} \circ \Phi_{\text{backbone}}(I) $$ $$p_{ij} = \frac{1}{1 + \exp(-z_{ij}^T e_j / \tau)}, \quad j \in L $$

其中 $p_{ij}$ 是第i个区域对于类别j的概率， $\{z_{ij}\}^{|L|}_{j=1}$ 表示RoI头部的logit输出， $e_j$ 是类别j的语言嵌入。区域提议生成阶段和RoI分类阶段在通用检测中表现不同。提议生成阶段保持了令人满意的泛化能力，因为它的类别不可知分类可以很容易地扩展到新类别。相比之下，类别特定的RoI分类阶段对基础类别有偏见。不同的属性影响了它们的联合训练，因为分类阶段对新类别的敏感性妨碍了提议生成阶段的泛化能力。因此，我们将这两个阶段解耦，并分别对它们进行训练以解决干扰问题。这种方式也可以得到小样本检测领域[81]、[82]的工作的支持，它们将梯度传播在不同模块之间解耦以避免干扰。

具体来说，区域提议生成阶段用ImageNet预训练参数初始化，并以类别不可知的方式进行训练。有了生成的提议，RoI分类阶段以Fast RCNN[17]的方式进行训练，用图像-文本预训练参数初始化，以预测未见类别。这两种类型的预训练参数也包含了互补的特征，提供了更全面的信息。

类别不可知定位网络（CLN）。为了在开放世界中产生泛化的提议，我们提出了类别不可知定位网络（CLN），如图4所示。我们的CLN包含RPN和RoI头部，它促进了提议生成的框细化。我们主要采用基于定位的对象性来发现对象，因为与定位相关的度量往往对新对象具有鲁棒性[77]。在RoI头部，我们保持二元类别不可知分类，因为它为网络训练提供了强烈的监督信号。对于第i个提议，将其在RPN中的定位置信度表示为 $s_{r1_i}$ ，在RoI头部中表示为 $s_{r2_i}$ ，其分类置信度表示为 $s_{c_i}$ ，我们可以通过几何加权获得CLN的最终置信度：$\eta_i = (s_{c_i})^\alpha \cdot (s_{r1_i} s_{r2_i})^{1-\alpha}$ ，其中 $\alpha$ 是预定义的超参数。

4.2 异构监督训练

现有的检测器依赖于实例级注释进行全监督训练。为了利用弱标注和未标注图像进行异构监督训练，我们提出了通过伪标签进行自训练的方法。这个过程在图5中进行了说明。具体来说，我们首先用所有标注图像训练一个全监督检测器，这些图像都有类别标签和边界框注释。这个检测器以开放世界的方式训练，因此采用异构标签空间训练，提议生成和RoI分类解耦。然后，我们将这个预训练的全监督模型应用于弱标注和未标注图像以获得伪标签。具体如何获得它们的伪标签的细节在后续段落中介绍。最后，这些伪标签被视为真实标签，并用于监督检测器进行异构监督训练。

弱标注图像。对于来自弱标注集合 $D_w$ 的图像 $I_i$ ，由于其中包含类别标签 $c_i$ ，我们直接将类别从 $c_i$ 的语言嵌入应用于预训练模型以获得图像 $I_i$ 的原始检测框。这样，检测器对类别进行二元分类，只识别对象是否属于类别 $c_i$ 。伪标签中只生成属于 $c_i$ 的对象。有了人类注释的类别标签的指导，我们可以保证不属于 $c_i$ 的类别对象不会被生成，从而更好地避免了伪标签的类别级噪声。由于伪标签中仍然存在噪声，我们需要进一步过滤低质量的框以从原始检测框中获得最终的伪标签。我们提出了两种可能的方案：1）单对象方案。由于弱标注图像通常从分类数据集中收集[83]，这些图像通常是对象中心的，其中只有一个显著对象。因此，我们可以选择原始检测框中的一个框以获得伪标签。遵循[84]，我们可以选择具有最大置信度分数或最大尺寸的对象，伪标签集中只留下最显著的对象。2）多对象方案。我们也可以直接应用预定义的阈值来过滤低置信度框，置信度分数高于阈值的对象将留在最终的伪标签中。这种方案不限制对象数量，因此允许一个图像中有多个对象。如实验部分所分析的，多对象方案在我们的实验中表现更好。

然后我们对生成的伪标签进行自训练以利用弱标注图像。然而，由于大多数弱标注图像是对象中心的，这些图像与通常的检测图像之间存在较大的域差距，后者包含多个对象且以场景为中心。为了减少域差距的伤害，我们使用Mosaic[79]来模仿场景中心环境，就像[58]中所做的那样。有了显著较少的注释预算，这些弱标注图像可以有更大的尺寸和类别词汇表 $L_w$ ，这进一步帮助提高了开放世界性能。弱标注图像参与区域提议阶段和RoI分类阶段的训练。由于更大的词汇量和通常更少的对象，弱标注图像更多地帮助了RoI分类阶段。因为区域提议生成阶段的重要性类别标签被类别不可知分类所削弱，域差距的伤害将更加明显。因此，提议生成能力很少得到改善。

未标注图像。同样，我们也将在未标注图像上应用预训练的全监督模型。由于这些未标注图像不一定是对象中心的，我们采用上述的多对象方案，并使用阈值来过滤低置信度框以获得最终的伪标签。这个过程的问题是没有类别信息注释，未标注图像的类别词汇表不存在，我们不知道要使用哪种语言嵌入来应用预训练的全监督模型。为了解决这个问题，我们预定义了类别词汇表 $L_u$ ，并在全监督检测器上应用 $L_u$ 来为这些未标注图像生成伪标签。$L_u$ 可以包含 $L_i$ 和 $L_w$ 中的所有类别，以及我们在训练期间预先知道的一些其他类别。因此， $L_u$ 可以显著大于 $L_i$ 和 $L_w$ ，从而为检测器提供更丰富的类别信息以提高开放世界性能。请注意，尽管 $L_u$ 可以任意指定，但它仍然不能包含 $L_{test}$ 中的所有类别，因为我们永远无法涵盖所有类别，也无法预先知道所有的推理环境。利用未标注图像的另一个问题是伪标签中的巨大噪声。错误的类别信息会干扰网络，尤其是在开放世界环境中，类别数量庞大时，类别级噪声变得不可忽视。这种噪声会混淆网络，尤其是对于网络以前从未见过的新类别。因此，与类别不可知的提议生成阶段相比，RoI分类阶段更容易受到这种噪声的影响，可能会导致开放世界性能下降。相比之下，类别不可知的区域提议生成阶段更能抵抗类别级别的噪声，因此可以从这些未标注图像中受益。因此，我们只采用未标注图像在区域提议生成阶段。

4.3 开放世界推理

有了测试词汇的语言嵌入，我们训练有素的检测器可以直接在开放世界中进行推理，无需任何微调。然而，由于训练期间只出现了基础类别，训练有素的检测器将偏向于基础类别。理想情况下，一个边界框的置信度分数应该仅与边界框本身相关。但在这种情况下，它也会受到边界框具体类别的影响。具体来说，由于检测器严重偏向于基础类别，检测结果中基础类别的边界框往往比新类别的边界框具有更大的置信度分数，如图6所示。

因此，基础类别的实例在推理过程中占主导地位。考虑到新类别的巨大数量，基础类别的过度自信很容易使检测器忽略数量更多的新类别实例，从而损害检测器在开放世界中的表现。检测器偏向于基础类别的原因是这些基础类别在训练期间出现，并且实际上是通过监督方式学习的。模型更倾向于过度拟合这些基础类别，并预测比实际更高的置信度分数[85]。在这种情况下，对于检测器来说，预测代表真实正确可能性的校准概率对于开放世界推理也很重要。为了避免偏见问题，我们提出了概率校准作为后处理预测的方法，旨在预测代表真实正确可能性的概率[86]。具体来说，校准应该降低基础类别的概率，增加新类别的概率。第$i$个区域提议的$p_{ij}$通常通过方程2获得，并且通常是有偏见的。我们希望在校准后获得平衡的概率$\hat{p}_{ij}$。记第$i$个区域提议为$r_i$，那么$p_{ij}$实际上是条件概率$P(j|r_i)$。记$r_i$的真实类别标签为$y_i$，通常的分类过程实际上旨在减少以下分类错误：

$$E(r,y)[1(y \neq \arg\max\Phi(r))] = \sum_{(r,y)} Pr,y(y \neq \arg\max\Phi(r)) $$

其中$\Phi$表示网络，$Pr,y$是联合概率分布，$Py$可以被视为类别$y$的先验概率，它记录了网络对$y$的偏见。然而，当存在严重偏见时，减少上述分类错误不能反映网络的真实目标。真正的目标应该是平衡的分类错误[87]、[88]，它假设$Py$遵循均匀分布，即$Py = 1/|L|$，其中$L$是类别$y$的标签空间。平衡错误可以写成：

$$E_{bal}(r,y) = \frac{1}{|L|} \sum_{(r,y)} Pr|y(y \neq \arg\max\Phi(r)) $$

通过比较方程3和4，我们可以自然地得出校准概率$\hat{P}$应该满足$\hat{P}_{r|y} \hat{P}_{y} = Pr|y/|L|$以保证在$\hat{P}$下计算的分类错误（方程3）是平衡错误（方程4）。由于$\hat{P}_{r|y} \hat{P}_{y} = \hat{P}_{y|r} \hat{P}_{r}$，$\hat{P}_{y|r} \propto Pr|y = Pr,y/Py = Py|rPr/Py$，即$\hatP}_{yr\propto Py/r - $，校准概率应该与先验概率成比例。因此，概率校准可以表示为：

$$\hat{p}_{ij} = \frac{1}{1 + \exp(-z_{ij}^T e_j / \tau) / \pi \gamma_j}, \quad j \in L_{test} $$

这里我们用$\pi_j$表示先验概率，$\gamma$是一个预定义的超参数。较大的$\pi_j$表明模型对类别有较强的偏见。校准后，其概率会变小，有助于概率平衡。我们可以在测试数据上先进行推理，然后使用结果中类别的数量来获得$\pi_j$。如果测试图像数量太少，无法准确估计先验概率，我们也可以使用训练图像来计算$\pi_j$。我们的概率校准的想法与之前的温度缩放方法[86]、[88]相似，这些方法通常应用一个温度来调整分类logits以进行概率预测。通过这种方式，预测的概率可以更好地优化理想的平衡错误，并适应实际分布。这个想法与小样本条件下的相关作品[89]、[90]有内在联系，它们调整模型预测以反映真实的正确可能性。我们的概率校准有相似的目标，旨在减少平衡分类错误，从而很好地解决了检测器容易偏向基础类别的问题。如图6所示，校准后，概率（平均分数）分布变得更加平衡。$\hat{p}_{ij}$反映了第$i$个区域提议的类别特定预测。考虑到类别不可知任务的开放世界泛化能力，我们将$\hat{p}_{ij}$与CLN的$\eta_i$相乘以获得检测分数。引入超参数$\beta$后，最终的检测分数为$s_{ij} = \hat{p}_{ij}^{\beta} \eta_i^{1-\beta}$。

4.4 实现细节

我们使用 mmdetection 框架实现了 UniDetector 方法。在实验中，我们默认使用基于 ResNet50-C4 的 Faster RCNN 作为检测器，并使用 RegionCLIP 预训练参数进行初始化。所有模型均按照 1× 的计划进行训练，即训练 12 个周期。对于超参数设置，我们设定 τ 为 0.01，γ 为 0.6，α 和 β 均为 0.3。

5 实验

数据集

为了模拟多源图像和异构标签空间，我们在训练中采用了三个流行的目标检测数据集：COCO[6]、Objects365[91]和OpenImages[92]。COCO包含80个常见类别。Objects365规模更大，包含365个类别。OpenImages包含更多图像和500个类别，许多注释是稀疏和嘈杂的。我们随机从它们中分别抽取35k、60k和78k图像进行训练。除非另有说明，我们使用这些子集进行实验。为了模拟异构监督的图像，我们使用了ImageNet[83]的图像。我们选择了694个类别（对应的LVIS图像数量大于15）和112k图像作为弱标注图像。对于未标注图像，我们从COCO、Objects365和OpenImages中随机选择了173k图像。我们为未标注标签空间Lu选择了796个类别（对应的LVIS图像数量大于10）。不同的图像集合是不重叠的。我们主要在LVIS[7]、ImageNetBoxes[93]和VisualGenome[8]数据集上进行推理，以评估检测器的开放世界性能。考虑到这些数据集的类别数量众多，它们可以在一定程度上模拟开放世界环境。LVIS v0.5包含1,230个类别，LVIS v1包含1,203个类别，验证集分别为5,000和19,809图像。ImageNetBoxes包含超过3,000个类别。我们从数据集中随机抽取了20,000图像进行评估。为了与有监督的封闭世界基线进行比较，我们抽取了90,000图像作为训练集。最新的VisualGenome数据集包含7,605个类别。然而，由于其大量注释来自机器，注释非常嘈杂。我们选择了5,000张不出现在训练图像中的图像进行推理。

评估指标

我们主要采用box AP来评估性能。对于LVIS，我们还分别评估了其罕见、常见和频繁类别的性能，分别表示为APr、APc和APf。对于ImageNetBoxes，由于其中的大多数图像是对象中心的，除了AP和AP50指标外，我们还采用了ImageNet挑战[83]中的top-1定位准确率（表示为Loc. Acc.）来评估检测器的对象中心分类能力。对于VisualGenome数据集，考虑到其注释的噪声和不一致性，我们采用了平均召回率（AR）指标进行评估。

实现细节

我们使用mmdetection[94]实现了我们的方法。除非另有说明，我们选择基于ResNet50-C4[95]的Faster RCNN[1]作为我们的检测器，并用RegionCLIP[36]预训练参数进行初始化。所有模型都在1×计划下训练，即12个周期。对于超参数，$\tau$设置为0.01，$\gamma$设置为0.6，$\alpha$、$\beta$设置为0.3。

5.1 开放世界中的目标检测

我们在表1中列出了UniDetector在开放世界中的结果。在LVIS v0.5数据集上，传统有监督检测器获得了17.7%的AP。相比之下，我们的UniDetector仅用35k COCO图像就获得了16.4%的AP。用60k Objects365图像，它获得了20.2%的AP。用显著更少的图像和标注类别，检测性能甚至更高。我们UniDetector的有效性得到了证明：与相应的封闭世界检测器相比，它可以实现相当甚至更好的性能，同时所需的训练预算更少。另一个值得注意的结果是，我们的检测器的APr和APf更加平衡。有时APr高于APf，因为图像-文本对中的文本描述往往更关注那些罕见类别。

然后我们分析了COCO和Objects365数据集上不同结构的效果。我们使用WBF[96]对两个检测器进行集成，以处理独立的标签空间。在这种结构下，不同来源的图像在训练期间不能相互作用，这限制了特征提取能力。对于统一空间，不同数据集的不一致标签导致了严重的缺失注释问题。尽管我们采用了[42]中的伪标签，并通过mosaic增强了图像融合，但开放世界AP仍然没有提高。相比之下，采用分区结构，所有类型的图像共同训练背景，从而促进了特征提取。在分类时，分区标签空间缓解了标签冲突。因此，分区结构在它们中表现最好。采用分区结构，COCO和Objects365联合训练实现了22.2%的AP，高于单独结果的16.4%和20.2%。我们还注意到，单独训练OpenImages获得了16.8%的LVIS AP，仅略高于COCO，甚至低于Objects365。考虑到其中更多的图像和类别，有限的性能可以归因于其嘈杂的注释。然而，如果我们进一步将OpenImages图像添加到COCO和Objects365中，LVIS v0.5 AP可以提高到23.5%。此时，COCO和Objects365图像具有高质量的注释，而OpenImages提供了更多类别但注释嘈杂的图像。来自多个源的图像合作并带来各种信息，从而有助于更好的开放世界性能。我们还在ImageNetBoxes和VisualGenome数据集上评估了UniDetector。这两个数据集包含更多类别，因此更好地模拟了开放世界环境。我们的UniDetector保持了出色的开放世界泛化能力。在ImageNetBoxes数据集上，它获得了8.2%的AP，超过了传统检测器3.9%的AP，这些检测器使用了相当数量的训练图像。值得一提的是，ImageNetBoxes数据集和COCO风格数据集之间的域差距相对较大，因为ImageNetBoxes图像主要是对象中心的。在这种情况下，我们的UniDetector仍然泛化得很好，这验证了我们UniDetector的普遍性。在VisualGenome数据集上，类别数量超过7,000，我们的UniDetector也比传统的Faster RCNN获得了更高的检测结果。最大的改进来自AR100指标，超过了4%。通过这个实验，我们揭示了我们UniDetector的类别识别能力。引入额外的弱标注图像后，LVIS v0.5的开放世界AP进一步提高到24.9%。我们还注意到，生成伪标签的多对象方案比单对象方案（24.9%对23.9%）表现更好。这是因为多对象方案更加灵活，更好地适应了一个图像中有一个以上显著对象的情况。通过利用额外的未标注图像，开放世界LVIS AP从23.5%提高到24.3%，这也表明未标注图像带来了更多信息，从而提升了开放世界性能。由于缺乏类别级信息，未标注图像的效果不如弱标注图像。当两者都利用时，LVIS v0.5 AP进一步提高到25.8%。与全监督学习相比，观察到了2.3%的改进。这种改进在其他数据集上也是一致的。因此，异构监督训练的有效性得到了证明。

5.2 封闭世界中的目标检测

通用目标检测模型不仅应该在开放世界中泛化得很好，而且应该保持其在封闭世界中的优越性。因此，我们仅使用COCO训练集的图像训练我们的UniDetector，并在COCO 2017验证集上评估它。我们将我们的结果与现有的封闭世界检测模型进行比较，并在表2中展示了检测AP。

在本小节中，我们采用了R(Det)2[101]的级联结构[18]、Dyhead[97]结构用于我们的CLN，以及focal loss[4]进行分类。AdamW[107]、[108]优化器被采用，初始学习率为0.00002。使用ResNet50主干和1×计划，我们的UniDetector获得了49.3%的AP，超过了Dyhead[97]（当时的最先进的CNN检测器）6.3%。与Softteacher[52]相比，这是一个半监督模型，它使用额外的图像并训练更多的周期，我们的UniDetector也实现了4.8%更高的AP。与最近的基于变换器的检测器相比，性能优势也很明显。结果表明，我们的UniDetector不仅在开放世界中泛化得很好，而且在封闭世界中也保持了有效性。我们进一步在test-dev集上评估了使用更大主干的UniDetector的封闭世界能力。我们采用了ResNet101[95]和ResNet50x4[12]（[12]中的主干，计算量约为ResNet50的4倍）作为我们的主干。我们的UniDetector有一个纯CNN结构，所以我们将其与现有的基于CNN的检测器进行比较。它们主要使用ResNeXt[109]、DCN[110]、SENet[111]、EfficientNet[112]或SpineNet[106]作为它们的主干，计算量相似或更大。比较结果列在表3中。

可以看出，使用ResNet101主干，我们在test-dev集上获得了51.8%的box AP，不仅超过了具有相同ResNet101主干的现有检测器，甚至超过了许多具有更复杂ResNeXt101-DCN主干的模型。例如，UniDetector比具有相同ResNet101主干的Dyhead高出5.3%，比具有ResNeXt101-DCN主干的R(Det)2高出1.8%的box AP。我们用更轻的主干结构实现了更好的检测性能，这强烈说明了我们UniDetector在封闭世界中的有效性。我们进一步引入了ResNet50x4主干，并在仅12个周期内获得了55.8%的box AP。相比之下，使用相同的主干，Dyhead在24个周期内获得了49.0%的AP。使用更复杂的主干结构，Dyhead在24个周期内获得了52.3%的AP，EfficientDet[105]需要大约600个周期才能获得52.2%的AP，SpineNet[106]获得了52.1%的AP，大约需要500个周期。我们用更少的训练周期和更轻的主干结构，实现了3.5%更高的AP。在封闭世界中的卓越性能验证了其普遍性。

5.3 野外目标检测

为了进一步证明我们的UniDetector检测每个场景中一切事物的能力，我们遵循[113]在13个ODinW数据集上进行实验。这些数据集涵盖了各种领域，如航拍、水下、热成像，因此也具有多样性的类别。这种属性使其适合衡量检测器的普遍性。我们在表4中列出了这些13个数据集的详细AP。

与GLIP-T相比，其主干（Swin-Tiny）的计算预算略高于我们的（ResNet50），我们的方法获得了更高的平均AP（47.3%对46.5%）。实际上，我们的方法只使用了GLIP-T数据量的3%。图像的选择完全是随机的，没有任何人为干预。这个实验证实了UniDetector的普遍性，并展示了其出色的数据效率。通过检查详细的AP，我们观察到我们的UniDetector在大多数数据集上获得了更高的box AP。例如，我们在Aquarium数据集上获得了5.5%更高的AP，在Raccoon数据集上获得了4%更高的AP，在Vehicles数据集上获得了6.8%更高的AP。在一些数据集上，如EgoHands，我们的UniDetector的性能仍然落后于GLIP。原因是在GLIP的数据中，相应领域的图像出现得更频繁。在这种情况下，我们的UniDetector仍然实现了可比的box AP，并在许多数据集上超越了它。这进一步证实了我们UniDetector的优秀数据效率。然后我们在相应数据集上微调我们预训练的UniDetector，并在这些13个ODinW数据集上获得了微调后的性能。详细结果列在表5中。

我们的方法的优越性变得更加明显。我们的UniDetector获得了69.7%的平均AP，超过了GLIP-T 4.8%。实际上，对于开放世界检测器来说，在某些类别中遇到性能下降是正常的，这与数据的特点有关。这种情况往往发生在与训练数据显著不同的领域。一旦微调，这种下降就可以显著补救。例如，EgoHands数据集上的零样本AP仅为38.1%（与GLIP-T的50.0%相比）。在看到相关图像后，微调后的AP可以提高到79.6%，已经超过了GLIP-T的78.7% AP。这个微调实验进一步验证了我们的UniDetector更有效、更高效。

5.4 与多数据集方法的比较

在这里，我们遵循[44]在7个下游数据集上直接评估我们的UniDetector，而不需要看到任何相应的图像，以与多数据集方法进行比较。我们还引入了Mapillary Vistas数据集[114]进行训练，以获得更好的交通领域图像泛化。比较结果列在表6中。仅使用COCO、Objects365和OpenImages的一部分参与训练（约191k图像），我们的UniDetector实现了48.0%的平均AP50，超过了[44] 0.7%，后者使用了完整数据集（约2.54M图像）。我们的UniDetector用仅有7.5%的训练图像量就获得了更好的性能。此外，我们在所有这些数据集上都取得了一致的更好性能。例如，在CrowdHuman数据集上，AP提高了2.2%。这个跨数据评估进一步验证了我们UniDetector的普遍性。

5.5 与开放词汇方法的比较

在这里，我们将UniDetector与现有的开放词汇作品进行比较。具体来说，COCO数据集和LVIS v1数据集分别以48/17和866/337的方式分割为基础和新类别。对于LVIS，我们采用了与Detic[84]相同的CenterNet2[117]和设置。新类别和基础类别的box和mask AP列在表7和表8中。获得的box AP有力地证明了我们UniDetector对新类别的泛化能力。在COCO数据集上，我们获得了新类别的35.2% box AP，超过了RegionCLIP 3.5%。在LVIS数据集上，我们获得了新类别的29.3% box AP和26.5% mask AP（在这种情况下，即APr），分别超过了Detic 2.6%和1.6%。在新类别上取得的非凡改进验证了我们方法对未见类别的优秀能力。值得一提的是，这个实验设置中只涉及一个检测数据集，我们的UniDetector甚至受到单一图像源的一定限制。当引入多个数据集进行训练时，我们方法的优越性更加突出。仅使用10%的训练图像量，UniDetector就超过了OWL-ViT 1.3%的新类别。比较充分展示了我们的普遍性。

5.6 消融研究

5.6.1 解耦训练方式

表9分析了解耦训练方式的效果。一个简单的Faster RCNN在COCO和Objects365上训练，获得了LVIS上18.1%的开放世界AP。如果我们将这两个阶段解耦，box AP是19.1%。1.0%的AP改进表明，解耦方式有利于开放世界检测，而在传统的封闭世界检测中并没有发生这种情况。如果我们用类别不可知的Faster RCNN提取区域提议，AP是19.7%。0.6%的改进表明，具有RPN和RoI头部的结构更适合在开放世界中生成提议。如果我们采用OLN[77]，也具有RoI头部，LVIS AP仍然是19.7%，表明纯定位信息不能带来进一步的改进。我们的CLN，具有分类分数和定位质量，有助于实现21.2%的AP。这个AP不仅高于具有相似预算的网络，而且高于像Cascade RPN这样的更复杂模型。这证明了解耦学习方式和我们的CLN的有效性。然后我们对α和β进行了超参数分析，以进一步说明解耦训练方式的机制。α用于从我们的CLN获得置信度，控制分类置信度和定位置信度之间的权重。我们在图7a中绘制了α的分析。当α约为0.3时，性能达到最佳。当α较小时，分类置信度的比例较小。由于二元分类比定位更容易优化，最终CLN分数的准确性将降低。相反，如果α太大，由于开放世界泛化能力分类分支通常比定位分支差，它将损害开放世界区域生成能力。我们还绘制了β的分析图7b，它控制类别特定分数和CLN的类别不可知分数的比例。这两个组成部分在β约为0.3时协作最佳。

5.6.2 异构监督训练

然后我们分析了异构监督训练的效果。我们分别添加弱标注和未标注图像，并引入它们到不同部分（RPN，即我们的CLN，区域提议阶段和RoI分类阶段）的训练中，以测量其详细效果。开放世界AP列在表10中。

从结果中，我们注意到弱标注图像几乎无助于更好的开放世界提议生成能力——仅将AP从23.5%提高到23.6%。这些弱标注图像带来的几乎所有改进都来自RoI头部，它有助于将LVIS v0.5 AP从23.6%提高到24.9%。这些弱标注图像引入了更大的类别词汇量，并且伪标签的准确性可以通过人类注释的类别标签相对保证。由于训练期间可用的类别更多，开放世界泛化能力可以大大增强。然而，这些图像大多数是对象中心的，对象数量显著较少。这种域差距在一定程度上损害了检测能力。对于区域提议生成阶段，由于类别标签的重要性被类别不可知分类所削弱，域差距的伤害将更加明显。因此，提议生成能力很少得到改善。相比之下，未标注图像有利于提议生成能力，甚至在开放世界中损害RoI分类能力。当这些未标注图像参与RoI头部的训练时，开放世界性能从23.5%下降到21.6%。性能下降部分是因为伪标签中的噪声。在类别数量庞大的开放世界环境中，类别级噪声变得不可忽视。这种噪声混淆了网络，尤其是对于网络以前从未见过的新类别。因此，RoI分类能力变差。这种类别级噪声可以在提议生成阶段的二元分类中大大减少。因此，来自未标注图像的更多可用信息有利于区域提议生成，提高了AP从23.5%到24.3%。考虑到这一点，我们只采用未标注图像在提议生成阶段。关于数据增强方法的讨论。由于收集的弱标注图像大多数是对象中心的，我们对这些弱标注图像进行了Mosaic[79]增强策略，以减少与场景中心检测图像的域差距。这里我们分析了它的效果，并在表11中列出了LVIS AP。

没有任何增强操作的情况下，弱标注图像有助于0.7%的AP改进：从23.5%提高到24.2%。使用Mosaic后，LVIS v0.5的开放世界AP提高到24.9%，0.7%的改进。我们进一步使用了三种其他常见的增强方法：CutOut[119]、MixUp[80]和Copy-Paste[120]、[121]。它们也有助于开放世界性能，验证了这些混合图像增强对于减少域差距的必要性。然而，它们仍然不如Mosaic增强。可能的原因是CutOut只移除了图像的某些部分，无法生成足够场景中心的图像。MixUp根据叠加比例调整标签，这可能与弱标注图像的伪标签冲突。此外，由于我们不预测对象掩码，直接使用对象框也会影响Copy-Paste策略的性能。因此，根据目前的实验，Mosaic更适合利用弱标注图像。

5.6.3 概率校准

我们进一步测量了新类别和基础类别的AP，以测试概率校准的能力。我们遵循Detic[84]在LVIS v0.5上的设置，并在图8中绘制了box和mask AP。我们注意到在校准后，新类别的box AP和mask AP都显著提高，超过2%。因此，基础类别和新类别之间的性能差距显著减少。相比之下，基础类别的性能几乎保持不变。这是因为我们设计的先验概率显著降低了基础类别的自信度。如我们所见，概率校准减轻了训练模型的偏见，有助于在开放世界中生成更平衡的预测。讨论如何获得先验概率。类别j的先验概率$\pi_j$是概率校准的必要元素。我们通过首先在一些图像上进行推理，然后记录类别的数量来获得它。相比之下，一些长尾方法[88]、[89]采用类别频率作为先验概率。我们在表12中比较了性能。

我们发现类别频率的先验概率不能提升开放世界性能。原因是我们任务中的$\pi_j$与图像中的类别数量无关，而是与见过类别的相似度有关。相反，我们设计的先验概率很好地估计了模型的自我偏见。当测试集的图像不可用时，我们可以使用训练集的图像进行替代。如表12所示，这几乎不影响性能。这证明了我们方法的灵活性。超参数$\gamma$。我们进一步调整$\gamma$的值，并在图9中绘制结果。如我们所见，开放世界AP对$\gamma$的值相对稳健。AP在$\gamma$值从0.6到0.8的范围内保持最大值。这种超参数的稳健性使我们的概率校准在实践中易于实施。

5.7 与视觉基础模型的比较

我们进一步将UniDetector与最近开发的视觉基础模型SAM[65]进行比较。我们使用SAM进行类别不可知的分割以提取区域提议，然后使用视觉-语言模型CLIP[12]和RegionCLIP[36]进行语义分类以获得检测结果。在COCO和LVIS v0.5上的检测AP列在表13中。

我们可以注意到，借助视觉-语言模型，SAM确实具有检测能力。然而，其检测AP仍然有限。主要原因是SAM和CLIP都不是为检测任务设计的。SAM作为分割模型，具有一定的定位能力。然而，它会产生一系列掩码输出，其中许多实际上是对象的部分或子部分。这些掩码应该被抑制以用于目标检测，而不是被纳入结果。在这种情况下，CLIP只能进行图像级分类而不是区域级分类，仍然会将这些小区域识别为前景类别，而不是背景。因此，许多误报框被检测到，这直接拉低了性能。相比之下，我们的UniDetector针对检测任务，因此在封闭世界COCO和开放世界LVIS检测中都取得了更好的AP，并且训练数据显著减少。这表明我们的UniDetector更针对检测任务，更好地解决了通用目标检测问题。

5.8 与类别不可知检测模型的比较

然后我们消除了检测实例的类别信息，将UniDetector与现有的类别不可知目标检测方法[72]、[73]进行比较。我们首先在VOC数据集上训练UniDetector，并在COCO数据集的60个非VOC类别上进行评估，并在表14中列出了AR1000指标。可以看出，UniDetector超过了[72]超过10%。对于大型物体，我们甚至获得了20.9%更高的AR1000。我们进一步在COCO数据集上仅使用20个VOC类别训练UniDetector，并与更近期的方法LDET[73]进行比较，如表15所示。对于未见的非VOC类别，我们获得了0.7%更高的AR10和3.7%更高的AR100。对于所有80个类别，优势更加明显：4.4%更高的AR10和10.7%更高的AR100。这表明，除了类别特定检测器外，我们的UniDetector还可以检测更多的类别不可知边界框，无论是基础类别还是新类别。

5.9 可视化结果

视觉-语言匹配的可视化

我们进一步提供了像素级可视化，以展示UniDetector在图10中的视觉-语言匹配能力。对于每张图像，我们显示了与四个类别词的相似性图。对于第一张图像，我们的模型将出现笔记本电脑的区域与类别词笔记本电脑匹配，具有最高的相似性分数。对于橙色词，橘子所在的位置具有最大的相似性分数。这同样适用于玩具和杯子词。视觉-语言匹配能力对于第二张和第三张图像同样强大。如我们所见，UniDetector对见过和未见的类别词匹配都很好。

与Faster RCNN基线和Detic的比较可视化结果

我们在COCO开放词汇设置中进行了可视化分析，并与Faster RCNN基线和Detic[84]进行了比较。如我们所见，Faster RCNN受到纯视觉信息在训练期间的限制，因此根本无法识别新类别。例如，它只能将第一张图像中的狗检测为鸟，将第二张图像中的公共汽车检测为卡车。Detic采用了CLIP的语言嵌入，因此具有识别训练期间未出现的类别的能力。例如，它为第一张图像产生了狗和猫的框。然而，其分类严重偏向见过的类别。例如，第一张图像中仍然存在不正确的鸟预测，并且正确的未见类别仍然无法预测第二张图像。我们的UniDetector很好地减轻了对见过类别的自我偏见。因此，它为未见类别生成了正确的检测框，并避免了对见过类别的过度自信的错误框。这个比较可视化结果证明了我们的UniDetector在开放世界中对未见类别的泛化能力。

检测多样化类别的可视化结果

我们提供了UniDetector的可视化结果，以证明其检测一切的能力。可视化结果在图12中。首先，我们的UniDetector识别了许多在训练中不可用的罕见类别，如渡渡鸟，一种现在已经灭绝的鸟类，或排气扇、屋顶等。其次，我们的UniDetector能够检测到细粒度类别和对象的一部分，如人类、非洲象、面部。第三，我们的UniDetector可以检测由多个单词组成的类别，如“纸牌屋”、“小型计算机系统接口”。这些证明了我们的UniDetector很好地理解了自然语言的含义，因此对新类别具有很强的泛化能力。我们的UniDetector在检测一切方面的能力得到了证明。

检测多样化场景的可视化结果

我们进一步提供了来自多样化场景（即领域）的可视化图像，如图13所示。如我们所见，我们的UniDetector不仅在训练中出现的常见场景，如交通、室内，表现良好，而且还能很好地泛化到未见领域，如水下、无人机、热成像、水彩画。因此，我们的UniDetector在各种场景中都表现出令人满意的性能。UniDetector在检测每个场景中的普遍性得到了证明。

6 结论

在本文中，我们提出了UniDetector，一个通用目标检测框架。通过利用异构标签空间的图像进行异构监督训练，并将检测器推广到开放世界，我们的UniDetector能够直接在任何场景中检测一切，无需任何微调。在大词汇量数据集和多样化场景上的广泛实验证明了其强大的普遍性——它能够识别迄今为止最多的类别。检测一切的能力使UniDetector能够更好地处理各种领域的数据稀缺性和意外场景，包括自动驾驶[122]、遥感[123]、人机交互[116]、机器人技术[77]等领域。因此，它在这些领域中找到了广泛的应用。普遍性是一个重要的问题，它架起了人工智能系统和生物机制之间的桥梁。我们相信我们的研究将激发后续研究沿着通用计算机视觉的方向发展。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 PaperEveryday 小编

http://mp.weixin.qq.com/s?__biz=MzI3NzI0MTk1OQ==&mid=2247503449&idx=1&sn=a4e05173c769863577ba0d9d21250226

PaperEveryday

为大家分享计算机和机器人领域顶级期刊