TPAMI 2024 | 用于主动目标检测的多实例差异化学习

文摘 2024-10-18 19:00 辽宁

点击下方“计算机书童”卡片，每天获取顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

题目：Multiple Instance Differentiation Learning for Active Object Detection

用于主动目标检测的多实例差异化学习

作者：Fang Wan; Qixiang Ye; Tianning Yuan; Songcen Xu; Jianzhuang Liu; Xiangyang Ji

源码链接： https://github.com/WanFang13/MIDL

摘要

尽管图像识别的主动学习取得了实质性进展，但缺乏对目标检测中实例级主动学习的系统研究。在本文中，我们提出了一种将实例不确定性计算与图像不确定性估计统一起来的方法，用于信息图像选择，创建了一种用于实例级主动学习的多实例差异化学习（MIDL）方法。MIDL包括一个分类器预测差异化模块和一个多实例差异化模块。前者利用两个对抗性实例分类器在标记集和未标记集上进行训练，以估计未标记集的实例不确定性。后者将未标记图像视为实例包，并使用多实例学习方式中的实例分类模型重新估计图像-实例不确定性。通过在总概率公式下使用实例类概率和实例目标概率对实例不确定性进行加权，MIDL在贝叶斯理论框架内将图像不确定性与实例不确定性统一起来。广泛的实验验证了MIDL为实例级主动学习设定了一个坚实的基线。在常用的目标检测数据集上，它以显著的优势超越了其他最先进的方法，特别是在标记集较小的情况下。

关键词

主动学习，实例差异化，多实例学习，目标检测。

I. 引言

随着深度学习的兴起，在计算机视觉领域取得了前所未有的进步。然而，深度学习模型通常是建立在使用大规模数据集进行训练的完全监督方法之上，这需要大量的人力进行数据注释[1]，[2]。主动学习通过从未标记的数据集中选择一小部分有信息量的数据进行训练，能够达到与完全监督方法相当的表现[3]。尽管使用较少注释的学习算法取得了快速进展，例如弱监督学习[4]，[5]和半监督学习[6]，[7]，主动学习由于其简单性和更高的性能上限，仍然是实际应用的基石。

在计算机视觉领域，主动学习方法通常针对图像分类任务。目标是通过估计每个未标记图像的信息来从未标记图像集中选择有信息量的图像[8]，[9]，[10]，[11]，[12]，[13]，[14]，[15]，[16]。这些方法[9]，[16]，[17]，称为图像级主动学习，可以归类为基于不确定性的、基于代表性的，以及它们的组合。基于不确定性的方法[8]，[15]涉及根据通过分类未标记图像估计的不确定性/信息量选择各种图像选择指标。基于代表性的方法[9]试图找到可以支持未标记集分布的图像。

尽管图像级主动学习取得了实质性进展，但仍然缺乏针对目标检测的实例级主动学习方法。最近，探索了一些简单地将实例级不确定性聚合为图像级不确定性的方法[17]，[18]，[19]。然而，这些方法不幸地忽略了区分有信息量的实例和噪声实例，这阻碍了选择有信息量的图像，特别是在背景中存在大量噪声实例时（图1(a)）。如何通过观察实例级不确定性来准确估计图像级不确定性的问题仍未解决。

在本文中，我们提出了一种名为多实例差异化学习（MIDL）的实例级主动学习方法（图1(b)），旨在弥合贝叶斯框架内图像级不确定性和实例级不确定性之间的差距。在此框架内，图像级不确定性与实例不确定性、实例类概率和实例目标概率有条件地相关。实例不确定性由分类器预测差异化模块估计。实例类概率和实例目标概率由多实例差异化模块估计。这两个模块都插在卷积神经网络（CNN）的顶部，并以端到端的方式交替训练（如图2所示）。

分类器预测差异化模块通过训练两个对抗性实例分类器来估计实例不确定性，这些分类器在区分信息性实例的同时对齐标记和未标记实例的分布。在训练过程中，最小化分类器的预测差异性促使学习CNN特征以对齐未标记实例的分布。在固定特征上最大化分类器的预测差异性可以找到信息性（困难）实例。迭代最大化和最小化分类器的差异性量化了实例的分布重叠和偏差，这表明了每个实例的不确定性（如图2所示）。

多实例差异化模块通过引入多实例学习（MIL）程序重新估计实例不确定性。在训练过程中，每个图像被视为实例包。实例不确定性与实例类概率相关联，以确保实例与图像之间的语义一致性。为了抑制噪声实例并突出代表性实例，实例不确定性进一步由实例目标概率加权。实例类概率和实例目标概率都是通过定义在伪图像类标签上的MIL损失学习的。通过将实例不确定性与实例类概率和实例目标概率相关联，MIDL在总概率公式中统一了图像不确定性与实例不确定性，实例类概率和实例目标概率。它因此可以从贝叶斯理论的角度选择用于检测器训练的最有信息量的图像。

MIDL从我们的多实例主动学习方法[20]发展而来，并通过引入多实例差异化模块和制定贝叶斯理论框架得到提升。MIDL也从图像目标检测扩展到视频目标检测，其中信息性实例更稀疏，更难以识别。这项工作的贡献总结如下：

我们提出了一种名为MIDL的实例级主动学习方法，它弥合了图像级不确定性和实例级不确定性之间的差距，用于有信息量的图像选择。
我们在贝叶斯理论框架内建立了图像级不确定性与实例不确定性、实例类概率和实例目标概率之间的关系。我们进一步揭示了简单地平均实例级不确定性值的方法是MIDL的特例，假设实例类概率和（或）实例目标概率遵循均匀分布。
我们将MIDL与深度学习框架结合起来，在图像和视频中的主动目标检测中取得了显著的性能提升，为实例级主动学习设定了第一个坚实的基线。

III. 多实例差异化学习

我们首先在第III-A节中概述了所提出的MIDL方法。然后，我们详细描述了在统一的贝叶斯理论框架内的MIDL模块，其中分类器预测差异化模块用于估计实例不确定性，多实例差异化模块用于估计图像不确定性，以及联合实例-图像不确定性学习用于有信息量的图像选择，分别在第III-B至III-D节中描述。最后，在第III-E节中分析了所提出的方法。为了更好地理解下面部分的内容，我们在表I中总结了主要的术语和符号。

A. 概述

主动目标检测被定义为一个学习任务，其中一小组图像（标记集）有实例标签，而一大组图像（未标记集）没有实例标签。每个实例标签由一个边界框和一个类别标签组成。一个检测模型最初在标记集上训练。给定初始模型，主动目标检测迭代地从中选择一组图像进行标记。新标记的图像与合并，更新标记集，即。所选择的图像集预计是最具信息量的，即，尽可能多地提高检测性能。基于更新后的标记集，检测模型被重新训练和更新到。模型训练和样本选择重复进行，直到标记集的大小达到注释预算。

考虑到每张图片中大量的候选实例，需要解决三个问题：1）如何使用在标记集上训练的检测模型评估未标记实例的不确定性；2）如何精确估计给定噪声和冗余实例的图像不确定性；3）如何联合学习实例和图像不确定性以主动选择图像。

MIDL通过引入三个模块来处理这三个问题。对于第一个问题，MIDL使用分类器预测差异化模块来突出显示未标记图像中的信息性实例，同时对齐标记和未标记实例的分布（如图2上部所示）。这是一个将标记集上训练的模型泛化到未标记集的过程，类似于迁移学习，填补了这两组之间的分布差距。

最大化分类器差异：在标记集能够准确表示未标记集之前，它们之间存在分布偏差，尤其是当标记集很小时。信息性实例位于偏差分布区域。为了找到它们，设计了和作为对抗性实例分类器，在接近分类边界的实例上有更大的预测差异（如图2上部所示）。实例不确定性定义为和的预测差异。
为了找到信息性实例，需要微调网络并最大化对抗性分类器的预测差异（如图3(b)所示）。在这个过程中，是固定的，以便标记和未标记实例的分布是固定的。和在未标记集上进行微调，以最大化所有实例的预测差异。同时，需要保持在标记集上的检测性能。这通过优化以下损失函数实现：
其中
表示预测差异损失。是图像中的实例数量，是数据集中的目标类别数量。和是两个分类器对图像中第个实例的分类预测，是通过实验确定的正则化超参数。如图2上部所示，具有较大预测差异的有信息量实例往往具有较大的不确定性。
最小化分类器差异：在最大化预测差异之后，我们进一步提出最小化预测差异以对齐标记和未标记实例的分布（如图3(c)所示）。在这个过程中，分类器参数和是固定的，而特征提取器的参数通过最小化预测差异损失进行优化：
通过最小化预测差异，标记集和未标记集之间的分布偏差被最小化，它们的特徵尽可能地对齐。

B. 分类器预测差异化用于实例不确定性估计

为了识别信息性实例，我们在检测器头部引入了两个对抗性分类器（如图3(b)所示）。这两个对抗性分类器在标记集和未标记集上进行训练，但具有最大的预测差异。如图2（上部）所示，通过对抗性分类器具有较大预测差异的未标记实例具有较大的不确定性。这些实例通常是远离标记集并接近分类器边界的。细节如下所述。

训练标记集

检测模型，由参数化为的特征提取器和参数化为和的两个实例分类器和组成，在标记实例上进行训练。在检测模型中，边界框回归器参数化为，用于执行目标定位。对于目标检测，来自标记集的每张图像可以由多个实例表示，其中每个实例对应于卷积特征图上的特征锚点[49]，是图像中的实例数量。设表示图像中的实例标签集。检测模型通过优化以下检测损失进行训练：

其中。是用于密集实例分类的焦点损失[49]，是用于边界框回归的平滑L1损失。和分别表示分类结果，表示定位结果。和分别表示真实的类别标签和边界框标签。

分类器在未标记集上的差异化

给定在标记集上训练的检测模型，我们提出了一个分类器差异化过程，通过首先最大化分类器的预测差异，然后最小化这种差异，来识别信息性实例，如图2（上部）所示。未标记实例远离（有偏见）标记集（分布）被视为有信息性的。增加这些有偏见的实例到标记集有助于对齐标记集和未标记集的分布。

最大化分类器差异：在标记集能够准确代表未标记集之前，它们之间存在分布偏差，尤其是当标记集很小时。信息性实例位于偏差分布区域。为了找到它们，和被设计为对抗性实例分类器，在接近分类边界的实例上有更大的预测差异（如图2上部所示）。实例不确定性定义为和的预测差异。
为了找到信息性实例，需要微调网络并最大化对抗性分类器的预测差异（如图3(b)所示）。在这个过程中，是固定的，以便于标记和未标记实例的分布是固定的。和在未标记集上进行微调，以最大化所有实例的预测差异。同时，需要保持在标记集上的检测性能。这可以通过优化以下损失函数来实现：

其中

表示预测差异损失。是图像中的实例数量，是数据集中的目标类别数量。和是两个分类器对图像中第个实例的分类预测，是实验确定的正则化超参数。如图2上部所示，具有较大预测差异的有信息量实例往往具有较大的不确定性。

最小化分类器差异：在最大化预测差异之后，我们进一步提出最小化预测差异以对齐标记和未标记实例的分布（如图3(c)所示）。在这个过程中，分类器参数和是固定的，而特征提取器的参数通过最小化预测差异损失进行优化：

通过最小化预测差异，标记集和未标记集之间的分布偏差被最小化，它们的特徵尽可能地对齐。

C. 多实例差异化用于图像不确定性估计

通过执行分类器预测差异化，实例级不确定性是通过两个分类器的差异化来估计的。然而，如何精确估计带有噪声和聚集实例的图像不确定性的问题仍然存在。MIDL旨在通过在统一的贝叶斯概率框架内对图像级不确定性和实例级不确定性进行建模来系统地解决这个问题。

设为图像在实例级模型参数化为下是信息性的的概率。表示给定类别标签的实例的不确定性概率。如第III-B节所述，具有较大预测差异化的未标记实例是标记集的“异常值”，被视为不确定的一个。基于实例预测差异化，我们定义实例不确定概率为

并将(3)重新表述为

在(6)中，图像的不确定概率是通过平均图像中实例的不确定概率来计算的，即，每个实例被赋予相等的重要性。显然，(6)忽略了实例之间的差异，其中大多数背景实例对于信息性估计不太重要。此外，对于特定的目标类别，实例不确定性也因图像而异。因此，在执行(6)时，图像不确定性将受到大量噪声实例的干扰，导致图像不确定性和实例不确定性之间的不一致。为了在训练期间对图像中的实例进行差异化，我们分别用实例类概率和实例目标概率替换(6)中的项和。然后，(6)被推广为

等式(7)表明，实例不确定性和图像不确定性之间的关系是建立在实例类概率和实例目标概率之上的。为了估计这些概率，我们分别在标记集和未标记集上定义MIL过程。

多实例学习：MIL将每张图像视为一个实例包，并使用实例分类预测来估计包标签。反过来，它通过最小化图像分类损失来加权实例不确定性分数。这实际上定义了一个期望最大化过程[50]，[51]，在图像/包中加权实例不确定性，同时过滤掉噪声实例。设表示图像类标签，其中表示图像是否包含类别的对象。在标记集中，可以根据图像中对象的真值标签直接获得。基于图像类标签和实例类之间的关系，图像类概率可以通过包中的实例预测为

然后MIL损失被定义为

通过结合(8)和(9)，在优化(9)时学习实例类概率和实例目标概率。

实例类和目标概率：给定每个实例的不确定性和(7)，计算图像的不确定性的第一步是计算实例类概率和实例目标概率。为了实现这个目标，我们引入了一个参数化为的MIL分支，如图4和5所示。

网络参数随后更新为

。包含两个子分支，分别输出和。实例类概率基于预测为

其中是用于前景的实验阈值。在(10)中，当

时，实例被高度确信为前景，因此实例类概率直接由MIL分支的输出分配。然而，当

时，实例可能是背景。

由于数据集中没有背景图像（图像不包含任何前景对象），MIL分支不对背景类别进行预测。考虑到背景实例在目标检测任务中占据了最大的比例（>90%），我们使用一个简单的反向操作来计算背景实例的类概率，如(10)的第二行所示。实例目标概率基于预测为

当(9)被优化时，前景实例具有高实例类概率和实例目标概率，而背景实例具有低概率。通过结合(10)和(11)与(7)，前景实例被突出显示，而冗余和嘈杂的背景实例被抑制。因此，图像不确定性主要定义在最能区分图像类别的实例上，图像不确定性和实例不确定性被统一。

D. 联合实例-图像不确定性估计用于主动图像选择

结合(5)、(10)和(11)，图像不确定性在(7)中通过使用实例类概率和实例目标概率来估计，其中信息性实例被突出显示，以确保图像不确定性和实例不确定性之间的一致性。最后，MIDL的学习损失定义为

如图2所示，通过网络前馈过程，对抗性实例分类器输出预测差异以估计实例不确定性。实例类概率和实例目标概率由MIL分支预测。通过网络反向传播过程，每个实例的梯度被这些概率加权，以突出显示信息性实例。经过多次网络前馈和反向传播过程后，估计图像不确定性。

E. 讨论

在本节中，我们分析了现有实例级学习方法与所提出的MIDL之间的关系。如表II所示，现有方法简单地平均实例级不确定性是MIDL的特例。CDAL[48]使用上下文多样性来估计不确定性，但忽略了实例的差异化。LL4AL[17]使用预测的损失作为每个类别的实例不确定性。然而，它忽略了类别和实例的差异化。MI-AOD[20]用类分数加权每个实例，但仍然忽略了拥挤实例的差异化。我们提出的MIDL考虑了类别差异化和实例差异化，因此可以精确地估计图像级不确定性，系统地解决实例级主动学习问题。

IV. 实验

A. 实验设置

数据集：对于图像目标检测任务，我们使用PASCAL VOC和MS COCO数据集。PASCAL VOC 2007和2012的数据集用于训练，包含5011和11540张图像。VOC 2007测试集用于评估，使用平均精度均值（mAP）作为指标。MS COCO数据集包含80个目标类别，具有挑战性的方面包括密集的对象和小目标与遮挡。我们使用117k图像的训练集进行主动学习，使用5k图像的验证集进行评估AP。对于视频目标检测任务，我们使用大规模的ImageNet VID数据集[52]，包含30个目标类别。ImageNet VID的训练集包含3862个视频，验证集包含555个视频。考虑到视频帧的大量冗余，使用少量信息性实例学习辨别性检测器是很重要的。按照[53]中的设置，我们在训练集上训练目标检测器，并在验证集上评估它们。对于实例分割，我们使用扩展的PASCAL VOC 2012，这是原始PASCAL VOC 2012和整个SBD[54]的组合。它包含20个目标类别，有10582张训练图像和1449张验证图像。

主动学习设置：我们使用带有ResNet-50的RetinaNet[49]和带有VGG-16的SSD[55]作为基础检测器。对于RetinaNet，在PASCAL VOC上，MIDL使用训练集的5.0%随机选择的图像来初始化标记集。在每个主动学习周期中，它从未标记集中选择2.5%的训练图像，直到标记图像达到训练集的20.0%。对于大规模的MS COCO，MIDL仅使用训练集的2.0%随机选择的图像来初始化标记集，然后在每个周期中从未标记集中选择2.0%的训练图像，直到达到训练集的10.0%。在每个周期中，模型训练26个周期，小批量大小为2，学习率为0.001。在20个周期后，学习率降低到0.0001。动量和权重衰减分别设置为0.9和0.0001。对于SSD，我们遵循LL4AL[17]和CDAL[48]中的设置，其中在训练集中选择1k图像来初始化标记集，并且在每个周期中选择1k图像。学习率在前240个周期为0.001，最后60个周期降低到0.0001。小批量大小设置为32，这是LL4AL要求的。

我们将MIDL与随机采样、熵采样、Core-set[9]、LL4AL[17]、CDAL[48]和我们之前的工作MI-AOD[20]进行了比较。对于熵采样，我们使用平均实例熵作为图像不确定性。我们重复所有实验5次，并使用平均性能。MIDL和其他方法共享相同的随机种子和初始化，以便进行公平比较。在(2)和(4)中定义的设置为10。

B. 性能

图像目标检测：PASCAL VOC：在图6中，我们在单个TITAN RTX/A100 GPU上运行所提出的MIDL，报告其性能，并与最先进的方法进行比较。使用RetinaNet[49]或SSD[55]检测器，MIDL以较大的优势超越了最先进的方法。特别是，当使用5.0%、7.5%和10.0%的样本时，它分别以15.54%、7.81%和4.81%的优势超越了Core-set方法。使用20.0%的样本时，MIDL达到了73.23%的检测mAP，显著优于CDAL和MI-AOD，分别提高了7.9%和1.2%。改进证明了MIDL可以精确地学习实例不确定性，同时选择有信息量的图像。当使用SSD检测器时，MIDL几乎在所有周期中都优于最先进的方法，证明了MIDL对目标检测器的普遍适用性。

MS COCO：MS COCO是一个具有挑战性的数据集，包含更多的类别、更密集的对象和更大的尺度变化，MIDL也超越了比较的方法（见图6）。特别是，当使用2.0%、4.0%和10.0%的标记图像时，它分别以1.3%、1.2%、2.2%和1.3%、2.0%、2.8%的优势超越了Core-set和CDAL。

视频目标检测：在表III中，我们报告了所提出的MIDL在ImageNet VID数据集[52]上的视频目标检测性能。与基线方法“随机采样”相比，“熵采样”方法在15%的标记视频上实现了1.91%（49.62%对47.71%）的改进。当选择更多视频（25%）时，“熵”变得略逊于“随机”。在最后一个训练周期（30%的标记视频）中，“熵采样”以0.22%的优势超越了“随机采样”（61.99%对61.77%）。这些结果表明，“熵采样”有机会发现有信息量的视频，但可能因未区分实例和类别而受到信息量较少的视频的影响。与“熵采样”不同，MI-AOD方法在所有主动学习周期中一致地超越了“随机采样”和“熵采样”。MIDL进一步提高了MI-AOD的性能，在最后一个训练周期中提高了0.59%（63.70%对63.11%），显著优于“随机采样”和“熵采样”，分别提高了1.93%和1.71%。这表明类预测差异化和多实例差异化对于从视频剪辑中选择有信息量的物体是有效的。
实例分割：在表IV中，我们报告了所提出的MIDL在PASCAL VOC 2012数据集上进行实例分割的性能。“熵采样”方法在25%的标记图像上比基线方法“随机采样”提高了1.53%（55.34%对53.81%）。MI-AOD在所有主动学习周期中一致地超越了“随机采样”和“熵采样”。MIDL进一步提高了MI-AOD的性能，提高了0.88%（57.21%对56.33%），并在最后一个训练周期中显著优于“随机采样”和“熵采样”，分别提高了1.93%和1.71%。这表明类预测差异化和多实例差异化对于有信息量的实例分割是有效的。

C. 消融分析

分类器预测差异化：如表V所示，使用分类器预测差异化模块，检测性能在最后一个周期中提高了70.06%，比随机方法提高了2.97%（70.06%对67.09%），证明了分类器预测差异化模块对实例不确定性估计的有效性。

多实例差异化：在表V中，分类器预测差异化模块在早期周期中与使用随机图像选择策略的方法取得了可比的性能。这是因为存在大量噪声实例，使得实例不确定性与图像不确定性不一致。使用多实例差异化模块对实例不确定性进行差异化后，在前三个周期中的性能提高了5.04%至17.09%（表V中的第5行与第2行相比）。在最后一个周期中，与分类器预测差异化模块相比，性能提高了1.28%（68.48%对67.20%），与随机方法相比提高了1.39%（68.48%对67.09%）。有趣的是，当使用100.0%的图像进行训练时，具有多实例差异化模块的检测器比没有多实例差异化模块的检测器高出1.09%（78.37%对77.28%）。当进一步应用实例目标概率时，在所有周期中性能都有所提高（表V中的第9行与第8行相比）。这些结果清楚地表明，多实例差异化模块可以抑制干扰实例，同时突出显示更具代表性的实例，这可以指示用于检测器训练的有信息量的图像。与手工制作的样本选择策略（表V中的Rand.、Max Unc.和Mean Unc.）相比，通过联合实例-图像不确定性学习模块（第III-D节）学习的图像不确定性选择图像进一步提高了检测性能。

带有多实例差异化模块和联合实例-图像不确定性学习模块的MIDL在所有周期中都优于SOTA方法MI-AOD[20]，后者仅使用实例类概率（表V中的第9行与第7行相比）。特别是，MIDL在第2、3、4周期中显著优于MI-AOD，分别提高了3.64%、2.02%和1.73%。在最后一个周期中，检测mAP达到了72.7%，比MI-AOD提高了0.63%（72.70%对72.03%）。

D. 模型分析

可视化分析：在图7中，我们可视化了学习和重新加权的不确定性和图像分类分数的实例。热图是通过汇总所有实例的不确定性分数计算的。仅使用分类器预测差异化模块时，存在背景（第1行）或真实正实例（第2行）周围的干扰实例，结果趋向于错过真正的正实例（第3行）或实例部分（第4行）。MIL可以为感兴趣的实例分配高图像分类分数，同时抑制背景。因此，MIDL利用图像分类分数对实例进行加权，以准确预测实例不确定性。在图8中，我们可视化了与目标类别相关的实例不确定性概率（图8上部）和实例类概率（图8下部）。第1行和第3行的类别具有最高的不确定性分数（

），而第2行和第4行的类别具有最低的不确定性分数。在图8左和中，可以看出缺乏语义区分力，并受到相似类别的影响（第1行）。对抑制相似类别具有区分力，但不能指示图像中有信息量的区域（第3行）。将与结合起来，可以发现有信息量的区域，同时减少噪声（如图9最后一列所示）。在图8右图中，分类失败，和都集中在背景噪声上。在图9中，我们可视化了实例不确定性概率、实例类概率和实例目标概率。从图9的最后一列可以看出，MIDL能够区分实例不确定性概率，并发现尽可能多的有信息量的前景对象实例，同时最少地受到背景噪声的影响。

统计分析：在图10中，我们计算了在每个主动学习周期中选择的真正正实例的数量。可以看出，MIDL在所有学习周期中显著地击中了更多的真正正实例。这表明所提出的MIDL方法可以更好地激活真正的正对象，同时过滤掉干扰实例，这有助于选择有信息量的图像进行检测器训练。

E. 鲁棒性分析

性能偏差：在图11中，我们比较了MIDL与CDAL和随机采样的性能偏差。当标记集较小时，CDAL和随机采样的性能偏差明显大于MIDL。随着标记图像数量的增加，所有方法的性能偏差都减小，而MIDL的性能偏差在几乎所有周期中都小于其他方法。这些结果进一步验证了通过引入MIL分类器，MIDL可以抑制噪声实例，因此比CDAL和随机采样具有更鲁棒的性能。

的大小：我们对不同大小的进行了实验，以分析“冷启动”问题[56]（见图12(a)）。表示的大小。在所有实验中，每个方法的的大小设置为训练图像的2.5%。每个方法的起始大小分别设置为训练集的5.0%（实线）、2.5%（虚线）和7.5%（点线）。可以看出，MIDL在所有起始大小下都优于CDAL和随机采样，证明了其对冷启动问题的鲁棒性。当的大小设置为训练集的2.5%时，所有方法的性能都显著下降，因为初始标记集太小。MIDL的性能在第二个周期中大幅提高，证明了当初始标记集较小时，MIDL可以更有效地选择有信息量的样本。

偏差的初始采样：我们分析了初始标记集的采样偏差如何影响检测性能。通过偏差采样，标记集和未标记集的样本分布不一致，这对主动学习器提出了挑战。我们通过随机选择不在初始标记集中的个类别的图像和标签来模拟初始标记集中可能存在的偏差形式，并将其与从所有类别中随机选择初始标记图像的情况（即）进行比较。图12(b)显示了（实线）、（虚线）和（点线）的性能。有偏差的初始采样下，MIDL在所有主动学习周期中都优于比较的方法。

噪声标注：我们随机改变图像标签为其相似的类别，这被认为是由低质量图像和/或非专业标注者引起的主要标注噪声。为了模拟带有噪声标注的图像，将PASCAL VOC数据集划分为4个超类别（即人、动物、车辆和室内超类别[57]）和20个子类别。设表示训练集中选定对象的百分比。我们设置（实线）、（虚线）和（点线）。对于每个选定的对象，我们将其类别标签更改为超类别中的一个随机错误类别标签。

图12(c)显示了MIDL和比较方法在噪声标注方面的表现。随着噪声标签百分比的增加，CDAL的mAP趋于接近随机采样，而MIDL的mAP在或时仍保持优于CDAL和随机采样。"MIDL ( )"的性能显著优于"CDAL ( )"，甚至与"CDAL ( )"相当。这验证了MIDL提高了对噪声标注的鲁棒性。

的大小：在每个主动学习周期中，选择并标记一组图像（定义在第III-A节中）。我们对不同大小的进行了分析，分别设置为训练图像的2.5%（实线）和5.0%（虚线）。表示的大小。实验使用了相同的初始标记集和相同的注释预算。可以看出，随着的大小增加，MIDL在所有周期中仍然优于比较的方法，证明了MIDL的性能对的大小更为鲁棒。

V. 结论

在本文中，我们在贝叶斯框架内制定了实例级主动学习，并提出了多实例差异化学习（MIDL）来选择有信息量的图像。在贝叶斯框架内，我们通过执行总概率公式来估计图像不确定概率，将实例级不确定概率与实例类概率和实例目标概率进行差异化和聚合。MIDL包括一个分类器预测差异化模块和一个多实例差异化模块。在训练期间，分类器预测差异化模块在标记和未标记图像上训练实例级模型以估计实例级不确定概率。多实例差异化模块通过多实例学习模块学习实例类概率和实例目标概率。我们揭示了现有的实例级主动学习方法是MIDL的特例，其中实例类概率和/或实例目标概率被设置为均匀分布。在常用的目标检测和视频目标检测数据集上的实验表明，MIDL以显著的优势超越了最先进的方法，特别是在标记集较小的情况下。MIDL为实例级主动学习设定了一个坚实的基线。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 计算机书童 小编

http://mp.weixin.qq.com/s?__biz=MzkxNTY5NzI4Mw==&mid=2247493545&idx=1&sn=608ad2396db24fc43b080ac6430c8913

计算机书童

为大家分享计算机、机器人领域的顶会顶刊论文