关注并星标
从此不迷路
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
源代码获取|回复“CB”获取源代码
计算机视觉研究院专栏
检测器的置信度预测在目标大小和位置方面存在偏差,但目前尚不清楚这种偏差与受影响的目标检测器的性能有何关系。
无数应用依赖于目标检测器的可靠置信度估计的准确预测。然而,众所周知,包括目标检测器在内的神经网络会产生错误校准的置信估计。最近的工作甚至表明,检测器的置信度预测在目标大小和位置方面存在偏差,但目前尚不清楚这种偏差与受影响的目标检测器的性能有何关系。
研究者正式证明条件置信偏差(conditional confidence bias)正在损害目标检测器的预期性能,并凭经验验证这些发现。具体来说,研究者们演示了如何修改直方图分箱校准,不仅可以避免性能受损,还可以通过条件置信校准来提高性能。
研究者进一步发现,在检测器的训练数据上生成的检测器中也存在置信偏差,利用这些偏差在不使用额外数据的情况下执行提出的去偏差。此外,Test Time Augmentation会放大这种偏差,从而从我们的校准方法中获得更大的性能提升。最后,研究者在一组不同的目标检测架构上验证了他们的发现,并在没有额外数据或训练的情况下显示了高达0.6 mAP和0.8 mAP50的改进。
二、背景
Accurate probability estimates对于自动化决策过程至关重要。它们对于准确可靠的性能以及正确评估风险至关重要。对于目标检测器来说尤其如此,它们经常部署在自动驾驶、医学成像和安全应用等独特的关键领域,这些领域可能危及人的生命。尽管存在这些高风险,目标检测器的置信度校准受到的关注相对较少。目标检测器设计中的大部分注意力都集中在追求性能基准上的最新结果,而忽略了其预测置信度方面的问题。 此外,最近已经证明目标检测器在其位置回归预测方面也容易受到条件置信偏差的影响,但目前尚不清楚这种偏差与受影响目标检测器的性能有何关系?
为了强调置信校准的重要性,研究者表明条件置信偏差正在损害目标检测性能。该现象的简化说明如下图所示。
三、新方法分析
Evaluating Object Detectors
Confidence Calibration
置信度校准背后的想法是,每个预测的ci应该等于经验目标检测器的TP预测概率P(τ i=1| d=di)。从这里开始,我们将其简称为Pi。对于置信度校准,将目标检测器视为一个随机过程。预测di的标签现在由随机变量Ti∼Bernoulli(Pi)表示,从中抽取tIoU=0.50的τi作为样本。Pi也可以看作是目标检测器对于具有相同置信度ci的一组检测的精度;将Pi称为“successful”或TP检测的概率P(τ i=1| d=di)以避免与上等式中定义的度量混淆。
研究者假设条件置信偏差正在损害目标检测器的性能。 如第一张图,基于具有不同校准曲线的两组检测的夸大示例来形象化这个想法。 每个组只有一个各自的置信值的检测,在这个例子中很明显,置信阈值为0.55的检测器对于未校准检测(0,1)的精度为50%;如果检测器被完美校准 (2,3),精度为70%。 在精确召回曲线中可以观察到相关的改进。 该曲线下的面积与AP指标密切相关。 简单示例和假设表明,目标检测器相对于边界框大小和位置的置信估计偏差正在损害检测器的性能。
接下来都是算式证明
Maximizing Average Precisio
为了证明提出的假设,即置信偏差正在损害目标检测器的性能,我们看一下AP与P的关系以及如何在一组检测D中最大化它。目标检测器可以被视为一个随机过程 ,所以我们需要分析预期的AP:
代入Prec和Rec:
如果我们假设每个Pi和Pj独立,i≠j:
通过一些简单的算术,我们可以将其重新表述为:
因此,我们可以通过根据P从大到小对预测进行排序来最大化AP计算中的总和。由于检测在评估AP之前根据其置信度进行排序,因此在以下条件下最大化:
Confidence Calibration
Modifying Histogram Binning
由于我们已经根据它们的大小将检测分为子组,我们可以假设检测器在这些子组中产生有意义的置信度排序:毕竟,这是它的训练目标。由于我们希望保持每个子组内的排序,我们在直方图bin的中心之间添加linear splines。
还有较多的证明推理,感兴趣的同学可以在论文中继续详读了解:
https://arxiv.org/pdf/2112.01901.pdf
四、实验
扩展优化指标的 mAP 性能变化
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
扫码关注
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
往期推荐
🔗