推荐阅读| 旋转的秘密:相位移编码器破解目标检测中的边界之谜

文摘   2024-10-09 09:15   北京  

论文标题:On Boundary Discontinuity in Angle Regression Based Arbitrary Oriented Object Detection

论文链接:https://www.researchgate.net/publication/379081564_On_Boundary_Discontinuity_in_Angle_Regression_Based_Arbitrary_Oriented_Object_Detection

这篇论文的主要目的是解决任意方向目标检测中由于角度回归带来的边界不连续性问题。具体来说,现有的方法在对旋转角度进行回归时,常常会遇到目标在旋转到某个边界角度时预测结果出现异常的现象。为了解决这个问题,论文提出了一种新颖的编码方法——相位移编码器(Phase-Shifting Coder, PSC),以确保在角度回归过程中能够实现连续、可微的预测,避免边界不连续性。此外,论文还引入了双频相位移编码器(PSCD),进一步提升对不同类型目标(如长方形和接近正方形目标)的检测精度。

回归角度的边界不连续问题

下图思想展示了角度回归中的边界不连续性问题

左图

  • 红色框代表预测的边界框,蓝色框代表真实的边界框(Ground Truth)。
  • 这里展示了一个长方形的目标,它的中心点、宽度和高度(x,y,w,hx, y, w, hx,y,w,h)是相同的,唯一的区别是角度(θ\thetaθ)。
  • 真实角度为 60°,而预测的角度为 -120°。尽管从视觉上来看,这两个框在实际物理空间中是等效的(因为旋转180度后,长方形看起来是一样的),但由于角度的周期性差异,损失函数(如L1损失)计算时认为它们有很大的差异,导致误差很大,损失函数的值远远大于零。

右图

  • 显示的是一个接近正方形的目标(宽度和高度接近相等),同样也是两个等效的框。
  • 真实角度为 60°,而预测的角度为 -30°。由于接近正方形的物体边界的交换性(边缘可以互换),预测的框与真实框其实是等效的,但损失函数仍然给出了较大的误差,因为它没有考虑到这种等效性。

image-20240928132818682

通过这两个例子,Fig 1 旨在说明角度回归中的周期性问题边界交换问题导致了误差的放大,即使预测的结果和真实值是等效的。这个问题在传统的角度回归模型中经常发生,导致了模型在训练和推理过程中的不稳定性。

如何解决边界不连续问题

下图思想展示了论文中提出的相位移编码器(PSC, Phase-Shifting Coder)如何解决角度回归中的边界不连续性问题

image-20240928133918444

相位移编码器通过将角度信息编码为连续的相位变化(如余弦和正弦值),然后再通过解码器将这些相位信息解码回离散的角度预测。这种方法允许神经网络输出连续的相位信息(中间蓝色波形),然后再由相位解码器将其转换为离散的角度预测。这样,模型可以在不影响连续性的前提下,解决原本的“角度跳变”问题,从而有效解决边界不连续性。

基于PSC的深度学习目标检测架构

下图展示了如何将相位移编码器(PSC)集成到深度学习目标检测器中的两种不同架构——独立范式(Standalone Paradigm)和联合范式(Joint Paradigm)

image-20240928134514172

独立范式

  • 在这个结构中,网络分别预测一个水平边界框和一个旋转角度。模型输出的内容包括边界框的坐标(x,y,w,hx, y, w, hx,y,w,h)和预测的角度(θ\thetaθ)。
  • 角度的损失(Angle Loss)与水平边界框的损失相独立计算。这种方法虽然简单,但没有利用边界框和角度之间的潜在关系。

联合范式

  • 在这种结构中,PSC作为一个模块与旋转边界框(RBox)回归方法相结合,网络同时优化边界框的坐标和旋转角度。这里,模型不仅输出边界框的坐标,还输出编码的相位数据(m1,m2,m3m1, m2, m3m1,m2,m3),并通过解码器将其转换为旋转角度。
  • 这种方法允许角度和边界框的损失共同优化,从而提高整体模型的性能。通过这种联合优化,模型能更好地学习边界框与角度之间的一致性,提高预测的精度。

对比分析

  • 图中清晰地对比了两种架构的工作流程,强调了联合范式的优势,特别是在处理边界不连续性问题时。通过将角度回归和边界框回归结合,模型能够更好地处理不同类型的目标检测任务。

实验

下表展示了在使用相位移编码器(PSC)的联合范式下,模型在HRSC数据集上的性能提升情况,特别是通过结合不同的旋转边界框(RBox)损失函数(如GWD、KLD、KFIoU、RotatedIoU)来验证PSC的有效性。

image-20240928134945603

表格结构

  • 列标题

    • Detectors:列出了不同的目标检测器(如RetinaNet、FCOS、R3Det)。
    • RBox Loss:指明了用于模型训练的损失函数类型。
    • Baseline:表示没有使用PSC的模型性能。
    • Incorporating PSC:表示使用PSC后模型的性能。

关键内容解释

  1. Baseline vs. Incorporating PSC
  • 每种检测器在使用不同的RBox损失时,Baseline列展示了未使用PSC时的平均精度(AP)表现,而Incorporating PSC列展示了加入PSC后的AP表现。
  • 通过比较这两列,可以清楚地看到PSC的引入对模型性能的影响。
  • 性能提升
    • 大多数情况下,AP值在加入PSC后都有所提升,说明PSC能够有效增强模型对目标方向的预测能力。
    • 例如,RetinaNet在使用GWD损失时,Baseline为71.55,加入PSC后提升到72.73,增幅为1.18。这种提升在多个检测器和损失函数中均有体现。
  • 不同损失函数的影响
    • 表格中显示,PSC在不同的RBox损失下表现出不同程度的性能提升,说明结合合适的损失函数可以进一步增强PSC的效果。

    推荐阅读:

    基于多保真度深度神经网络的偶然不确定性量化

    乘积包络谱优化- Gram:一种用于滚动轴承故障诊断的增强包络分析

    基于物理信息残差网络的滚动轴承故障诊断

    基于混合注意力的多小波系数融合滚动轴承剩余寿命预测方法

    ReF-DDPM: 一种基于DDPM的滚动轴承故障诊断数据增强新方法

    基于物理信息与数据驱动的贝叶斯网络的锂离子电池事故风险分析

    基于深度隐变量状态空间模型的轴承退化预测

    一种全新滚动轴承局部缺陷扩展动态更新和实时映射的数字孪生模型

    面向滚动轴承故障智能诊断的数字双驱动局部域自适应网络

    无寿命标签下的RUL概率预测:一种融合贝叶斯深度学习和随机过程的方法

    学术人人
    传播科学与学术研究动态,发布学术领域重要研究成果。 重点推广可靠性系统工程(包括可靠性、维修性、保障性、测试性、安全性和环境适应性)理论研究成果,传播相关知识。
     最新文章