RS DL
论文介绍
年份:2024
作者单位:东南大学
注:本篇经由论文原作者审阅
创新点
相移编码器(Phase-Shifting Coder, PSC):提出了一种新的角度编码器,称为相移编码器(PSC)。这种方法旨在解决任意方向目标检测中角度回归存在的边界不连续问题。与其他方法不同,PSC确保了在预测过程中保持连续性和可微性,即使与现有的损失函数(如高斯损失或旋转IoU损失)结合使用时也是如此。
双频相移编码器(PSCD):论文将PSC的概念扩展到双频版本(PSCD),以处理细长和方形物体。这种方法通过考虑物体的旋转对称性,允许模型准确预测不同类型物体的方向。
旋转下连续性解释:作者提出了一种称为“旋转下连续性”的理论解释,用以说明以往方法的局限性以及PSC/PSCD如何解决这些问题。该解释强调了连续网络预测和不连续角度输出之间的根本不兼容性。
联合优化范式:该论文还提出了一种联合优化范式,将PSC与高斯或旋转IoU损失方法结合,展示了PSC作为附加模块时可以提高性能的能力。
背景
现有的许多方法通过对目标的旋转角度直接进行回归预测来实现旋转目标检测,但这类方法普遍面临边界不连续性问题。具体来说,当目标物体的角度接近某个临界值时,检测器的预测结果可能出现突然的跳变,导致严重的预测误差。这一问题源于角度的周期性与边界定义的非唯一性之间的冲突。
为了克服这一局限性,本文提出了相移编码器(PSC)以及其双频扩展版本(PSCD),旨在通过将角度编码为连续的、可微的形式来解决边界不连续性问题。通过与现有的检测器和损失函数相结合,本文的方法在多个具有挑战性的数据集上展示了其显著的性能提升。
现有文献中的不连续问题解释:
本文提出的旋转下连续性解释:
本文的解决方法:
数据
DOTA: 一个用于航空图像目标检测的大型数据集,包含2806张图像,标注了15个类别的188,282个实例。图像被分割成1024×1024像素的补丁,用于模型训练和测试。 DIOR-RBox: 重新标注为旋转边界框的航空图像数据集,包含23,463张图像和190,288个实例,覆盖20个类别,具有高的物体尺寸变化和类别多样性。 FAIR1M: 包含超过40,000张高分辨率遥感图像和100多万个实例,涵盖5大类及其37个子类。图像通过分割和缩放进行预处理。 HRSC: 航空图像船只检测数据集,包含方向各异的船只,共1061张图像,分为训练、验证和测试集。 OCDPCB: 用于印刷电路板组件检测的数据集,包含636张1280×1280像素的图像,目标是实现自动光学检测。
方法
1. 相移编码器(Phase-Shifting Coder, PSC)
原理:相移编码器(PSC)是一种从光学测量中借鉴的技术,用于编码物体的旋转角度。通过将角度转换为单位向量,并将其投影到多个方向上,获得一系列投影长度作为编码数据。这个过程确保了预测的连续性和可微性,避免了导致边界不连续的问题。
编码和解码:编码过程将角度转换为N个方向上的投影数据,解码过程则通过反向计算还原角度。该方法避免了角度回归中的边界跳变问题。
2. 双频相移编码器(Dual-Frequency PSC, PSCD)
扩展:为了应对不同形状物体(如长条形和方形)的旋转对称性,PSCD通过引入双频机制,分别对两种旋转周期进行编码。这样可以更精确地预测各种形状物体的角度。
3. 深度学习集成(Standalone 和 Joint Paradigm)
独立范式(Standalone Paradigm):在此范式中,网络分别预测水平框和旋转角度。角度回归基于PSC进行,而水平框回归则使用常规的回归损失(如IoU或DIoU)。
联合范式(Joint Paradigm):在此范式中,PSC被用作RotatedIoU或Gaussian-based方法的附加模块,网络联合优化最终的旋转框。PSC的可微性使其能够与这些方法兼容,进一步提高检测精度。
结果和精度
精度对比
独立范式实验
联合范式实验
多尺度设置实验
推理时间和模型大小
可视对比
更多结果讨论图表可查看原文
欢迎关注CVPR/ECCV 2024系列
因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询、投稿、合作、加群,加群需备注姓名/昵称,单位和研究方向)。
关于AI回复功能:
公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能
问题及讨论可直接在文章下方留言
相关链接:
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。