论文赏读 | ECCV24Oral | 点投影到轴, 用于有向框目标检测的点轴表示方法

文摘   2024-08-31 09:21   荷兰  

 RS   DL 

论文介绍

题目:Projecting Points to Axes: Oriented Object Detection via Point-Axis Representation
会议:The European Conference on Computer Vision 2024 (ECCV) 
论文:http://arxiv.org/abs/2407.08489

年份:2024

代码:待开源

作者单位: 西安交通大学

注:本篇经由论文原作者审阅

创新点

  • 点-轴表示法:研究提出了一种新的点-轴表示法用于定向物体检测。这种方法将物体的位置和方向分为两个组件:点(用于捕捉形状和空间范围)和轴(用于捕捉方向)。这种表示法旨在解决传统基于边界框的方法中常见的损失不连续性问题。


  • 位置与旋转的解耦:该方法有效地解耦了物体的位置和旋转,这简化了建模过程,并特别针对近似正方形或圆形的物体,提供了更稳定和一致的预测。


  • 损失函数:
    • 最大投影损失(Max-Projection Loss):该损失函数用于监督点集学习过程,而不需要额外的关键点标注。它旨在确保点集收敛到一个最佳的形状表示。

    • 交叉轴损失(Cross-Axis Loss):该损失函数通过将角度离散化为若干个区间,并对标签编码进行平滑处理,来稳健地学习轴表示,从而减少角度不连续性对模型的影响。


  • Oriented DETR模型:论文提出了一种称为Oriented DETR的DETR框架扩展模型,它集成了点-轴表示法,用于端到端的检测任务。该模型使用点检测解码器预测点和轴,利用组自注意力机制来增强点查询之间的信息交互。

数据

本文的数据已整理在:https://github.com/rsdler/Remote-Sensing-Object-Detection-Dataset

  • DOTA:一个大规模数据集,包含2806张图像和188282个实例,分布在15个类别中。数据集中包含各种不同方向、形状和尺度的对象,图像尺寸从800×800到4000×4000像素不等。


  • DIOR-R:包含23463张图像,具有190288个旋转边界框标注的实例,涵盖20个类别。


  • HRSC2016:船只检测数据集,包含1061张图像,具有大纵横比和简单形状的目标。

方法

1. 点-轴表示法(Point-Axis Representation)

1.1 基本概念

  • 点表示(Points for Shape Descriptions): 该方法通过一组点来描述物体的空间范围和轮廓。这些点能够详细地表达物体的形状,特别是在处理不规则形状的物体时,这种表示方法具有明显优势。

  • 轴表示(Axes for Orientation Cues): 轴表示物体的主要方向性,这是实现精确检测的关键。点-轴表示法的一个重要创新在于它解耦了物体的位置和旋转,从而使得模型在处理近似正方形或圆形物体时更加稳定。

1.2 具体实现:每个物体都由一组点和轴表示组成。点集描述了物体的轮廓和位置,而轴表示通过将方向离散化并应用平滑处理,生成能够表示物体主要方向的标签编码。

2. 损失函数(Loss Functions)

为了有效地优化模型,论文提出了两个专门的损失函数:

  • 最大投影损失(Max-Projection Loss)该损失函数用于监督点集的学习过程,而不需要明确的关键点注释。它通过将预测的点集转换为相对于物体中心点的矢量表示,并选择投影值最大的元素进行优化。这种方法有助于模型更准确地表示物体的形状和空间范围。

  • 交叉轴损失(Cross-Axis Loss)交叉轴损失通过离散化方向并应用平滑处理,来稳健地学习物体的轴表示。通过监督轴的学习过程,这种方法确保了角度表示的连续性和光滑度,从而增强了模型处理方向信息的鲁棒性。

3. Oriented DETR 模型

3.1 模型架构

  • 基础结构: Oriented DETR 基于 DETR 框架,首先通过主干网络提取输入图像的特征,然后通过 Transformer 编码器进行全局上下文的增强处理。
  • 对象查询: 模型根据特征分数选择前N个对象查询,并将这些查询转换为点查询,用于预测物体的点集和轴表示。
  • 点检测解码器: 该解码器由两个主要模块组成:
    • 点到点注意力模块(Point-to-Point Attention Module): 将点查询按照实例进行分组,并在每组内应用共享参数的自注意力层,以捕捉点之间的关系。

    • 对象到对象注意力模块(Object-to-Object Attention Module): 提取每个实例的中心点查询,并在所有实例之间应用自注意力机制,以捕捉对象之间的关系。

3.2 预测头(Prediction Head)

  • 预测头负责将每个点查询映射为具体的2D坐标,并从所有相关的点查询中预测出对象的类别和轴表示。最终输出包括物体的精确位置、形状和方向。

结果和精度

精度对比

可视化

消融实验

更多结果讨论图表可查看原文


欢迎关注CVPR/ECCV 2024系列



因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。



关于AI回复功能:


公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能



问题及讨论可直接在文章下方留言


相关链接:


论文赏读 | TPAMI | 解决遥感有向目标检测中的边界不连续问题
综述+数据 | ISPRS | 卫星视频单目标跟踪: 综述及首个定向目标跟踪基准!
论文赏读 | CVPR24 | 弱监督学习用于旋转框遥感目标检测
论文赏读 |CVPR24 |单点直接生成旋转框用于遥感目标检测, PointOBB模型
论文赏读 |CVPR24 |Point2RBox, 点直接生成旋转框, 代码已集成至mmrotate

  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章