Transformer小目标检测

科技 2024-10-25 10:05 中国香港

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

仅作学术分享，不代表本公众号立场，侵权联系删除

转载于：专知

Transformer在计算机视觉领域迅速普及，特别是在目标识别和检测领域。在检查了最先进的目标检测方法的结果后，我们注意到Transformer在几乎每个视频或图像数据集上的表现都优于成熟的基于CNN的检测器。虽然基于Transformer的方法仍然处于小目标检测(SOD)技术的前沿，但本文旨在探索这种广泛的网络提供的性能优势，并确定其SOD优势的潜在原因。由于小目标的低可见性，小目标已被确定为检测框架中最具挑战性的对象类型之一。我们旨在研究可能提高Transformer在SOD中性能的潜在策略。这项综述提出了一个关于已开发的Transformer的SOD任务的60多项研究的分类，跨越2020年至2023年。这些研究涵盖了各种检测应用，包括通用图像、航拍图像、医学图像、主动毫米图像、水下图像和视频中的小目标检测。我们还编译并列出了12个适合SOD的大规模数据集的列表，这些数据集在以前的研究中被忽视了，并使用流行的度量标准(如平均平均精度(mAP)、每秒帧数(FPS)、参数数量等)比较了所评述的研究的性能。

小目标检测(SOD)已被认为是当前最先进的目标检测方法(SOTA)面临的一个重大挑战[1]。“小目标”指的是占据输入图像一小部分的物体。例如，在广泛使用的MS COCO数据集[2]中，它定义了在典型的480 × 640图像中边框为32 × 32像素或更小的物体(图1)。其他数据集也有自己的定义，例如占据图像10%的物体。小目标经常被遗漏或检测到错误的边框，有时还有错误的标签。SOD中定位不足的主要原因是输入图像或视频帧中提供的信息有限，加剧了它们在深度网络中通过多个层时所经历的空间退化。由于小目标经常出现在各种应用领域，如行人检测[3]、医学图像分析[4]、人脸识别[5]、交通标志检测[6]、交通灯检测[7]、船舶检测[8]、基于合成孔径雷达(SAR)的目标检测[9]，因此值得研究现代深度学习SOD技术的性能。本文比较了基于Transformer的检测器和基于卷积神经网络(CNN)的检测器在小目标检测方面的性能。在明显优于CNN的情况下，我们试图揭示Transformer强大性能背后的原因。一个直接的解释可能是Transformer对输入图像中成对位置之间的相互作用进行了建模。这是一种有效的上下文编码方式。而且，众所周知，上下文是人类和计算模型检测和识别小目标的主要信息来源[10]。然而，这可能不是解释Transformer成功的唯一因素。具体而言，我们的目标是沿着几个维度分析这种成功，包括对象表示、高分辨率或多尺度特征图的快速注意力、完全基于Transformer的检测、架构和块修改、辅助技术、改进的特征表示和时空信息。此外，我们指出了可能增强Transformer在SOD中性能的方法。

在我们之前的工作中，我们调查了许多在深度学习中使用的策略，以提高光学图像和视频中小目标检测的性能，直至2022年[11]。我们表明，除了适应新的深度学习结构(如Transformer)外，流行的方法包括数据增强、超分辨率、多尺度特征学习、上下文学习、基于注意力的学习、区域建议、损失函数正则化、利用辅助任务和时空特征聚合。此外，我们观察到Transformer是大多数数据集中定位小目标的主要方法之一。然而，鉴于[11]主要评估了超过160篇专注于基于CNN的网络的论文，没有对以Transformer为中心的方法进行深入探索。认识到该领域的增长和探索步伐，现在有一个及时的窗口来深入研究当前面向小目标检测的Transformer模型。本文的目标是全面了解在应用于小目标检测时，变换器令人印象深刻的性能的贡献因素，以及它们与用于通用目标检测的策略的区别。为了奠定基础，我们首先强调了著名的基于Transformer的SOD目标检测器，并将其与基于CNN的方法的进步进行比较。

自2017年以来，该领域已经发表了许多综述文章。在我们之前的调查中[11]，对这些综述进行了广泛的讨论和列表。最近的另一篇调查文章[12]也主要关注基于CNN的技术。当前调查的叙述与前人截然不同。本文的重点是将焦点具体缩小到Transformer上——这是以前没有探讨过的一个方面——将Transformer定位为图像和视频SOD的主要网络架构。这需要为这种创新架构量身定制一个独特的分类法，有意识地将基于CNN的方法边缘化。鉴于这个主题的新颖性和复杂性，我们的综述主要将2022年后的工作优先考虑。此外，我们还阐明了在更广泛的应用领域中用于小目标定位和检测的新数据集。本调查中研究的主要方法是为小目标定位和分类量身定制的方法，或间接解决了SOD的挑战。驱动我们分析的是这些论文中针对小目标的检测结果。然而，早期的研究指出了SOD的结果，但要么证明了低于标准的性能，要么忽略了开发方法中特定的SOD参数，因此没有考虑纳入本综述。在本调查中，我们假设读者已经熟悉通用对象检测技术、它们的架构和相关的性能指标。如果读者需要对这些领域有基础的了解，我们建议读者参考我们以前的工作[11]。

本文的结构如下：第2节概述了基于CNN的物体检测器、Transformer及其组件，包括编码器和解码器。本节还涉及了基于Transformer的物体检测器的两个初始迭代：DETR和ViT-FRCNN。在第3节中，我们对基于Transformer的SOD技术进行了分类，并全面深入研究了每类技术。第4节展示了用于SOD的不同数据集，并在一系列应用中对它们进行了评估。在第5节中，我们分析并比较了这些结果与早期从CNN网络得出的结果。本文在第6节中总结了结论。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247625511&idx=3&sn=705d18406c59474fd4a69e1a0e837d65

小白学视觉

哈工大在读博士的公众号，《OpenCV 4快速入门》的作者，面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术，深度学习等内容。

最新文章

招生信息 | 厦门大学人工智能研究院计算机视觉方向博士招生

Python中进行特征重要性分析的9个常用方法

6 年半亏掉 528 亿的某汤，用裁员开启下一个十年。

算法工程师大致是做什么的？

labelGo：基于 YOLOv5 的辅助标注工具

作为审稿人，你什么情况下会选择拒稿？

用不需要手工标注分割的训练数据来进行图像分割

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

YOLO 系列目标检测大合集

最全深度学习训练过程可视化工具（附github源码）

ResNet到底在解决一个什么问题呢？

最后机会！2024年剩余EI检索学术会议时间表大揭秘！

【魔改UNet系列】ID-UNet: 一种用于红外小目标分割的密集连接UNet架构

ResNet是否只是一个深度学习的trick？

Python图像处理:频域滤波降噪和图像增强

一文读懂模型的可解释性（附代码）

YOLOv11 架构改进 & 常见指令

顶刊解读 | 基于自适应四阶偏微分方程的遥感图像超分辨率重建

AI，正在疯狂污染中文互联网

【魔改UNet系列】Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba

CNN 的一些可视化方法！

遥感顶刊 TRGS'24 | AODet: 基于 Transformers 的前景区域航空目标检测

Linux常用命令大全 | 176个

【魔改UNet系列】LightM-UNet：Mamba与UNet结合实现轻量级图像分割

顶刊解读 TGRS | 用于半监督旋转目标检测的伪孪生教师模型

OpenCV 也可以检测、跟踪移动物体

医学图像数据读取及预处理方法总结

传统图像处理还有前景么？

Pytorch里面多任务Loss是加起来还是分别backward？

Python并行编程？

一种基于计算机视觉和深度学习的番茄外部缺陷检测方法

PyCharm vs VSCode，是时候改变你的 IDE 了！

C++ OpenCV实现图像去阴影

这17 种方法让 PyTorch 训练速度更快！

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

CNN是不是一种局部self-attention？

一份微调YOLOv11的小指南

Transformer小目标检测

PyTorch可复现/重复实验的相关设置

245个目标检测开源项目合集，建议收藏！

【魔改YOLO系列】YOLO-SLD: 在YOLO中引入注意力机制，实现精准车牌检测

论文解读 | EATFormer：受进化算法启发改进视觉Transformer

直线检测算法汇总

一个小改动，CNN输入固定尺寸图像改为任意尺寸图像

医图顶会 MICCAI'24 | LKM-UNet: 用于医学图像分割的大内核视觉Mamba UNet

总结 | 半监督目标检测

Numpy中数组和矩阵操作的数学函数

完爆YOLO家族？新一代目标检测器又有新突破！

顶刊MIA'24 | 用于图像分割的双坐标交叉注意力Transformer

无需标注海量数据，目标检测新范式OVD让多模态AGI又前进一步

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉