QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

科技 2024-12-09 12:30 江苏

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

论文：https://arxiv.org/abs/2103.09136

代码（已开源）：https://github.com/ChenhongyiYang/QueryDet-PyTorch

计算机视觉研究院专栏

虽然深度学习的通用目标检测在过去几年中取得了巨大成功，但检测小目标的性能和效率却远不能令人满意。

概述

促进小目标检测的最常见和最有效的方法是使用高分辨率图像或特征图。然而，这两种方法都会导致计算成本高昂，因为计算成本会随着图像和特征大小的增加而成正比增长。

为了两全其美，研究者提出了QueryDet，使用一种新颖的查询机制来加速基于特征金字塔的目标检测器的推理速度。该流程由两个步骤组成没如下图。

首先在低分辨率特征上预测小物体的粗略位置，然后使用由这些粗略位置稀疏引导的高分辨率特征计算准确的检测结果。这样不仅可以收获高分辨率特征图的好处，还可以避免对背景区域进行无用计算。在流行的COCO数据集上，该方法将检测mAP提高了1.0，mAP small提高了2.0，高分辨率推理速度平均提高了3倍。在包含更多小目标的VisDrone数据集上，研究者创建了一个新的状态，同时平均获得2.3倍的高分辨率加速。

背景及动机

可以通过缩放输入图像的大小或降低CNN的下采样率以保持高分辨率特征来改进小目标检测，因为它们增加了结果特征图中的有效分辨率。然而，仅仅增加特征图的分辨率会产生相当大的计算成本。几项工作[A unified multi-scale deep convolutional neural network for fast object detection] [Feature pyramid networks for object detection][Ssd: Single shot multibox detector]提出通过重用来自CNN不同层的多尺度特征图来构建特征金字塔来解决这个问题。不同尺度的目标在不同的层次上被处理：大目标倾向于在高层次特征上被检测到，而小目标通常在低层次上被检测到。特征金字塔范式节省了在主干中从浅到深维护高分辨率特征图的计算成本。尽管如此，检测头对低级特征的计算复杂度仍然是巨大的。

例如，在RetinaNet中添加一个额外的金字塔级别P2将带来大约300%的计算量（FLOPs）和检测头的内存成本；因此在NVIDIA 2080Ti GPU上将推理速度从13.6 FPS严重降低到4.85 FPS。

研究者提出了一种简单有效的方法QueryDet，以节省检测头的计算量，同时提高小目标的性能。动机来自两个关键观察：

1）对低级特征的计算是高度冗余的。在大多数情况下，小目标的空间分布非常稀疏：它们只占据高分辨率特征图的一小部分；因此浪费了大量的计算。

2）特征金字塔是高度结构化的。虽然我们无法准确检测低分辨率特征图中的小物体，但我们仍然可以高度自信地推断出它们的存在和粗略位置。

利用上图两个观察结果的一个自然想法是，我们只能将检测头应用于小目标的空间位置。该策略需要以低成本和稀疏计算在所需的特征图上定位小物体的粗略位置。

在今天分享中，研究者提出了基于新型查询机制级联稀疏查询(CSQ)的QueryDet，如上图所示。递归地预测低分辨率特征图上小目标（查询）的粗略位置，并将它们用于指导更高分辨率特征图中的计算。借助稀疏卷积，显着降低了检测头对低级特征的计算成本，同时保持了对小目标的检测精度。请注意，新提出的方法旨在节省空间计算，因此它与其他加速方法兼容，如轻量级主干网、模型修剪、模型量化和知识蒸馏。

新框架

Revisiting RetinaNet

RetinaNet有两部分：一个带有FPN的主干网络，输出多尺度特征图和两个用于分类和回归的检测头。

ResNet+FPN：提取图片特征
Anchor：边框搜索
Class subnet (Focal Loss)：预测类别
Box subnet：预测边框坐标和大小

P3 head占据了将近一半的FLOPs，而低分辨率功能P4到P7的成本仅占15%。因此，如果想将FPN扩展到P2以获得更好的小目标性能，成本是无法承受的：高分辨率的P2和P3将占据总成本的75%。在下面风分析中，描述了QueryDet如何减少对高分辨率特征的计算并促进推理sp。

Accelerating Inference by Sparse Query

在基于FPN的检测器的设计中，小目标倾向于从高分辨率低级特征图中检测到。然而，由于小目标通常在空间中分布稀疏，高分辨率特征图上的密集计算范式效率非常低。受此观察的启发，研究者提出了一种从粗到细的方法来降低低级金字塔的计算成本：首先，在粗略特征图上预测小物体的粗略位置，然后集中计算精细特征图上的相应位置。这个过程可以看作是一个查询过程：粗略的位置是查询键，用于检测小目标的高分辨率特征是查询值；因此称提出的方法为QueryDet。方法的整个流程如下图所示。

Relationships with Related Work

请注意，尽管新提出的方法与使用RPN的两阶段目标检测器有一些相似之处，但它们在以下方面有所不同：

新方法仅在粗略预测中计算分类结果，而RPN同时计算分类和回归
RPN是在所有级别的全特征图上计算的，而QueryDet的计算是稀疏和选择性的
两阶段方法依靠像RoIAlign或RoIPooling这样的操作来将特征与第一阶段候选对齐。

尽管如此，它们并没有在新提出的方法中使用，因为研究者在粗略预测中没有框输出。值得注意的是，提出的方法与基于FPN的RPN兼容，因此可以将QueryDet合并到两阶段检测器中以加速提案生成。

实验及可视化

Comparison of accuracy (AP) and speed (FPS) of our QueryDet and the baseline RetinaNet on COCO mini-val set

Comparison of detection accuracy (AP) and speed (FPS) of our QueryDet and the baseline RetinaNet on VisDrone validation set

The speed and accuracy (AP and AR) trade-off with input images with different sizes on COCO and VisDrone. The trade-off is controlled by the the query threshold σ. The leftmost marker (the ▲ marker) of each curve stands for the result when Cascade Sparse Query is not applied. QD stands for QueryDet and RN stands for RetinaNet

Visualization of the detection results and the query heatmap for small objects of our QueryDet on MS-COCO and VisDrone2018 datasets. We remove class labels for VisDrone2018 to better distinguish the small bounding boxes

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

我们开创“计算机视觉协会”知识星球两年有余，也得到很多同学的认可，最近我们又开启了知识星球的运营。我们定时会推送实践型内容与大家分享，在星球里的同学可以随时提问，随时提需求，我们都会及时给予回复及给出对应的答复。

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

独自一人，怒发顶会！

除了Yolo的其他选择，轻量级检测网络层出不穷（框架解析及部署实践）

AI顶会ICML收了一篇论文：没算法没实验，全靠idea思路好

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

YoloV：视频中目标实时检测依然很棒（附源代码下载）

图像自适应YOLO：恶劣天气下的目标检测（附源代码）

ResNet超强变体：京东AI新开源的计算机视觉模块！（附源代码）

最高加速9倍！字节跳动开源8比特混合精度Transformer引擎

水下检测+扩散模型：或成明年CVPR最大惊喜！

2024新技术：远距离的小目标也可以准确检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

视觉语言大模型新SOTA！高效微调方法性能碾压LoRA

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

旋转角度目标检测的重要性！！！（附源论文下载）

245个目标检测开源项目合集，建议收藏！

新技术：高效的自监督视觉预训练，局部遮挡再也不用担心！

最近几篇较好论文实现代码（附源代码下载）

华科&字节提出目标感知基础模型GLEE，一统所有目标感知任务

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

ICLR'25 惊现满分论文！！！走对捷径，高分论文并不难

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

EdgeYOLO：边缘设备上实时运行的目标检测器及Pytorch实现

实用教程详解：模型部署，用DNN模块部署YOLOv5目标检测（附源代码）

半监督辅助目标检测：自训练+数据增强提升精度（附源码下载）

为什么制造业都在用低代码提效？

欢迎加入“计算机视觉研究院”学习群

从源头消除大模型“幻觉”，性价比吊打传统微调方法

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

旋转角度目标检测的重要性！！！（附源论文下载）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

最后征稿+连续8届检索 | 第九届控制工程与人工智能国际会议(CCEAI 2025)会议地点已定！

智慧建筑：基于YOLOv7的建筑外墙缺陷检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

年薪百万or惨遭裁员，AIGC开发者如何破局？

陈天奇团队LLM结构化生成新引擎XGrammar：百倍加速、近零开销

2024全球无人机市场洞察报告

粉丝福利！免费赠书中奖名单

凭什么YOLO是最强目标检测器，一文读懂！

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

史上最通俗易懂的YOLO系列（v1-v10）模型解读！

更快、更灵活的Transformer图像去雾网络

“计算机视觉研究院”商务合作

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉