QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

科技 2024-12-12 10:10 江苏

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

论文：https://arxiv.org/abs/2103.09136

代码（已开源）：https://github.com/ChenhongyiYang/QueryDet-PyTorch

计算机视觉研究院专栏

虽然深度学习的通用目标检测在过去几年中取得了巨大成功，但检测小目标的性能和效率却远不能令人满意。

概述

促进小目标检测的最常见和最有效的方法是使用高分辨率图像或特征图。然而，这两种方法都会导致计算成本高昂，因为计算成本会随着图像和特征大小的增加而成正比增长。

为了两全其美，研究者提出了QueryDet，使用一种新颖的查询机制来加速基于特征金字塔的目标检测器的推理速度。该流程由两个步骤组成没如下图。

首先在低分辨率特征上预测小物体的粗略位置，然后使用由这些粗略位置稀疏引导的高分辨率特征计算准确的检测结果。这样不仅可以收获高分辨率特征图的好处，还可以避免对背景区域进行无用计算。在流行的COCO数据集上，该方法将检测mAP提高了1.0，mAP small提高了2.0，高分辨率推理速度平均提高了3倍。在包含更多小目标的VisDrone数据集上，研究者创建了一个新的状态，同时平均获得2.3倍的高分辨率加速。

背景及动机

可以通过缩放输入图像的大小或降低CNN的下采样率以保持高分辨率特征来改进小目标检测，因为它们增加了结果特征图中的有效分辨率。然而，仅仅增加特征图的分辨率会产生相当大的计算成本。几项工作[A unified multi-scale deep convolutional neural network for fast object detection] [Feature pyramid networks for object detection][Ssd: Single shot multibox detector]提出通过重用来自CNN不同层的多尺度特征图来构建特征金字塔来解决这个问题。不同尺度的目标在不同的层次上被处理：大目标倾向于在高层次特征上被检测到，而小目标通常在低层次上被检测到。特征金字塔范式节省了在主干中从浅到深维护高分辨率特征图的计算成本。尽管如此，检测头对低级特征的计算复杂度仍然是巨大的。

例如，在RetinaNet中添加一个额外的金字塔级别P2将带来大约300%的计算量（FLOPs）和检测头的内存成本；因此在NVIDIA 2080Ti GPU上将推理速度从13.6 FPS严重降低到4.85 FPS。

研究者提出了一种简单有效的方法QueryDet，以节省检测头的计算量，同时提高小目标的性能。动机来自两个关键观察：

1）对低级特征的计算是高度冗余的。在大多数情况下，小目标的空间分布非常稀疏：它们只占据高分辨率特征图的一小部分；因此浪费了大量的计算。

2）特征金字塔是高度结构化的。虽然我们无法准确检测低分辨率特征图中的小物体，但我们仍然可以高度自信地推断出它们的存在和粗略位置。

利用上图两个观察结果的一个自然想法是，我们只能将检测头应用于小目标的空间位置。该策略需要以低成本和稀疏计算在所需的特征图上定位小物体的粗略位置。

在今天分享中，研究者提出了基于新型查询机制级联稀疏查询(CSQ)的QueryDet，如上图所示。递归地预测低分辨率特征图上小目标（查询）的粗略位置，并将它们用于指导更高分辨率特征图中的计算。借助稀疏卷积，显着降低了检测头对低级特征的计算成本，同时保持了对小目标的检测精度。请注意，新提出的方法旨在节省空间计算，因此它与其他加速方法兼容，如轻量级主干网、模型修剪、模型量化和知识蒸馏。

新框架

Revisiting RetinaNet

RetinaNet有两部分：一个带有FPN的主干网络，输出多尺度特征图和两个用于分类和回归的检测头。

ResNet+FPN：提取图片特征
Anchor：边框搜索
Class subnet (Focal Loss)：预测类别
Box subnet：预测边框坐标和大小

P3 head占据了将近一半的FLOPs，而低分辨率功能P4到P7的成本仅占15%。因此，如果想将FPN扩展到P2以获得更好的小目标性能，成本是无法承受的：高分辨率的P2和P3将占据总成本的75%。在下面风分析中，描述了QueryDet如何减少对高分辨率特征的计算并促进推理sp。

Accelerating Inference by Sparse Query

在基于FPN的检测器的设计中，小目标倾向于从高分辨率低级特征图中检测到。然而，由于小目标通常在空间中分布稀疏，高分辨率特征图上的密集计算范式效率非常低。受此观察的启发，研究者提出了一种从粗到细的方法来降低低级金字塔的计算成本：首先，在粗略特征图上预测小物体的粗略位置，然后集中计算精细特征图上的相应位置。这个过程可以看作是一个查询过程：粗略的位置是查询键，用于检测小目标的高分辨率特征是查询值；因此称提出的方法为QueryDet。方法的整个流程如下图所示。

Relationships with Related Work

请注意，尽管新提出的方法与使用RPN的两阶段目标检测器有一些相似之处，但它们在以下方面有所不同：

新方法仅在粗略预测中计算分类结果，而RPN同时计算分类和回归
RPN是在所有级别的全特征图上计算的，而QueryDet的计算是稀疏和选择性的
两阶段方法依靠像RoIAlign或RoIPooling这样的操作来将特征与第一阶段候选对齐。

尽管如此，它们并没有在新提出的方法中使用，因为研究者在粗略预测中没有框输出。值得注意的是，提出的方法与基于FPN的RPN兼容，因此可以将QueryDet合并到两阶段检测器中以加速提案生成。

实验及可视化

Comparison of accuracy (AP) and speed (FPS) of our QueryDet and the baseline RetinaNet on COCO mini-val set

Comparison of detection accuracy (AP) and speed (FPS) of our QueryDet and the baseline RetinaNet on VisDrone validation set

The speed and accuracy (AP and AR) trade-off with input images with different sizes on COCO and VisDrone. The trade-off is controlled by the the query threshold σ. The leftmost marker (the ▲ marker) of each curve stands for the result when Cascade Sparse Query is not applied. QD stands for QueryDet and RN stands for RetinaNet

Visualization of the detection results and the query heatmap for small objects of our QueryDet on MS-COCO and VisDrone2018 datasets. We remove class labels for VisDrone2018 to better distinguish the small bounding boxes

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

零样本通用分割框架（附源代码）

CRAS-YOLO：多类别船舶检测与分类模型

AI大模型落地不远了！首个全量化Vision Transformer的方法FQ-ViT（附源代码）

Drone-YOLO：一种有效的无人机图像目标检测

“空中城管”上岗丨城管无人机赋能城市精细化管理

CRAS-YOLO：多类别船舶检测与分类模型

YOLO界再起波澜！新一代目标检测器又有新突破！

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

Yolov7实战，实现网页端的实时目标检测

训练好的深度学习模型原来这样部署的！（干货满满，收藏慢慢看）

目标检测干货 | 多级特征重复使用大幅度提升检测精度（文末附论文下载）

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

超Transformer模型实现SOTA性能！CoMamba或成实时协同感知最有前景的解决方案？

独自一人，怒发顶会！

除了Yolo的其他选择，轻量级检测网络层出不穷（框架解析及部署实践）

AI顶会ICML收了一篇论文：没算法没实验，全靠idea思路好

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

YoloV：视频中目标实时检测依然很棒（附源代码下载）

图像自适应YOLO：恶劣天气下的目标检测（附源代码）

ResNet超强变体：京东AI新开源的计算机视觉模块！（附源代码）

最高加速9倍！字节跳动开源8比特混合精度Transformer引擎

水下检测+扩散模型：或成明年CVPR最大惊喜！

2024新技术：远距离的小目标也可以准确检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

视觉语言大模型新SOTA！高效微调方法性能碾压LoRA

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

旋转角度目标检测的重要性！！！（附源论文下载）

245个目标检测开源项目合集，建议收藏！

新技术：高效的自监督视觉预训练，局部遮挡再也不用担心！

最近几篇较好论文实现代码（附源代码下载）

华科&字节提出目标感知基础模型GLEE，一统所有目标感知任务

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

ICLR'25 惊现满分论文！！！走对捷径，高分论文并不难

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

EdgeYOLO：边缘设备上实时运行的目标检测器及Pytorch实现

实用教程详解：模型部署，用DNN模块部署YOLOv5目标检测（附源代码）

半监督辅助目标检测：自训练+数据增强提升精度（附源码下载）

为什么制造业都在用低代码提效？

欢迎加入“计算机视觉研究院”学习群

从源头消除大模型“幻觉”，性价比吊打传统微调方法

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

旋转角度目标检测的重要性！！！（附源论文下载）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

最后征稿+连续8届检索 | 第九届控制工程与人工智能国际会议(CCEAI 2025)会议地点已定！

智慧建筑：基于YOLOv7的建筑外墙缺陷检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉