顶刊 TRGS'24 | 针对小型目标检测的增强层间特征相关性的轻量级融合策略

科技 2024-10-18 10:06 中国香港

unset

点击下方“深度学习爱好者”，选择加"星标"或“置顶”

unset论文详情unsetunset

A Lightweight Fusion Strategy With Enhanced Interlayer Feature Correlation for Small Object Detection

针对小型目标检测的增强层间特征相关性的轻量级融合策略

作者：Yao Xiao, Tingfa Xu, Xin Yu, Yuqiang Fang, and Jianan Li

源码链接：https://github.com/nuliweixiao/EFC.git

unsetunset摘要unsetunset

无人机图像中小目标的检测由于分辨率低和背景融合，导致特征信息有限，因此面临挑战。多尺度特征融合可以通过捕获不同尺度的信息来增强检测，但传统策略存在不足。简单的连接或加法操作没有充分利用多尺度融合的优势，导致特征之间的相关性不足。这种不足限制了小目标的检测，尤其是在复杂背景和人口密集地区。为了解决这个问题并有效利用有限的计算资源，我们提出了一种基于增强层间特征相关性（EFC）的轻量级融合策略，以替代特征金字塔网络（FPN）中的传统特征融合策略。特征金字塔中不同层的语义表达不一致。在EFC中，分组特征聚焦单元（GFF）通过关注不同特征的上下文信息来增强每一层的特征相关性。多级特征重构模块（MFR）有效地重构并转换金字塔中每一层的强弱信息，以减少冗余特征融合并保留更多关于深层网络中小目标的信息。值得注意的是，所提出的方法即插即用，可广泛应用于各种基础网络。在VisDrone、无人机基准目标检测和跟踪（UAVDT）和微软通用对象上下文（COCO）上的广泛实验和综合评估证明了其有效性。使用通用焦点损失（GFL）作为基线，在有大量小目标的VisDrone数据集上，所提出的方法将检测平均精度均值（mAP）提高了1.7%，超过了众多轻量级最新方法，并显著减少了颈部的参数和GFLOPs。

unsetunset关键词unsetunset

特征融合，轻量级，小目标检测。

unsetunset方法unsetunset

在本节中，我们详细介绍了我们提出的轻量级融合策略EFC，旨在优化不同层之间特征的融合。EFC由两个主要组件组成：GFF和MFR。GFF增强了相邻特征之间的相关性，并专注于关键信息。MFR分离了强和弱空间信息，使用轻量级卷积模块实现精确的特征转换。这种方法减少了无关信息的提取，同时保留了小目标在深层网络中的重要细节。

A. 分组特征聚焦单元

空间集中：为了有效地结合来自主干网络的相邻层的语义信息，这些层具有不同程度的抽象语义信息，并从不同通道提取相关特征信息，我们引入了GFF。该单元增强了特征之间的相关性，并提高了信息的表达。如图2所示，和代表不同阶段的单级特征。低分辨率特征首先使用线性插值上采样，然后通过1×1卷积确保特征图的通道数保持一致。然后，这个处理后的特征与高分辨率特征逐元素相加以获得粗略特征。为了提炼这个特征并获得上下文感知信息，我们使用1×1卷积将其压缩成单通道以聚合空间信息，然后通过sigmoid激活函数生成空间聚合权重。包含空间信息的特征可以计算为：

其中表示逐元素乘法，表示逐元素求和。Sigmoid表示激活函数。Conv表示1×1卷积层。

特征相关性：为了增强相邻特征之间的相关性，我们将空间聚合后的特征沿通道维度分成n组，并在每组内进行特征交互。具体来说，我们通过卷积模块细化每组内相邻通道的特征信息。不同通道中的全局特征在组经过变换以生成捕获通道间特征相关性的注意力掩码。然后应用这个掩码到细化后的特征上。最后，将每组的特征连接起来形成聚合的高相关性相邻特征。整个计算过程如下：

其中F和N分别表示融合交互层和卷积变换层。表示连接。表示每组高相关性特征。Softmax用作激活函数以生成注意力掩码。

空间映射归一化：最后，我们将分组聚合特征嵌入到具有多层原始特征融合（MFF）的归一化层中。我们使用它的均值和标准差归一化特征，从而整合了来自较小目标的更多空间位置信息。通过MFF-GN，我们获得了具有强特征相关性和丰富空间信息的特征，可以表示为：

其中mean(·)和std(·)分别表示均值和标准差。通过采用这种方法，我们充分利用了相邻层的语义信息，并提取了不同通道的相关特征，从而增强了整体特征表示。

B. 多级特征重构模块

为了减少无关特征的融合和提取，并最小化深层网络中目标信息的丢失，我们设计了MFR。重构特征的目的是将来自主干网络不同阶段的特征图中的丰富信息与较弱信息分离，并独立处理它们。这允许在保留尽可能多的特征的同时，只使用最少的计算资源来转换较弱特征。由于小目标的信息在特征提取和融合过程中特别容易丢失，这种重构和独立转换的过程在一定程度上有助于减少小目标信息的丢失。

特征分离：具体来说，如前所述，我们通过上采样、卷积和逐元素加法等操作从不同阶段获得特征来自单级特征和。接下来，我们应用平均池化和sigmoid函数生成每个通道上的信息权重，作为特征权重阈值。可以表示为：

其中avg(·)表示平均池化。单级特征和分别通过批量归一化（BN）[35]处理，并用sigmoid函数激活，生成每个空间位置的独特权重信息和，这表明了不同特征图的重要性。

其中BN代表批量归一化[35]。接下来，不同阶段的权重信息和然后与特征权重阈值进行比较，以获得捕获空间信息强度的注意力图。随后，不同层的强和弱特征被分别聚合以产生丰富的特征和弱特征。

其中我们使用阈值函数来分离强和弱特征信息。

定向融合：强注意力图和分别映射到特征上，然后这两个特征部分被融合以生成丰富的特征。类似地，弱注意力图映射到上以生成弱特征。整个计算过程如下：

其中表示通过重构生成的丰富特征，表示通过重构生成的弱特征。

特征转换：我们分别转换特征和。对于丰富的特征，我们应用1×1卷积以生成显示更详细信息的特征图。对于弱特征，被送入设计用于使用更少的计算资源产生具有更丰富语义信息的特征图的特征转换单元（FTU）。如图3所示，我们采用深度可分离卷积，其计算和参数开销较低。由于深度可分离卷积会破坏通道间的信息流，我们在通道之间生成特征调制。在深度可分离卷积操作之后，我们执行加权映射以增强通道间的信息流。加权特征通过自适应平均池化和卷积层处理，可以表示为：

其中T代表卷积变换层，A代表自适应平均池化层。

逐级融合：最后，我们将通过特征转换单元处理的特征与显示更详细信息的特征图合并，生成特征。这个特征包含了详细的信息和跨通道信息交换。的计算如下：

总的来说，我们使用MFR合并两层不同特征，得到具有更多细节的丰富特征，同时减少计算资源的使用。这种方法实现了对各个特征的特定转换，从而最小化了冗余特征的生成。

C. EFC作为特征融合策略

在GFF的输出之后，特征在不同级别上表现出相关性，专注于感知空间上下文。由MFR生成的特征保留了有关小尺度目标的大量信息，并增强了语义表达。生成的特征来自于在更高级别上整合和，确保了与小目标相关的空间和语义信息的一致表示。EFC替换了相邻特征的传统直接融合操作，例如简单的接触或添加方法。

unsetunsetIV. 实验unsetunset

unsetunset声明unsetunset

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。

下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247568979&idx=1&sn=898dcc263e3736dc06c06fb4e9678359

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

特征选择：11 种特征选择策略总结！

YOLO 系列目标检测大合集

Swin-UMamba：基于ImageNet的预训练的基于Mamba的UNet网络

项目案例：基于 YOLO 的铝型材表面缺陷识别

Batch Normalization原理与实战

Jupyter Notebook 五大效率插件

卷积核的基本概况

【魔改UNet系列】Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba

padding 在深度学习模型中重要吗？

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

如何评价Ultralytics出的YOLOv11？

有哪些东西是你读博士以后才懂的？

Jupyter Lab 十大高生产力插件

AODet: 基于 Transformers 的前景区域航空目标检测

黄仁勋预言成真了！！

【魔改UNet系列】LightM-UNet：Mamba与UNet结合实现轻量级图像分割

使用姿态估计轻松辅助健身房训练

传统图像处理还有前景么？

使用YOLO检测眼睛闭合 | 设定警报

一个神经元顶5到8层神经网络，深度学习的计算复杂度被生物碾压了

稚晖君玩了个大的：开源人形机器人全套图纸+代码

最全的损失函数汇总

pytorch优化器与学习率设置详解

PyCharm vs VSCode，是时候改变你的 IDE 了！

特征提取：传统算法 vs 深度学习

注意力机制是如何学习到模型所应注意的区域的？

深度学习常用损失函数总览：基本形式、原理、特点

一份微调YOLOv11的小指南

顶会 MICCAI'24 | LB-UNet：一种用于皮肤病变分割的轻量级边界辅助UNet

EI会议精选盘点：高校联办，IEEE Fellow助阵，可推优发表SCI

顶刊MIA'24 | 用于OCT图像分割的双坐标交叉注意力Transformer

如何写好一篇高质量的IEEE/ACM Transaction级别的计算机科学论文?

一个小改动，CNN输入固定尺寸图像改为任意尺寸图像

使用YOLOv8和ByteTracker进行实时人员跟踪和计数

用python写一个图像文字识别OCR工具

我导师啥时候得诺奖！Hinton致谢自己的研究生：“活都是他们干的”！

如何系统得对目标检测模型的误差分析？

【魔改YOLO系列】YOLO-SLD: 一种用于车牌检测的改进型YOLO注意力机制

一个博士生接受怎样的训练，才是完整而全面的科研训练？

一文让你通俗理解奇异值分解

YOLO-CCS：将坐标注意力机制引入YOLO用于车辆检测

针对不平衡问题建模的有趣Loss

使用YOLO World进行高性能目标检测

顶刊 TRGS'24 | 针对小型目标检测的增强层间特征相关性的轻量级融合策略

顶刊 MIA'24 | MA-SAM: 用于医学图像分割的模态无关SAM适应框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉