顶刊 TRGS'24 | 针对小型目标检测的增强层间特征相关性的轻量级融合策略

科技   2024-10-18 10:06   中国香港  

unset

点击下方深度学习爱好者”,选择加"星标"或“置顶


unset论文详情unsetunset

A Lightweight Fusion Strategy With Enhanced Interlayer Feature Correlation for Small Object Detection

针对小型目标检测的增强层间特征相关性的轻量级融合策略

作者:Yao Xiao, Tingfa Xu, Xin Yu, Yuqiang Fang, and Jianan Li

源码链接:https://github.com/nuliweixiao/EFC.git

unsetunset摘要unsetunset

无人机图像中小目标的检测由于分辨率低和背景融合,导致特征信息有限,因此面临挑战。多尺度特征融合可以通过捕获不同尺度的信息来增强检测,但传统策略存在不足。简单的连接或加法操作没有充分利用多尺度融合的优势,导致特征之间的相关性不足。这种不足限制了小目标的检测,尤其是在复杂背景和人口密集地区。为了解决这个问题并有效利用有限的计算资源,我们提出了一种基于增强层间特征相关性(EFC)的轻量级融合策略,以替代特征金字塔网络(FPN)中的传统特征融合策略。特征金字塔中不同层的语义表达不一致。在EFC中,分组特征聚焦单元(GFF)通过关注不同特征的上下文信息来增强每一层的特征相关性。多级特征重构模块(MFR)有效地重构并转换金字塔中每一层的强弱信息,以减少冗余特征融合并保留更多关于深层网络中小目标的信息。值得注意的是,所提出的方法即插即用,可广泛应用于各种基础网络。在VisDrone、无人机基准目标检测和跟踪(UAVDT)和微软通用对象上下文(COCO)上的广泛实验和综合评估证明了其有效性。使用通用焦点损失(GFL)作为基线,在有大量小目标的VisDrone数据集上,所提出的方法将检测平均精度均值(mAP)提高了1.7%,超过了众多轻量级最新方法,并显著减少了颈部的参数和GFLOPs。

unsetunset关键词unsetunset

特征融合,轻量级,小目标检测。

unsetunset方法unsetunset

在本节中,我们详细介绍了我们提出的轻量级融合策略EFC,旨在优化不同层之间特征的融合。EFC由两个主要组件组成:GFF和MFR。GFF增强了相邻特征之间的相关性,并专注于关键信息。MFR分离了强和弱空间信息,使用轻量级卷积模块实现精确的特征转换。这种方法减少了无关信息的提取,同时保留了小目标在深层网络中的重要细节。

A. 分组特征聚焦单元

  1. 空间集中:为了有效地结合来自主干网络的相邻层的语义信息,这些层具有不同程度的抽象语义信息,并从不同通道提取相关特征信息,我们引入了GFF。该单元增强了特征之间的相关性,并提高了信息的表达。如图2所示, 代表不同阶段的单级特征。低分辨率特征 首先使用线性插值上采样,然后通过1×1卷积确保特征图的通道数保持一致。然后,这个处理后的特征与高分辨率特征 逐元素相加以获得粗略特征 。为了提炼这个特征并获得上下文感知信息,我们使用1×1卷积将其压缩成单通道以聚合空间信息,然后通过sigmoid激活函数生成空间聚合权重 。包含空间信息的特征 可以计算为:
其中 表示逐元素乘法, 表示逐元素求和。Sigmoid表示激活函数。Conv表示1×1卷积层。
  1. 特征相关性:为了增强相邻特征之间的相关性,我们将空间聚合后的特征 沿通道维度分成n组,并在每组内进行特征交互。具体来说,我们通过卷积模块细化每组内相邻通道的特征信息 。不同通道中的全局特征在组 经过变换以生成捕获通道间特征相关性的注意力掩码 。然后应用这个掩码 到细化后的特征上。最后,将每组的特征连接起来形成聚合的高相关性相邻特征 。整个计算过程如下:
其中F和N分别表示融合交互层和卷积变换层。表示连接。表示每组高相关性特征。Softmax用作激活函数以生成注意力掩码。
  1. 空间映射归一化:最后,我们将分组聚合特征 嵌入到具有多层原始特征融合(MFF)的归一化层中。我们使用它的均值和标准差归一化特征 ,从而整合了来自较小目标的更多空间位置信息。通过MFF-GN,我们获得了具有强特征相关性和丰富空间信息的特征 ,可以表示为:
其中mean(·)和std(·)分别表示均值和标准差。通过采用这种方法,我们充分利用了相邻层的语义信息,并提取了不同通道的相关特征,从而增强了整体特征表示。

B. 多级特征重构模块

为了减少无关特征的融合和提取,并最小化深层网络中目标信息的丢失,我们设计了MFR。重构特征的目的是将来自主干网络不同阶段的特征图中的丰富信息与较弱信息分离,并独立处理它们。这允许在保留尽可能多的特征的同时,只使用最少的计算资源来转换较弱特征。由于小目标的信息在特征提取和融合过程中特别容易丢失,这种重构和独立转换的过程在一定程度上有助于减少小目标信息的丢失。
  1. 特征分离:具体来说,如前所述,我们通过上采样、卷积和逐元素加法等操作从不同阶段获得特征 来自单级特征 。接下来,我们应用平均池化和sigmoid函数生成每个通道上的信息权重,作为特征权重阈值 可以表示为:
其中avg(·)表示平均池化。单级特征 分别通过批量归一化(BN)[35]处理,并用sigmoid函数激活,生成每个空间位置的独特权重信息 ,这表明了不同特征图的重要性。
其中BN代表批量归一化[35]。接下来,不同阶段的权重信息 然后与特征权重阈值 进行比较,以获得捕获空间信息强度的注意力图。随后,不同层的强和弱特征被分别聚合以产生丰富的特征和弱特征。
其中我们使用阈值函数来分离强和弱特征信息。
  1. 定向融合:强注意力图 分别映射到特征 上,然后这两个特征部分被融合以生成丰富的特征。类似地,弱注意力图映射到 上以生成弱特征。整个计算过程如下:
其中 表示通过重构生成的丰富特征, 表示通过重构生成的弱特征。
  1. 特征转换:我们分别转换特征 。对于丰富的特征,我们应用1×1卷积以生成显示更详细信息的特征图 。对于弱特征, 被送入设计用于使用更少的计算资源产生具有更丰富语义信息的特征图的特征转换单元(FTU)。如图3所示,我们采用深度可分离卷积,其计算和参数开销较低。由于深度可分离卷积会破坏通道间的信息流,我们在通道之间生成特征调制。在深度可分离卷积操作之后,我们执行加权映射以增强通道间的信息流。加权特征 通过自适应平均池化和卷积层处理,可以表示为:
其中T代表卷积变换层,A代表自适应平均池化层。
  1. 逐级融合:最后,我们将通过特征转换单元处理的特征 与显示更详细信息的特征图 合并,生成特征 。这个特征包含了详细的信息和跨通道信息交换。 的计算如下:
总的来说,我们使用MFR合并两层不同特征,得到具有更多细节的丰富特征,同时减少计算资源的使用。这种方法实现了对各个特征的特定转换,从而最小化了冗余特征的生成。

C. EFC作为特征融合策略

在GFF的输出之后,特征 在不同级别上表现出相关性,专注于感知空间上下文。由MFR生成的特征 保留了有关小尺度目标的大量信息,并增强了语义表达。生成的特征 来自于在更高级别上整合 ,确保了与小目标相关的空间和语义信息的一致表示。EFC替换了相邻特征的传统直接融合操作,例如简单的接触或添加方法。

unsetunsetIV. 实验unsetunset

unsetunset声明unsetunset

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
下载1:Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复:Pytorch常用函数手册即可下载全网第一份Pytorch常用函数手册,涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。

下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

交流群


欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

深度学习爱好者
分享机器学习、深度学习和Python等知识与原理,每天分享深度学习与计算机视觉领域的经典和最新的论文总结,带读者一起跟踪前言科技!
 最新文章