【魔改UNet系列】ID-UNet: 一种用于红外小目标分割的密集连接UNet架构

科技   2024-10-31 10:21   中国香港  
点击上方小白学视觉”,选择加"星标"或“置顶
重磅干货,第一时间送达

论文信息

题目:ID-UNet: A densely connected UNet architecture for infrared small target segmentation

ID-UNet:一种用于红外小目标分割的密集连接UNet架构

作者:Diankun Chen, Feiwei Qin, Ruiquan Ge, Yong Peng, Changmiao Wang

源码:https://github.com/AngryWaves/ID-UNet

论文创新点

ID-UNet模型的提出,针对红外小目标分割任务,展现了以下四个主要创新点:

  1. 密集连接网络结构:作者提出了一种基于UNet的密集连接网络ID-UNet,该网络通过跨层密集连接充分利用特征图,同时通过线性参数增长而非传统的指数增长,显著减少了模型参数,提高了效率。

  2. 红外小目标特征提取(ISTFE)模块:研究中设计了一个专门针对红外小目标的特征提取模块ISTFE,该模块通过特征对齐和融合,增强了多级和多尺度特征的提取能力,有效提取小目标特征

  3. 全尺寸深度监督:ID-UNet引入了全尺寸深度监督机制,通过在每个解码器层级上独立的侧输出,增强了模型对不同层级特征表示的学习与利用,提升了小目标的整体感知和分割精度

  4. 优化的参数配置:与传统UNet模型相比,ID-UNet通过优化参数配置,实现了参数数量的大幅减少(减少了81%),同时保持了模型的性能,使得模型在保持高效性能的同时,能够准确分割不同大小的红外小目标

关键词

红外小目标,图像分割,多尺度特征融合,密集连接,低参数

摘要

现有的基于CNN的方法在有效和高效地处理复杂场景中不同尺度的小型红外目标时面临挑战,主要是由于池化层引起的聚合效应。因此,关键的深层目标可能会丢失。为了应对这一挑战,本研究提出了一种红外深度密集连接网络,称为ID-UNet。具体来说,本研究设计了一个特征提取模块,名为红外小目标特征提取(ISTFE),嵌入在ID-UNet架构中,以实现深层高级和浅层低级特征之间的跨层和连续交互。ISTFE内的连续连接有助于在深层保留红外小目标的语义信息,以及在浅层保留分辨率信息。此外,UNet结构参数被压缩,与传统UNet配置相比,参数减少了81%。在三个典型的公共数据集上的评估结果表明,所提出的方法在分割指标上超越了所有其他方法,包括交集比(IoU)、归一化IoU(nIoU)和F1分数。所提出的方法实现了高精度分割和低计算需求的双赢。

3. 提出的方法

3.1. 总体架构

UNet网络以其编码器-解码器架构而闻名,广泛用于图像分割任务。它依赖于池化层在编码器中对特征信息进行下采样,并通过上采样在解码器中放大特征。跳跃连接用于将编码器中的低级特征与解码器中的高级特征合并。虽然这种设计对于提取大目标的特征非常有效,但在多次卷积层的背景下,它经常忽略了红外小目标分割中的小目标特征。为了解决编码器和解码器之间信息传递过程中的特征丢失和退化问题,本研究引入了重新设计的连接方法。通过实施密集连接,增强了信息流,从而更有效地保留了小目标特征,以改善特征提取。因此,本研究提出了一种从信息流的角度增强UNet网络的新结构,名为ID-UNet。ID-UNet模型的总体架构如图1所示。在UNet网络的基础上,该模型通过引入密集连接,并通过对ISFTE模块进行特征对齐和融合,加强了上下层之间的信息交换。同时,通过应用全尺寸深度监督,ID-UNet模型有效地保留了小目标信息,从而提高了红外小目标分割任务的性能。最后,本研究优化了UNet结构的参数,使其更加高效。



3.2. 与UNet++的比较分析

在分割领域,同时准确划分各种大小的物体是一个相当大的挑战。UNet++模型表明,较浅的UNet架构擅长分割较小的物体,而较深的UNet配置更适合较大的物体。为了应对这一挑战,UNet++在不同深度的UNet架构之间实现了编码器共享,使模型能够有效处理不同大小的物体。此外,它还采用了深度监督来指导不同深度的UNet架构的训练。通过密集地连接多个UNet架构,UNet++巧妙地结合了它们的能力,实现了对不同大小物体的自适应分割,从而提高了原始UNet的整体性能。尽管取得了这些进步,该方法仍有某些局限性。较深的UNet架构在分割小物体时效果较差,因为增加的深度和下采样操作扩大了特征的视野,可能导致丢失详细特征。相比之下,ID-UNet采用了更简单的方法。它不是引入额外的浅层UNet结构,而是通过密集连接加强了浅层和深层特征之间的融合,保留了深层编码过程中的小物体特征,并在解码过程中最小化了背景特征的损失。鉴于红外小目标特征与复杂背景特征相比比例显著较小,下采样过程中的直接连接可能会削弱这些特征,使其被背景特征所掩盖。通过在不同层之间实施密集连接,小目标特征可以无缝地集成到更深层的高级特征中,且损失最小。在全尺寸模型上引入深度监督,使每个层都具备图像分割能力,从而增强了模型的鲁棒性。



3.3. 特征提取模块

如图2所示,本研究提出了一个基于多尺度特征提取的红外小目标模块,名为ISTFE。ISTFE由两个组件组成:特征对齐和特征融合。特征对齐模块用于调整从不同尺度提取的特征图,使其大小和通道数相同,确保信息平衡。特征融合模块连接多尺度特征,并采用一系列连续的残差块来合并这些特征。增加的通道和空间注意力有效地帮助提取红外小目标的浅层和深层特征。随后,本研究将详细介绍这两个模块。特征对齐:本研究开发的特征对齐模块如图2(a)所示。该模块解决了特征大小变化的固有效率问题,并统一了它们以实现高效性能。本研究使用最大池化层进行下采样过程,并实现双线性上采样进行上采样过程。为了更全面、简洁地介绍这种结构,本研究介绍了ISTFE的第层(),其中表示连接编码第层,假定为沿编码器的第层下采样层。随后,在时,每个节点接收来自前一层密集连接的特征。
其中表示池化层,残差块将输入维度均匀降低到固定通道值为16,如本文所述。符号表示框架内的连接层。此外,表示特征增强模块。特征融合:在特征提取模块之后,本研究开发了特征融合模块,旨在整合生成的多级特征,如图2(b)所示。该模块对齐特征图,以增强小目标的分割精度和鲁棒性。本研究采用拼接技术来融合特征图,并通过残差网络整合得到的拼接特征图,确保全面和一致的特征信息。通过拼接特征图,并通过残差网络融合和交互,本研究整合了不同尺度的特征信息,从而提高了小目标的分割精度和鲁棒性。该架构由多个堆叠的残差块、空间注意力模块和通道注意力模块组成。引入的残差连接缓解了信息传递过程中的梯度消失问题,最终增强了网络的训练和泛化能力,提高了小目标的分割精度和鲁棒性。此外,通道和空间注意力调整通道和空间特征的权重,增强了模型对红外小目标的感知和抗干扰能力。
通道注意力(CA)过程如下所述:
其中表示逐元素乘法,表示sigmoid函数,分别表示平均池化和最大池化,步长为2。共享网络由具有隐藏层的多层感知器组成。
空间注意力(SA)过程的研究总结如下,类似于通道注意力过程:
其中表示滤波器大小为7×7的卷积操作。最终的加上原始输入形成残差结构。
总之,ISTFE模块是一个高效准确的小目标提取模块,确保了可靠分割所需的精度和鲁棒性。

3.4. 全尺寸深度监督

如图3所示,为了进一步整合红外小目标的多特征信息,ID-UNet引入了全尺寸深度监督。与UNet++中的深度监督相比,ID-UNet在每个解码器级别都直接受到真实标签的监督,这意味着在每个解码器级别都会生成一个独立的侧输出,从而实现全尺寸深度监督的目标。这种策略使模型能够全面学习和利用不同解码器级别的特征表示,增强了对小目标的整体感知和分割精度。通过这种全尺寸深度监督机制,ID-UNet可以更好地理解和捕获红外小目标的层次结构信息。
全尺寸深度监督包括每个解码器和真实标签监督的损失总和,其中分配给较浅层产生的损失的权重更高。这种加权策略旨在优先指导和纠正模型在较浅解码器级别的表现,承认它们在塑造有效分割的层次特征中的关键作用。通过整合这些加权损失,全尺寸深度监督机制确保模型从较浅层获得更强的信号,促进了对红外小目标更局部化和详细特征的学习。深度监督损失公式如下:
其中表示不同的权重值,表示在第层产生的损失。在实验设置中,每个被设置为的两倍。

4. 实验

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲
小白学视觉公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群


欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


小白学视觉
哈工大在读博士的公众号,《OpenCV 4快速入门》的作者,面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术,深度学习等内容。
 最新文章