【论文荐读】一种能够学习多尺度上下文感知特征的通用伪装目标检测框架

文摘   科技   2024-04-12 14:09   江苏  


标题:MSCAF-Net: A General Framework for Camouflaged Object Detection via Learning Multi-Scale Context-Aware Features

来源:IEEE Transactions on Circuits and Systems for Video Technology. 2023, 33(9): 4394-4947.
作者:Yu Liu, Haihang Li, Juan Cheng, Xun Chen
单位:the Anhui Province Key Laboratory of Measuring Theory and Precision Instrument, Hefei University of Technology

1、研究背景:

在自然界中,大多数动物试图通过身体的颜色、纹理和覆盖物与周围环境融为一体,以避免被捕食者发现。伪装对象检测(camouflage Object Detection, COD)的目的是对这些完美融入周围环境的物体进行分割。
传统的目标检测方法可以通过3D凹凸度、颜色、边缘、纹理等各种手工特征进行检测。但在背景高度相似的情况下,这些方法的检测有效性通常较低,所以许多基于深度学习的检测方法被提出并运用在伪装对象检测方面

2、论文创新点:

1、引入改进的PVTv2作为骨干网络进行多尺度特征提取。

2、通过ERF模块来优化每个尺度上特征以及使用CSFF模块将不同尺度的特征信息整合起来,以提高网络对图像的理解能力和表示能力。

3、利用DID模块模拟人类视觉系统的机制,生成初步定位图,然后使用定位图调节CSFF模块中的融合特征

3、研究方法:

在本文中,提出了一个通用的COD框架,称为MSCAF-Net,专注于学习多尺度上下文感知特征,用于解决伪装目标检测以及息肉分割、COVID-19肺部感染分割、缺陷检测、透明物体检测等许多相关视觉任务。

MSCAF-Net采用了PVTv2作为骨干网络,结合了三个主要模块:DID模块、ERF模块和CSFF模块。采用预先训练好的PVTv2作为骨干网络,从输入图像中提取多尺度特征;DID模块利用PVTv2骨干网络提取的多尺度特征对目标进行粗略定位,生成初步定位图;ERF模块的作用在于通过增强感受野来细化每个尺度上的特征;CSFF模块实现多尺度特征的充分交互,并利用DID模块获取的位置信息对每个CSFF模块中的多尺度融合特征进行调制。最后通过同时采用DID模块生成的初步定位图和四个阶段的特征图进行多级监督训练,以逐步重建最终的检测结果,如图1所示
图1 MSCAF-Net的总体架构

为了进一步丰富PVTv2在每个尺度上获得的上下文信息,论文基于人类视觉系统的特点,设计了一个ERF模块。采用了扩张性卷积和非对称卷积同时增强感受野,从而获得更丰富的多尺度上下文信息,ERF模块架构如图2所示

图2 ERF模块的架构

尺度变化同样是物体检测中的一个关键问题,因为物体的尺度在不同的场景下可能会有很大的变化。精细尺度下的低级特征对小目标的检测至关重要,而粗尺度下的高级特征对大目标的检测更为敏感。因此,尺度信息的多样性对检测精度具有重要意义。CSFF模块的设计进一步丰富了提取特征的尺度多样性。首先将下一阶段CSFF模块的输出与当前阶段ERF模块获得的特征进行串联运算融合,将连接的结果馈送到卷积层,再执行元素求和,得到的特征再通过卷积层进一步处理。最后,利用DID模块得到的初步定位图,将位置信息注入融合特征中,CSFF模块的架构如图3所示

图3 跨尺度特征融合(CSFF)模块的架构

论文的实验部分将提出的MSCAF-Net在标准数据集COD10K、CAMO、NC4K、CHAMELEON上进行检测评估,评价指标采用结构度量、平均增强度量、权重度量和平均绝对误差。

在对比实验中,将MSCAF-Net与其他伪装目标检测方法进行定量比较,结果如表1所示。在COD10K数据集上,MSCAF-Net分别提高了3.8%和7.0%的结构度量和权重度量,降低了27.3%的平均绝对误差。在大规模数据集NC4K上,该方法在结构度量、平均增强度量、权重度量分别提高了5.5%、3.3%和7.4%,平均绝对误差降低了30.4%,具有良好的泛化能力

表1 不同COD方法在4个基准数据集上的定量评价结果

通过消融实验验证了MSCAF-Net中ERF模块、DID模块和CSFF模块的有效性。设计了六种不同的模型进行比较,结果显示ERF模块可以明显提高检测精度,CSFF模块有助于更准确地发现伪装目标,而DID模块提供的粗略定位信息能够进一步改善模型性能。此外,CSFF和DID的联合利用显著提高了模型的性能,能够更好地检测伪装目标和背景之间的细微差异,结果如表2所示。

表2 四个基准数据集上不同模型在消融研究中的定量结果

通过消融实验验证PVTv2的有效性,使用了Res2Net-50作为骨干网络,并与MSCAF-Net中使用的PVTv2进行了比较,结果如图4显示。PVTv2相对于Res2Net-50表现出更清晰的优势,这表明PVTv2的全局建模能力对于挖掘上下文信息和提高检测精度非常有效。此外,即使使用Res2Net-50作为骨干网络,MSCAF-Net仍然优于其他伪装目标检测方法

图4 验证PVTv2骨干网有效性的定量结果

最后将MSCAF-Net用于息肉分割、COVID-19肺部感染分割、缺陷检测、透明物体检测等许多相关视觉任务。在息肉分割实验中,在Kvasir、CVC-ClinicCB、ETIS、ColonDB和CVC-T数据集上进行测试,将MSCAF-Net与其他八种检测方法进行定量比较,结果如表3、4、5、6、7所示,MSCAF-Net在所有五个数据集上都取得了比其他方法更好的结果,优势明显

3 不同息肉分割方法在ColonDB上的定量评价结果

4 不同息肉分割方法在ETIS上的定量评价结果

5 不同息肉分割方法在Kvasir上的定量评价结果
6 不同息肉分割方法在CVC-T的定量评价结果
7 不同息肉分割方法在ClinicCB的定量评价结果

4、结论:

论文提出了一个新的COD框架MSCAF-Net,专注于多尺度上下文感知特征学习。采用PVTv2作为骨干网络,在多个尺度上有效地提取全局上下文信息。通过ERF模块增强接受域来细化每个尺度的特征,使用CSFF模块多尺度特征融合来丰富提取特征的尺度多样性,以及利用DID模块提供粗略的定位信息,用于调制CSFF模块中得到的融合特征,以实现更精确的检测。

该模型在息肉分割、COVID-19肺部感染分割、透明物体检测和缺陷检测等多种与COD相关的视觉任务中表现出较高的通用性。未来还将进一步尝试通过在检测模型中引入一些特定的细节增强或超分辨率模块来提高模型的性能



智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章