标题:MSCAF-Net: A General Framework for Camouflaged Object Detection via Learning Multi-Scale Context-Aware Features
1、研究背景:
1、引入改进的PVTv2作为骨干网络进行多尺度特征提取。
2、通过ERF模块来优化每个尺度上特征以及使用CSFF模块将不同尺度的特征信息整合起来,以提高网络对图像的理解能力和表示能力。
3、利用DID模块模拟人类视觉系统的机制,生成初步定位图,然后使用定位图调节CSFF模块中的融合特征。
3、研究方法:
在本文中,提出了一个通用的COD框架,称为MSCAF-Net,专注于学习多尺度上下文感知特征,用于解决伪装目标检测以及息肉分割、COVID-19肺部感染分割、缺陷检测、透明物体检测等许多相关视觉任务。
为了进一步丰富PVTv2在每个尺度上获得的上下文信息,论文基于人类视觉系统的特点,设计了一个ERF模块。采用了扩张性卷积和非对称卷积同时增强感受野,从而获得更丰富的多尺度上下文信息,ERF模块架构如图2所示。
尺度变化同样是物体检测中的一个关键问题,因为物体的尺度在不同的场景下可能会有很大的变化。精细尺度下的低级特征对小目标的检测至关重要,而粗尺度下的高级特征对大目标的检测更为敏感。因此,尺度信息的多样性对检测精度具有重要意义。CSFF模块的设计进一步丰富了提取特征的尺度多样性。首先将下一阶段CSFF模块的输出与当前阶段ERF模块获得的特征进行串联运算融合,将连接的结果馈送到卷积层,再执行元素求和,得到的特征再通过卷积层进一步处理。最后,利用DID模块得到的初步定位图,将位置信息注入融合特征中,CSFF模块的架构如图3所示。
论文的实验部分将提出的MSCAF-Net在标准数据集COD10K、CAMO、NC4K、CHAMELEON上进行检测评估,评价指标采用结构度量、平均增强度量、权重度量和平均绝对误差。
在对比实验中,将MSCAF-Net与其他伪装目标检测方法进行定量比较,结果如表1所示。在COD10K数据集上,MSCAF-Net分别提高了3.8%和7.0%的结构度量和权重度量,降低了27.3%的平均绝对误差。在大规模数据集NC4K上,该方法在结构度量、平均增强度量、权重度量分别提高了5.5%、3.3%和7.4%,平均绝对误差降低了30.4%,具有良好的泛化能力。
表1 不同COD方法在4个基准数据集上的定量评价结果
通过消融实验验证了MSCAF-Net中ERF模块、DID模块和CSFF模块的有效性。设计了六种不同的模型进行比较,结果显示ERF模块可以明显提高检测精度,CSFF模块有助于更准确地发现伪装目标,而DID模块提供的粗略定位信息能够进一步改善模型性能。此外,CSFF和DID的联合利用显著提高了模型的性能,能够更好地检测伪装目标和背景之间的细微差异,结果如表2所示。
通过消融实验验证PVTv2的有效性,使用了Res2Net-50作为骨干网络,并与MSCAF-Net中使用的PVTv2进行了比较,结果如图4显示。PVTv2相对于Res2Net-50表现出更清晰的优势,这表明PVTv2的全局建模能力对于挖掘上下文信息和提高检测精度非常有效。此外,即使使用Res2Net-50作为骨干网络,MSCAF-Net仍然优于其他伪装目标检测方法。
表3 不同息肉分割方法在ColonDB上的定量评价结果
表4 不同息肉分割方法在ETIS上的定量评价结果
4、结论:
论文提出了一个新的COD框架MSCAF-Net,专注于多尺度上下文感知特征学习。采用PVTv2作为骨干网络,在多个尺度上有效地提取全局上下文信息。通过ERF模块增强接受域来细化每个尺度的特征,使用CSFF模块多尺度特征融合来丰富提取特征的尺度多样性,以及利用DID模块提供粗略的定位信息,用于调制CSFF模块中得到的融合特征,以实现更精确的检测。
该模型在息肉分割、COVID-19肺部感染分割、透明物体检测和缺陷检测等多种与COD相关的视觉任务中表现出较高的通用性。未来还将进一步尝试通过在检测模型中引入一些特定的细节增强或超分辨率模块来提高模型的性能。