【论文荐读】一种能够学习多尺度上下文感知特征的通用伪装目标检测框架

文摘科技 2024-04-12 14:09 江苏

标题：MSCAF-Net: A General Framework for Camouflaged Object Detection via Learning Multi-Scale Context-Aware Features

来源：IEEE Transactions on Circuits and Systems for Video Technology. 2023, 33(9): 4394-4947.

作者：Yu Liu, Haihang Li, Juan Cheng, Xun Chen

单位：the Anhui Province Key Laboratory of Measuring Theory and Precision Instrument, Hefei University of Technology

1、研究背景：

在自然界中，大多数动物试图通过身体的颜色、纹理和覆盖物与周围环境融为一体，以避免被捕食者发现。伪装对象检测(camouflage Object Detection, COD)的目的是对这些完美融入周围环境的物体进行分割。

传统的目标检测方法可以通过3D凹凸度、颜色、边缘、纹理等各种手工特征进行检测。但在背景高度相似的情况下，这些方法的检测有效性通常较低，所以许多基于深度学习的检测方法被提出并运用在伪装对象检测方面。

2、论文创新点：

1、引入改进的PVTv2作为骨干网络进行多尺度特征提取。

2、通过ERF模块来优化每个尺度上特征以及使用CSFF模块将不同尺度的特征信息整合起来，以提高网络对图像的理解能力和表示能力。

3、利用DID模块模拟人类视觉系统的机制，生成初步定位图，然后使用定位图调节CSFF模块中的融合特征。

3、研究方法：

在本文中，提出了一个通用的COD框架，称为MSCAF-Net，专注于学习多尺度上下文感知特征，用于解决伪装目标检测以及息肉分割、COVID-19肺部感染分割、缺陷检测、透明物体检测等许多相关视觉任务。

MSCAF-Net采用了PVTv2作为骨干网络，结合了三个主要模块：DID模块、ERF模块和CSFF模块。采用预先训练好的PVTv2作为骨干网络，从输入图像中提取多尺度特征；DID模块利用PVTv2骨干网络提取的多尺度特征对目标进行粗略定位，生成初步定位图；ERF模块的作用在于通过增强感受野来细化每个尺度上的特征；CSFF模块实现多尺度特征的充分交互，并利用DID模块获取的位置信息对每个CSFF模块中的多尺度融合特征进行调制。最后通过同时采用DID模块生成的初步定位图和四个阶段的特征图进行多级监督训练，以逐步重建最终的检测结果，如图1所示。

图1 MSCAF-Net的总体架构

为了进一步丰富PVTv2在每个尺度上获得的上下文信息，论文基于人类视觉系统的特点，设计了一个ERF模块。采用了扩张性卷积和非对称卷积同时增强感受野，从而获得更丰富的多尺度上下文信息，ERF模块架构如图2所示。

图2 ERF模块的架构

尺度变化同样是物体检测中的一个关键问题，因为物体的尺度在不同的场景下可能会有很大的变化。精细尺度下的低级特征对小目标的检测至关重要，而粗尺度下的高级特征对大目标的检测更为敏感。因此，尺度信息的多样性对检测精度具有重要意义。CSFF模块的设计进一步丰富了提取特征的尺度多样性。首先将下一阶段CSFF模块的输出与当前阶段ERF模块获得的特征进行串联运算融合，将连接的结果馈送到卷积层，再执行元素求和，得到的特征再通过卷积层进一步处理。最后，利用DID模块得到的初步定位图，将位置信息注入融合特征中，CSFF模块的架构如图3所示。

图3 跨尺度特征融合(CSFF)模块的架构

论文的实验部分将提出的MSCAF-Net在标准数据集COD10K、CAMO、NC4K、CHAMELEON上进行检测评估，评价指标采用结构度量、平均增强度量、权重度量和平均绝对误差。

在对比实验中，将MSCAF-Net与其他伪装目标检测方法进行定量比较，结果如表1所示。在COD10K数据集上，MSCAF-Net分别提高了3.8%和7.0%的结构度量和权重度量，降低了27.3%的平均绝对误差。在大规模数据集NC4K上，该方法在结构度量、平均增强度量、权重度量分别提高了5.5%、3.3%和7.4%，平均绝对误差降低了30.4%，具有良好的泛化能力。

表1 不同COD方法在4个基准数据集上的定量评价结果

通过消融实验验证了MSCAF-Net中ERF模块、DID模块和CSFF模块的有效性。设计了六种不同的模型进行比较，结果显示ERF模块可以明显提高检测精度，CSFF模块有助于更准确地发现伪装目标，而DID模块提供的粗略定位信息能够进一步改善模型性能。此外，CSFF和DID的联合利用显著提高了模型的性能，能够更好地检测伪装目标和背景之间的细微差异，结果如表2所示。

表2 四个基准数据集上不同模型在消融研究中的定量结果

通过消融实验验证PVTv2的有效性，使用了Res2Net-50作为骨干网络，并与MSCAF-Net中使用的PVTv2进行了比较，结果如图4显示。PVTv2相对于Res2Net-50表现出更清晰的优势，这表明PVTv2的全局建模能力对于挖掘上下文信息和提高检测精度非常有效。此外，即使使用Res2Net-50作为骨干网络，MSCAF-Net仍然优于其他伪装目标检测方法。

图4 验证PVTv2骨干网有效性的定量结果

最后将MSCAF-Net用于息肉分割、COVID-19肺部感染分割、缺陷检测、透明物体检测等许多相关视觉任务。在息肉分割实验中，在Kvasir、CVC-ClinicCB、ETIS、ColonDB和CVC-T数据集上进行测试，将MSCAF-Net与其他八种检测方法进行定量比较，结果如表3、4、5、6、7所示，MSCAF-Net在所有五个数据集上都取得了比其他方法更好的结果，优势明显。

表3 不同息肉分割方法在ColonDB上的定量评价结果

表4 不同息肉分割方法在ETIS上的定量评价结果

表5 不同息肉分割方法在Kvasir上的定量评价结果

表6 不同息肉分割方法在CVC-T的定量评价结果

表7 不同息肉分割方法在ClinicCB的定量评价结果

4、结论：

论文提出了一个新的COD框架MSCAF-Net，专注于多尺度上下文感知特征学习。采用PVTv2作为骨干网络，在多个尺度上有效地提取全局上下文信息。通过ERF模块增强接受域来细化每个尺度的特征，使用CSFF模块多尺度特征融合来丰富提取特征的尺度多样性，以及利用DID模块提供粗略的定位信息，用于调制CSFF模块中得到的融合特征，以实现更精确的检测。

该模型在息肉分割、COVID-19肺部感染分割、透明物体检测和缺陷检测等多种与COD相关的视觉任务中表现出较高的通用性。未来还将进一步尝试通过在检测模型中引入一些特定的细节增强或超分辨率模块来提高模型的性能。

http://mp.weixin.qq.com/s?__biz=MzU1ODg5NzQ0NA==&mid=2247484876&idx=1&sn=1a2f7c5e450ca9517c140cdd3967d5be

智能自主无人系统课题组

智能自主无人系统（IAUS）课题组坚持“面向国家重大科技需求，引领行业技术进步”的思路，专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究，分享和发布最新科研动态及研究成果。

最新文章

【论文荐读】基于多智能体近端策略优化的有限感知无人艇集群分布式追逃博弈

课题组硕士研究生成果发表在工业人工智能领域TOP期刊IEEE TIM

【论文荐读】滤波融合：图像-激光雷达融合的3D目标检测

【论文荐读】基于Pathways架构的自适应多尺度时间序列预测

【论文荐读】一种用于表面缺陷实时检测的高效靶向设计方法

【论文荐读】基于深度强化学习的VUCA环境下机器人无地图导航

课题组硕士研究生成果发表在工业人工智能领域一区TOP期刊Computers in Industry

【论文荐读】具备预判避碰决策的无人艇集成智能引导和运动控制研究

【论文荐读】面向表面缺陷检测的多分支结构多层特征融合网络

【论文荐读】一种用于粒度分析的煤粉图像分割方法

【论文荐读】水声目标识别的联合学习模型

【论文荐读】未知环境下多机器人协同探索的混合多策略快速探索随机树算法

【论文荐读】速度与输入受限的多机器人系统鲁棒避障编队导航方法

【论文荐读】基于机器视觉的目标检测技术二十年发展综述

【论文荐读】基于自适应类内和类间卷积神经网络的变速箱变工况智能故障诊断

【论文荐读】ESDMR-Net：一种具有扩展压缩和双多尺度残差连接的轻型网络

【论文荐读】基于多智能体强化学习的无人艇协同多目标围捕

【论文荐读】时间序列预测：一种具有概率分解表示的分层Transformer

【论文荐读】基于深度强化学习和分布式优化的未知环境下多机器人导航与编队控制

21级专硕王家卿《面向空地协同的无人机对地目标跟踪与自主降落研究》

21级学硕鲁宇琦《水面无人艇集群协同的侦察-驱逐-布防控制方法研究》

21级专硕夏煜《基于红外热成像的铝箔封口缺陷检测研究》

21级学硕吴建彬《退化环境下激光雷达与IMU融合的移动机器人自主探索研究》

21级学硕王浩《数据驱动的绞吸船横移挖掘过程建模及自学习控制研究》

【论文荐读】基于近端策略优化的有限感知无人艇集群避障

21级专硕杨颖《基于机器视觉的柱状产品贴标及喷码缺陷检测研究》

22级学硕李亚军《基于激光和视觉融合的移动机器人自主导航研究》

【论文荐读】基于CNN和Transformer的无人机实时目标检测网络

【论文荐读】一种能够学习多尺度上下文感知特征的通用伪装目标检测框架

【论文荐读】一种具有多级注意力机制的U-Net医疗图像分割方法

【论文荐读】一种用于表面缺陷检测的具有全局和局部特征增强的实时无锚缺陷检测器

【论文荐读】MLDFR：一种用于异常检测和定位的受损图像多级特征恢复方法

【论文荐读】基于几何线索提取和圆分解的多机器人复杂场景探索

【论文荐读】不同环境下从避障到可推动障碍物导航的课程强化学习

【论文荐读】基于机器视觉的径向圆跳动测量方法

【论文荐读】关于迁移学习驱动的智能故障诊断设计的调查、见解和展望

【论文荐读】UIU-Net: 用于红外小目标检测嵌套U-Net模型

【论文荐读】3U:面向协同目标搜索的UAV-USV-UUV网络联合设计

【论文荐读】基于深度强化学习的无人船避障方法

【论文荐读】基于优化权重谱指数的机械故障诊断自适应故障分量提取

【论文荐读】基于异步多智能体强化学习的高效实时多机器人协同探索

【论文荐读】MR-TopoMap: 通信受限条件下基于拓扑图的多机器人探索

【论文荐读】面向多智能体强化学习的共享学习方法

【论文荐读】多模态融合的自主导航方法：采用稀疏奖励和事后经验回放策略的深度强化学习

【论文荐读】基于图像增强和改进Faster R-CNN的故障卫星部件检测方法

【论文荐读】空间变形鲁棒场景中构建超分辨率文本图像的文本注意网络

【论文荐读】基于深度学习的二维激光雷达车辆检测

【论文荐读】Informer：超越Transformer的长序列时间序列预测方法

【文献综述】深度学习和深度强化学习的特征提取网络

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉