多尺度卷积+注意力机制,为需要同时提高性能和计算效率的任务,提供了新思路,且效果显著,尤其是需要考虑多尺度变化时。
近来其更是热度飙升,光是CVPR24就有多篇!比如模型PKINet,便在遥感目标检测中,参数量狂降58.8%,性能还远超SOTA!
主要在于:多尺度卷积通过调整卷积核大小,或者在卷积层中采用不同的参数设置,能够提取到局部细节和全局上下文的特征信息。而注意力机制则能从中筛选出关键信息,从而增强模型对输入数据的理解,并减少计算资源的消耗!
目前这种结合方式,在图像处理、目标检测等任务中,效果都得到了印证,想发论文的伙伴不要错过!为方便大家研究的进行,我也给大家整理了12种前沿创新思路,原文和源码都有!
扫描下方二维码,回复「多卷注意」
免费获取全部论文合集及项目代码
Poly Kernel Inception Network for Remote Sensing Detection
内容:这篇文章介绍了一种名为 PKINet 的新型特征提取网络,专门用于遥感图像中的目标检测任务。PKINet 通过结合多尺度卷积核(无扩张)来提取不同尺度的目标特征,并捕捉局部上下文信息,同时引入了 Context Anchor Attention (CAA) 模块来获取长距离的上下文信息。这两种机制协同工作,使得 PKINet 在多个具有挑战性的遥感目标检测基准数据集(如 DOTA-v1.0、DOTA-v1.5、HRSC2016 和 DIOR-R)上取得了优异的性能,同时模型保持轻量化,参数量和计算量均低于许多现有方法。
DmADs-Net: Dense multiscale attention and depth-supervised network for medical image segmentation
内容:文章提出了一种用于医学图像分割的密集多尺度注意力和深度监督网络。该网络通过引入多尺度卷积特征注意力模块(MSCFA)和局部特征注意力模块(LFA),增强了对弱特征信息的关注,并通过特征精炼与融合模块(FRFB)和边缘空间注意力机制,进一步优化了不同语义信息的融合。此外,DmADs-Net 采用了深度监督机制,通过计算中间层输出的伴随损失来优化训练过程
扫描下方二维码,回复「多卷注意」
免费获取全部论文合集及项目代码
Dual-Window Multiscale Transformer for Hyperspectral Snapshot Compressive Imaging
内容:本文提出了一种基于Transformer的高光谱快照压缩成像重建方法——双窗口多尺度Transformer(DWMT)。该方法采用粗到细的重建过程,通过两个不同尺寸的窗口对全局特征和局部细节进行建模,利用多尺度特征提取和注意力机制增强特征表示。实验结果表明DWMT在高光谱图像重建任务中表现出色,能够有效恢复图像的细节和光谱信息
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation
内容:本文提出了一种用于多模态语义分割的无偏多尺度模态融合模型。该模型通过无偏的多模态数据融合和多尺度特征融合,有效提取和整合全局与局部特征,从而提高模型在不同多模态场景下的适应性和性能。实验结果表明,U3M在多个数据集上均取得了优异的性能,验证了其在多模态语义分割任务中的有效性和鲁棒性。
扫描下方二维码,回复「多卷注意」
免费获取全部论文合集及项目代码