2024即插即用轻量化自适应提取模块LAE，涨点起飞起飞了

文摘 2024-11-30 17:20 北京

论文介绍

题目：LSM-YOLO: A Compact and Effective ROI Detector for Medical Detection

论文地址：https://arxiv.org/pdf/2408.14087

QQ深度学习交流群：719278780

扫描下方二维码，加入深度学习论文指南星球！

加入即可获得，模块缝合、制作、写作技巧，学会“结构”创新、“创新点”创新，从三区到顶会，小论文大论文，毕业一站式服务

创新点

提出了轻量化的医疗检测模型LSM-YOLO：

作者设计了一种名为“轻量化分流匹配 YOLO (Lightweight Shunt Matching-YOLO, LSM-YOLO)”的模型，专注于在保持高检测准确率的同时实现实时性和轻量化，适合医疗图像ROI（感兴趣区域）的自动检测。

引入了两个关键模块：

轻量化自适应提取 (Lightweight Adaptive Extraction, LAE)：该模块通过提取多尺度特征图，保留更多上下文信息和高分辨率细节，同时减少噪声的影响。相比传统卷积，LAE显著减少了参数和计算成本。
多路径分流特征匹配 (Multipath Shunt Feature Matching, MSFM)：通过改进高阶语义特征和低阶视觉特征的融合，MSFM提升了小目标的检测性能，使得模型在处理医疗图像中小病灶时表现出色。

设计了新的特征融合方法：

结合LAE和MSFM模块，实现了从高分辨率到低分辨率的特征提取和特征融合，同时设计了具有残差连接和无残差连接的MSFM模块版本，以适应不同的检测阶段。

性能表现：

在多个医疗数据集（胰腺肿瘤、血细胞检测和脑肿瘤检测）上进行测试，显示出LSM-YOLO相比其他主流模型具有更高的检测准确率和更低的参数量。例如，在胰腺肿瘤数据集上，LSM-YOLO以极低的参数量（2.87M）实现了48.6%的AP（平均准确率），超过了其他主流模型。

实时性与轻量化设计：

模型设计注重轻量化，便于部署到资源受限的医疗设备中，同时保证了实时检测的能力，为实际医疗应用提供了可能性。

方法

1. 模型架构概览

主要由以下模块组成：

Backbone（骨干网络）：用于提取多尺度特征。
Head（检测头）：对提取的特征进行进一步处理和融合，最终生成检测结果。
Output Heads（输出头）：包含多个检测头（如大目标、中目标、小目标、极小目标），分别处理不同尺度的目标。

2. 核心模块描述

2.1 轻量化自适应提取（Lightweight Adaptive Extraction, LAE）

功能：对输入特征图进行多尺度下采样，提取丰富的上下文信息和高分辨率细节，同时减少计算成本。
结构：

一条分支负责轻量化提取。
另一条分支负责自适应提取，通过加权处理输入特征图的局部和全局信息。
通过组卷积降低计算复杂度。
使用两条分支并行提取特征：
结合后实现高效的信息保留和提取。

2.2 多路径分流特征匹配（Multipath Shunt Feature Matching, MSFM）

功能：融合不同层级的特征，增强高阶语义特征和低阶空间特征的匹配能力。
结构：

带残差连接的版本：用于骨干网络，增强特征表达能力。
无残差连接的版本：用于检测头，避免多余的信息叠加。
通道信息分流：通过全局池化和卷积提取全局语义信息。
空间信息分流：提取特征图的高度和宽度信息，辅助捕获小目标的上下文。
采用分流概念，将输入特征划分为不同部分进行处理：
两种版本：

2.3 接受场注意卷积（Receptive-Field Attention Convolution, RFABlock）

功能：引入注意力机制，提升卷积对目标区域和背景区域的区分能力。
位置：主要用于骨干网络的特征提取阶段。

3. 多尺度特征融合

模型设计了多尺度特征融合机制：

基于改进的路径聚合特征金字塔网络（Path Aggregation-Feature Pyramid Network, PA-FPN），融合高分辨率和低分辨率特征。
在特征融合后，分配到四个检测头，分别处理不同尺度的目标区域。

4. 损失函数

模型的损失函数包含三个部分：

分类损失：使用二元交叉熵损失（Binary Cross-Entropy Loss）。
边界框回归损失：

分布焦点损失（Distribution Focal Loss, DFL）：提高边界框的定位精度。
SCYLLA-IoU损失（SIoU Loss）：优化边界框的回归效果。

整体损失：上述三部分按权重组合，确保分类和回归的平衡

即插即用模块作用

LAE 作为一个即插即用模块：

医疗图像检测

特定场景：如 CT、MRI、血液检测等医疗图像，尤其是在检测肿瘤、小病灶或其他小目标时。
作用：提取丰富的多尺度特征，增强对小目标及其上下文的关注能力，同时减少噪声影响。

小目标检测任务

特定场景：如自然场景下的小物体检测（例如密集场景中的人脸、车辆等）或具有强背景干扰的目标。
作用：通过在多尺度采样中保留边界信息，有效检测小目标，并提高模型的定位和分类精度。

计算资源有限的环境

特定场景：如边缘设备部署、嵌入式系统、实时检测需求的场景。
作用：以极低的参数量和计算成本完成高效特征提取，满足实时性和轻量化的需求。

噪声干扰较大的检测任务

特定场景：如目标与背景差异较小或图像质量较差的场景（例如低分辨率图像）。
作用：通过自适应提取路径，动态调整对高信息熵区域的关注度，减少噪声干扰，提升特征表达能力。

消融实验结果

通过对 RFABlock、LAE 和 MSFM 三个核心模块的独立及联合测试，展示了它们对模型性能的显著影响。单独使用每个模块均能提升检测性能，其中 MSFM 贡献最大，而三者协同使用时达到最佳效果，AP50:95 提升至 48.6%。这表明三个模块在特征提取、融合和上下文理解中的作用互补且设计合理。

表5 针对 LAE 模块内部的轻量化提取（LE）、自适应提取（AE）和维度映射（DM）三个组件进行了测试，发现每个组件单独启用均能提升检测性能，联合使用时效果更优，其中 DM 的加入进一步强化了上下文特征的整合能力，使 AP50:95 达到 48.6%。这验证了 LAE 模块在高效提取多尺度特征上的设计优势。
表6 测试了 MSFM 模块中空间信息处理和通道信息处理的独立及联合效果，发现两者单独启用时各自提高了检测性能，而同时启用时 AP50:95 提升至最高的 48.6%。这表明空间与通道信息处理在特征融合上具有显著的互补性，有助于增强 ROI 区域与邻域特征的交互，提升检测精度和鲁棒性。

即插即用模块

import torch
import torch.nn as nn
from einops import rearrange
# 论文地址：https://arxiv.org/pdf/2408.14087
# 论文：LSM-YOLO: A Compact and Effective ROI Detector for Medical Detection


def autopad(k, p=None, d=1):  # kernel, padding, dilation
    """Pad to 'same' shape outputs."""
    if d > 1:
        k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k] # actual kernel-size
    if p is None:
        p = k // 2 if isinstance(k, int) else [x // 2 for x in k] # auto-pad
    return p

class Conv(nn.Module):
    """Standard convolution with args(ch_in, ch_out, kernel, stride, padding, groups, dilation, activation)."""
    default_act = nn.SiLU() # default activation

    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):
        """Initialize Conv layer with given arguments including activation."""
        super().__init__()
        self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)
        self.bn = nn.BatchNorm2d(c2)
        self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()

    def forward(self, x):
        """Apply convolution, batch normalization and activation to input tensor."""
        return self.act(self.bn(self.conv(x)))

    def forward_fuse(self, x):
        """Perform transposed convolution of 2D data."""
        return self.act(self.conv(x))

class LAE(nn.Module):
    # Light-weight Adaptive Extraction
    def __init__(self, ch, group=16) -> None:
        super().__init__()

        self.softmax = nn.Softmax(dim=-1)
        self.attention = nn.Sequential(
            nn.AvgPool2d(kernel_size=3, stride=1, padding=1),
            Conv(ch, ch, k=1)
        )

        self.ds_conv = Conv(ch, ch * 4, k=3, s=2, g=(ch // group))

    def forward(self, x):
        # bs, ch, 2*h, 2*w => bs, ch, h, w, 4
        att = rearrange(self.attention(x), 'bs ch (s1 h) (s2 w) -> bs ch h w (s1 s2)', s1=2, s2=2)
        att = self.softmax(att)

        # bs, 4 * ch, h, w => bs, ch, h, w, 4
        x = rearrange(self.ds_conv(x), 'bs (s ch) h w -> bs ch h w s', s=4)
        x = torch.sum(x * att, dim=-1)
        return x


if __name__ == '__main__':

    input = torch.randn(1, 16, 64, 64) # B C H W
    block = LAE(ch=16)
    output = block(input)
    print(input.size())    print(output.size())

便捷下载方式

浏览打开网址:https://github.com/ai-dawang/PlugNPlay-Modules

更多分析可见原文

ai缝合大王

聚焦AI前沿，分享相关技术、论文，研究生自救指南

最新文章

（IEEE 2024）双池化时序注意力模块DPTAM，即插即用，即用即涨点

CVPR DCNv2：即插即用的几何变形建模神器，提升目标检测与分割精度

CVPR | DAT：高效灵活的可变形注意力Transformer，为视觉任务带来新突破

即插即用CSRA残差注意力机制，涨点起飞起飞了！

即插即用Crossformer，涨点起飞起飞了！

ICLR 即插即用MobileViTAttention，结合卷积的局部特征提取能力和Transformer的全局特征建模能力

即插即用多分辨率重叠注意力模块MOA，涨点起飞起飞了！

NeurIPS CoAtNet：结合卷积与注意力的高效视觉网络，全面提升图像处理性能

突破计算瓶颈：GFNet在图像分类、目标检测与语义分割中的高效创新应用

2024即插即用多头注意力模块MOH，涨点起飞起飞了！

即插即用Vision Permutator，涨点起飞起飞了！

即插即用简化自注意力机制SSAN，涨点起飞起飞了！

无注意力Transformer模块AFT，涨点起飞起飞了！

即插即用极化自注意力模块PSAN，涨点起飞起飞了！

高效金字塔压缩注意力模块EPSA，涨点起飞起飞了！

分割注意力模块S2Attention，涨点起飞起飞了！

即插即用外部注意力机制EA，涨点起飞起飞了！

即插即用高效通道注意力机制ECA，涨点起飞起飞了！

（ACCV 2024）局部重要性驱动注意力机制LIA，涨点起飞起飞了！

30+文件覆盖，深度学习论文速通

《Neural Networks 2024》自适应细粒度通道注意力机制FCA，涨点起飞起飞了！

（ESWA 2024）高低频注意力机制FCHilo，即插即用涨点启动！

混合自适应注意力模块HAAM，涨点起飞起飞了！

2024 Mamba空间状态增强模块RSSG，涨点起飞起飞了！

即插即用超轻量级子空间注意力模块ULSAM，涨点起飞起飞了！

（CVPR 2024）频域自适应空洞卷积FADC，即插即用涨点启动！

2024即插即用Efficient Non-Local Transformer Block，涨点起飞起飞了！

NeurIPS 条件卷积模块CondConv，涨点起飞起飞了！

即插即用DO-Conv模块，涨点起飞起飞了

ACM 即插即用TSConformerBlock 模块，涨点启动！

（ECCV 2022）即插即用门控通道注意力机制NAF，涨点起飞起飞了！

多尺度特征融合模块TIF，涨点涨爆了！

创新思维发一区，论文速通指南创新更新中

2024即插即用时空交互注意力机制TIAM，涨点涨爆了！

2024即插即用移位窗口注意力机制SWA，涨点起飞！

(IEEE TIP)即插即用多尺度特征提取模块MSB，涨点起飞！

2024多级卷积模块MCM，涨点起飞起飞了

（IEEE 2024）即插即用局部金字塔注意力模块LPA，涨点涨爆了

即插即用半小波注意力模块HWAB，涨点涨爆了

2024即插即用轻量化自适应提取模块LAE，涨点起飞起飞了

深度学习论文速通指南，发论文很难吗？

2024即插即用分层特征融合模块HFF，涨点起飞起飞了

(IEEE 2024)即插即用特征增强模块FEM，涨点起飞

2024频域多尺度选择模块FMS，即插即用，涨点启动！

即插即用多尺度特征融合模块GAB，涨点起飞起飞了

(AAAI 2024) 即插即用时空动态特征提取和优化的轻量型注意力模块GAU，涨点涨爆了

即插即用多重注意力特征融合模块EFF，涨点启动！

即插即用频域增强通道注意力机制EFCAttention，涨点启动!

即插即用特征注意力融合模块FFA，涨点起飞起飞了

2024即插即用CLEEGN模块：自动化EEG去伪影与重建，涨点起飞

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉