EMF-former：一种用于图像分割的高效且内存友好的Transformer

科技 2024-11-03 10:05 辽宁

点击下方“深度学习爱好者”，选择加"星标"或“置顶”

论文信息

题目：EMF-former: An Efficient and Memory-Friendly Transformer for Medical Image Segmentation

EMF-former：一种用于医学图像分割的高效且内存友好的Transformer

作者：Zhaoquan Hao, Hongyan Quan, and Yinbin Lu

论文创新点

深度可分离混洗卷积模块（DSPConv）：作者提出了一个新颖的卷积模块，称为DSPConv，它通过结合深度可分离卷积（DWConv）、通道混洗和逐点卷积（PWConv）来减少卷积操作中的参数数量。这种设计不仅降低了模型的计算复杂度，还保证了不同通道间信息的交互，从而在减少参数的同时保持了特征提取的准确性。
向量聚合注意力（VAA）：为了降低自注意力机制中的计算复杂度，作者引入了一种高效的向量聚合注意力机制。VAA通过将两个向量广播后的元素级乘法替代传统的矩阵乘法，再通过一个全连接层来计算注意力分数，显著降低了计算复杂度，同时保持了全局依赖性的捕捉能力。
串行多头注意力模块（S-MHA）：针对多头注意力中存在的特征冗余问题，作者设计了一种串行多头注意力模块。S-MHA通过串行计算注意力，并且在计算过程中忽略某些头部，从而减少了内存使用量和计算冗余。这种方法不仅节省了计算资源，还鼓励了模型在不同头部之间学习更丰富的特征表示。

摘要

医学图像分割对于计算机辅助诊断具有重要意义。在这项任务中，基于卷积神经网络（CNNs）的方法在提取局部特征方面表现出色。然而，它们无法捕获全局依赖性，这对于医学图像至关重要。另一方面，基于Transformer的方法可以通过自注意力建立全局依赖性，为局部卷积提供补充。然而，普通Transformer中的自注意力的昂贵矩阵乘法和内存使用量仍然是一个瓶颈。在这项工作中，我们提出了一个名为EMF-former的分割模型。通过结合DWConv、通道混洗和PWConv，我们设计了一个深度可分离混洗卷积模块（DSPConv），以减少卷积的参数数量。此外，我们采用了一种高效的向量聚合注意力（VAA），用元素级乘法替换了两个向量广播后的键值交互，以降低计算复杂性。此外，我们用串行多头注意力模块（S-MHA）替换了并行多头注意力模块，以减少多头注意力中的内存使用量和特征冗余。结合上述模块，EMF-former能够在保持分割精度的同时，以更少的参数数量、更低的计算复杂性和更低的内存使用量高效执行医学图像分割。我们在ACDC和Hippocampus数据集上进行了实验评估，分别达到了80.5%和78.8%的mIOU值。

关键词

Transformer · 轻量级 · 医学图像分割

2 方法

EMF-former的整体架构如图2(a)所示。

2.1 DSPConv模块

在这项工作中，我们提出了一个名为DSPConv的卷积模块，通过结合DWConv、通道混洗和PWConv。这个卷积模块旨在减少卷积操作中的参数数量和特征冗余，同时确保准确的特征提取。受到Chen等人[6]的启发，我们将自然图像领域的方法应用于医学图像领域，并尝试改进这种方法，选择性地仅对特征图中的一部分通道应用DWConv。与常规Conv相比，DSPConv的参数更少，并且可以通过通道混洗和PWConv确保不同通道之间的信息交换。具体来说，所提出的DSPConv模块如图2(b3)所示。在获得输出O ∈ RH×W ×C1的过程中，首先，我们的DSPConv模块使用核大小为K的DWConv对第一个1/4的通道C1进行操作。此外，为了确保不同通道之间的信息交互，我们采用了通道混洗，在DWConv卷积操作后混洗通道，并在剩余的3/4通道C1上执行PWConv以促进信息交换。因此，我们的DSPConv所需的参数数量为

这比常规Conv的要少。而FLOPs为

这比常规Conv的要少。此外，随着输入通道大小c的增加，总数的差异变得更加明显。通过实施这种方法，我们可以在实现轻量级结果的同时减少特征冗余。图2(b2)中所示的DSPConv模块用于DSPConv Stem，该模块可以将特征图下采样4倍。另一个是在DSPConv Merge中使用的模块，如图2(b1)所示，其中特征图可以下采样2倍。

2.2 向量聚合注意力

对于注意力计算，Q、K、V∈ RN×d分别表示查询、键和值矩阵（N = H × W，其中H和W分别是特征图的高度和宽度）。注意力函数将每个查询转换为值的加权和，然后乘以V矩阵以获得注意力分数。这个过程需要在Q、K、V之间进行矩阵乘法，它们都有维度RN×d，并且结果的复杂度为O(N^2d)，如下所示：

为了降低计算复杂度，在这项工作中，我们引入了一种高效的向量聚合注意力（VAA），受到Shaker等人[23]和Lin等人[16]提出的方法的启发，如图2(c)所示。我们用两个广播向量的元素级乘法替换了Q和K的矩阵乘法。此外，我们用全连接层替换了键值交互。这种方法不仅能够计算全局注意力，而且与自注意力相比，还降低了计算复杂度。具体来说，在单个头内使用线性层生成Q和K，其中Q和K都是∈ RN×d，N代表令牌的数量，d可以被解释为每个令牌的长度。我们使用两个可学习的向量，Wq ∈ Rd×1和Wk ∈ R1×N，分别与Q和K相乘。这生成了两个全局注意力向量，Qα ∈ RN×1和Kα ∈ R1×d，如下所示：

其中，Qα可以被理解为聚合了每个令牌的所有维度的特征，而Kα可以被理解为将所有令牌聚合成一个单一的令牌。随后，我们执行广播操作以获得两个具有相同维度RN×d的矩阵。然后这些矩阵逐元素相乘，并通过线性层计算全局注意力，如下所示：

因此，我们提出的VAA避免了直接在Q矩阵和K矩阵上执行矩阵乘法，并降低了计算复杂度到O(N)。L是线性层，它替换了V矩阵。

2.3 串行多头注意力模块

同时，多头注意力在不同头部之间存在特征冗余[12]、[10]。这导致了多头注意力不仅占用了任何内存和计算资源，而且它的许多组件被用来提取冗余的全局特征，这限制了整体效率。为了解决这个问题，我们设计了串行多头注意力模块（S-MHA），如图2(d)所示，并且每个头部的两个不同头部被组合成一个头部组。然后不同头部组的计算结果被连接到下一个头部组进行求和，并且再次执行注意力计算。此外，我们尝试将Chen等人[6]的工作引入Transformer。具体来说，而不是在每个头部组中对第二个头部执行注意力计算，我们直接将第一个头部的计算结果求和。原因是我们假设由于多头注意力中存在特征冗余，我们可以避免对某些头部执行注意力计算。随后的实验证明了我们的概念是正确的。我们设置多头注意力最多有8个头（n=8），正式地，这种注意力可以被表述为：

其中Xi表示第i个头的注意力输出（i是奇数）。HGi表示第i个头部组的输出。值得注意的是，由于对Headi（i是偶数）没有执行注意力计算，输出可以被认为是Headi本身，因此Yi表示第i个头的输出（i是偶数）。为了减少头部之间的冗余并鼓励Q、K层在具有更丰富信息的特征上学习投影。我们将头部组的输出添加到后续头部：

Head_{2i+1}将被用作第(2i+1)个头的新输入特征。最终，我们连接头部组的输出以获得输出：

总的来说，通过上述操作，可以节省内存和计算资源，因为串行多头注意力模块不需要同时在多头上进行计算。也有可能在不同头部之间学习更丰富的特征，以提高模型性能。

3 实验

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247569472&idx=1&sn=d9a90b882172145385d8c695f6f6488b

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

独自一人，怒发顶会！！

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

【魔改Mamba系列】CAMS: 基于Mamba的无卷积和无注意力的图像分割

特征选择的通俗讲解！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

kaggle图像分割实战要点与技巧总结

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

一篇文章梳理清楚 Python 多线程与多进程

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

知识蒸馏综述：蒸馏机制

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

【魔改Mamba系列】DSDFormer: 一种创新的Transformer-Mamba框架，用于鲁棒高精度驾驶员分心识别

图像处理——过程全解析，配图超详细！

博士招生 | 埃默里大学计算机科学系Dr. Guo Zhichun实验室博士生招生

【魔改YOLO系列】无源域自适应YOLO目标检测

一博士狂编200多篇SCI发表，被揭发后畏罪自杀...网友：堪称史诗级学术骗局！

大模型经典著作《大语言模型基础与前沿》

博士招生 | UIUC 计算机科学系实验室博士生、博士后招募

收藏 | 半监督目标检测相关方法总结

【魔改Mamba系列】MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

收藏 | 目标检测回归损失函数总结

深度学习模型参数量/计算量和推理速度计算

去他的顶会顶刊！我就想发个论文毕个业！

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

有哪些深度学习效果不如传统方法的经典案例？

【Mamba前沿网络】SUM: 通过Mamba实现显著性统一以建模视觉注意力

小样本学习只是一场学术界自嗨吗？

一篇适合新手的深度学习综述！

【Mamba网络前沿】混合Transformer-Mamba网络用于单图像去雨

为什么 Batch Normalization 那么有用？

薛定谔的准确率：PyTorch随机数引发的可复现性陷阱

【魔改YOLO系列】Infra-YOLO：实时红外小目标检测的高效神经网络结构

招生信息 | 香港大学杜泓阳教授团队博士招生

图像去噪的原理及实现

【魔改YOLO系列】Mamba YOLO: 基于SSMs的YOLO用于目标检测

YOLOv9 - 在自定义数据集上进行目标检测

IoU、GIoU、DIoU、CIoU损失函数的那点事儿

【魔改YOLO系列】CST-YOLO：YOLO与CNN-Swin Transformer结合，实现精准小目标检测

招生信息 | 香港大学计算机视觉与机器智能实验室（CVMI Lab）博士招生

使用YOLO检测眼睛闭合 | 设定警报

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

硬肝！超详细matplotlib基础介绍！！！

医图顶会 MICCAI'24 | 条件Diffusion结合空间注意力，实现医学图像精准区分割

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉