【Mamba前沿网络】SUM: 通过Mamba实现显著性统一以建模视觉注意力

科技 2024-11-09 10:05 中国香港

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”
论文信息

题目：SUM: Saliency Unification through Mamba for Visual Attention Modeling

SUM: 通过Mamba实现显著性统一以建模视觉注意力

作者：Alireza Hosseini，Amirhossein Kazerouni，Saeed Akhavan，Michael Brudno，Babak Taati

源码：https://github.com/Arhosseini77/SUM

论文创新点

新颖的统一模型：作者提出了SUM（Saliency Unification through Mamba），这是一个新颖的统一模型，它将Mamba的高效长期依赖建模与U-Net集成，为不同类型的图像提供了一个统一的模型。这是首次将Mamba架构应用于显著性预测任务，使其能够以线性计算复杂度捕获长期视觉信息。
条件视觉状态空间（C-VSS）块：为了确保在不同图像类型中的普遍适用性，作者引入了一个新颖的C-VSS块。该组件有效地分离了不同数据类型的分布，使模型能够在自然场景、电子商务图像和用户界面等多种视觉特征中动态适应。
复合损失函数：作者设计了一个复合损失函数，该函数整合了五个不同的组件，每个组件针对显著性预测任务的不同方面进行优化。这种损失函数的设计旨在通过最小化差异度量和最大化相似度量来提高模型预测的准确性。

摘要

视觉注意力建模对于解释和优先处理视觉刺激非常重要，它在市场营销、多媒体和机器人技术等应用中扮演着重要角色。传统的显著性预测模型，特别是基于卷积神经网络（CNN）或Transformer的模型，通过利用大规模标注数据集取得了显著的成功。然而，当前使用Transformer的最先进（SOTA）模型在计算上非常昂贵。此外，通常需要为每种图像类型单独构建模型，缺乏统一的方法。在本文中，作者提出了一种新的方法——通过Mamba实现显著性统一（SUM），它将Mamba的高效长期依赖建模与U-Net集成，为不同类型的图像提供了一个统一的模型。使用新颖的条件视觉状态空间（C-VSS）块，SUM能够动态适应包括自然场景、网页和商业图像在内的各种图像类型，确保在不同数据类型中的普遍适用性。作者在五个基准测试中的全面评估表明，SUM能够无缝适应不同的视觉特征，并持续超越现有模型。这些结果将SUM定位为推进视觉注意力建模的多功能和强大工具，为不同类型的视觉内容提供了一个普遍适用的稳健解决方案。

关键词

视觉注意力建模、显著性预测、Mamba、U-Net、条件视觉状态空间（C-VSS）、Transformer、卷积神经网络（CNN）

3. 提出的方法

本节提供了如图1(a)所示的提出的网络架构的概述。接下来，我们回顾了刘等人[47]引入的视觉状态空间（VSS）的概念。在此基础上，我们引入了我们新颖的C-VSS模块和基于条件Mamba-U-Net的显著性预测模型。

3.1. 模型架构

如图1(b)所示的SUM架构采用了U-Net配置。过程从一个输入图像开始，其空间维度为和，3个通道，通过一个patch嵌入模块进行初步转换，将其维度降低到。编码器模块生成四个层次的输出表示。每个阶段后跟一个下采样层，将空间维度减半，同时将通道数翻倍。转到解码器，包含四个C-VSS层的四个阶段，每个阶段包含两个块，除了最后阶段，只包含一个块。然后应用patch扩展层以实现分辨率上采样，同时将通道维度减少2倍。最后，一个线性层负责生成最终输出。我们的SUM架构使用在ImageNet[12]上预训练的VMamba[47]权重。这种预训练加速了学习过程，提高了模型检测显著区域的能力，并确保了在多样化图像上更好的泛化。

3.2. 视觉状态空间（VSS）

Mamba[18]采用SSMs[19]将注意力的复杂性从二次降低到线性，用于长序列建模。这在视觉任务中特别有益，因为它具有更高的准确性、更低的计算负载和更低的内存需求[67]。然而，将Mamba的固有1D、因果扫描适应于2D图像面临挑战，因为它的接收场受限，并且无法有效处理未扫描的数据。为了解决这些问题，VMamba[47]引入了交叉扫描模块，该模块沿水平和垂直轴进行双向扫描。该模块将图像扩展为以四个方向扫描的patch序列，使每个像素能够整合所有方向的信息。随后，这些序列被重新组装成原始的2D格式，形成一个完整的图像。被称为2D-Selective-Scan（SS2D）的方法增强了Mamba对2D空间处理的功能，确保了局部和全局空间的相关性。基于这些见解，我们将VSS块作为SUM中的基本单元。如图1(c)所示，VSS模块可以表述为：

其中输入特征由表示。操作符表示逐元素乘法操作，LN代表LayerNorm，DW-Conv代表深度卷积，SiLU[15]是一个激活函数。

3.3. 条件视觉状态空间（C-VSS）

我们通过根据输入类型对解码器中的VSS块进行条件化，增强了模型对多样化视觉内容的适应性。这对于有效预测显著性图至关重要，因为不同类型的内容以不同的方式吸引观众的注意力。例如，自然场景可能关注颜色和运动，电子商务图像关注文本信息，UI设计关注特定布局模式，如左上象限。为了解决这些变化，我们通过动态缩放和移位操作调制特征图，根据输入类型调整特征激活。调制后的特征图可以定义为：

其中表示原始特征图。这里，是缩放因子，是移位因子，是逐元素乘法。

为了提高我们模型有效处理不同数据类型的能力，我们定义了个可学习的标记，每个标记的维度为。每个标记被指定捕获以下数据类别之一的独特信息：自然场景-鼠标、自然场景-眼睛、电子商务和UI。这些标记提供了比简单的单热编码更细致的机制，使模型能够适应并学习详细的类型特定信息。我们已经为自然场景数据分配了两个标记，因为这些类别的数据收集方法不同，眼睛和鼠标。将它们归为一个标记可能会在推理期间混淆模型。如[59]中讨论的，鼠标跟踪数据不如眼动跟踪数据一致，更分散，并且与眼动跟踪数据的分布不完全一致，特别是在不同的上下文区域。此外，虽然鼠标跟踪数据可以导致训练现有模型的可接受结果，但对于模型选择和评估来说不够可靠。基于这些见解和我们的实验，我们区分了自然场景的鼠标和眼睛数据。

随后，相关标记被送入一个多层感知器（MLP）模型中，以确保学习基于每种数据类型的特定特征。MLP由个隐藏层组成，每层有个特征。这个MLP旨在回归参数和，这些参数根据输入的多样性调制模型。MLP定义为，输出一个矩阵，每一行代表四个输入标记之一，并生成五个关键参数。这些参数包括和的对和个别实例，具体为。输入标签决定了从中选择的相关行，结果输出向量。这个向量包含针对指定输入微调的调制参数。然后这些参数被整合到模型中以动态修改其行为：用于移位和缩放，调整SS2D块的缩放以调节特征强度，移位和缩放。这使得MLP能够精确控制模型内部的归一化和缩放，从而提高其性能和在不同视觉内容类型上的泛化能力。

3.4. 损失函数

我们的模型使用一个复合损失函数，该函数在视觉显著性预测中受到[2, 14, 48]的启发。这个函数整合了五个不同的组件，每个组件旨在通过针对显著性预测任务的不同方面来优化显著性图的预测精度。损失函数被表述为：

其中表示真实的显著性图，表示真实的注视图，是网络预测的显著性图。损失函数的每个组件都具有特定的目的，如下所述。Kullback-Leibler散度（KL）：KL散度测量预测和真实分布之间的差异，提供了一种方法，在模型的预测显著偏离实际数据分布时对模型进行惩罚。

其中，正则化常数设置为。

线性相关系数（CC）：相关系数评估预测和真实显著性图之间的线性关系。更高的相关性表明模型预测与真实趋势一致，提高了显著性图的可靠性。

其中，表示协方差，表示标准差。

相似性（SIM）：SIM评估预测和实际显著性图之间的重叠，强调准确预测显著区域的重要性。

归一化扫描路径显著性（NSS）：NSS测量归一化预测显著性图和实际注视点之间的相关性，突出了模型在捕获人类注意力模式方面的有效性。

均方误差（MSE）：该组件计算预测和实际显著性图之间的均方误差，直接惩罚像素级显著值的不准确性。通过调整权重系数（），我们的目标是最小化差异度量（KL, MSE）并最大化相似度量（CC, SIM, NSS）。这一策略确保了模型能够准确预测显著性图，并与人类视觉注意力模式和显著性分布紧密对齐。

4. 实验

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247570515&idx=1&sn=179bcdc76014ed2c6363f7e6a9333e60

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

独自一人，怒发顶会！！

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

【魔改Mamba系列】CAMS: 基于Mamba的无卷积和无注意力的图像分割

特征选择的通俗讲解！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

kaggle图像分割实战要点与技巧总结

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

一篇文章梳理清楚 Python 多线程与多进程

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

知识蒸馏综述：蒸馏机制

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

【魔改Mamba系列】DSDFormer: 一种创新的Transformer-Mamba框架，用于鲁棒高精度驾驶员分心识别

图像处理——过程全解析，配图超详细！

博士招生 | 埃默里大学计算机科学系Dr. Guo Zhichun实验室博士生招生

【魔改YOLO系列】无源域自适应YOLO目标检测

一博士狂编200多篇SCI发表，被揭发后畏罪自杀...网友：堪称史诗级学术骗局！

大模型经典著作《大语言模型基础与前沿》

博士招生 | UIUC 计算机科学系实验室博士生、博士后招募

收藏 | 半监督目标检测相关方法总结

【魔改Mamba系列】MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

收藏 | 目标检测回归损失函数总结

深度学习模型参数量/计算量和推理速度计算

去他的顶会顶刊！我就想发个论文毕个业！

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

有哪些深度学习效果不如传统方法的经典案例？

【Mamba前沿网络】SUM: 通过Mamba实现显著性统一以建模视觉注意力

小样本学习只是一场学术界自嗨吗？

一篇适合新手的深度学习综述！

【Mamba网络前沿】混合Transformer-Mamba网络用于单图像去雨

为什么 Batch Normalization 那么有用？

薛定谔的准确率：PyTorch随机数引发的可复现性陷阱

【魔改YOLO系列】Infra-YOLO：实时红外小目标检测的高效神经网络结构

招生信息 | 香港大学杜泓阳教授团队博士招生

图像去噪的原理及实现

【魔改YOLO系列】Mamba YOLO: 基于SSMs的YOLO用于目标检测

YOLOv9 - 在自定义数据集上进行目标检测

IoU、GIoU、DIoU、CIoU损失函数的那点事儿

【魔改YOLO系列】CST-YOLO：YOLO与CNN-Swin Transformer结合，实现精准小目标检测

招生信息 | 香港大学计算机视觉与机器智能实验室（CVMI Lab）博士招生

使用YOLO检测眼睛闭合 | 设定警报

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

硬肝！超详细matplotlib基础介绍！！！

医图顶会 MICCAI'24 | 条件Diffusion结合空间注意力，实现医学图像精准区分割

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

【Mamba前沿网络】SUM: 通过Mamba实现显著性统一以建模视觉注意力

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”论文信息

论文信息

题目：SUM: Saliency Unification through Mamba for Visual Attention Modeling

SUM: 通过Mamba实现显著性统一以建模视觉注意力

作者：Alireza Hosseini，Amirhossein Kazerouni，Saeed Akhavan，Michael Brudno，Babak Taati

源码：https://github.com/Arhosseini77/SUM

论文创新点

摘要

关键词

3. 提出的方法

3.1. 模型架构

3.2. 视觉状态空间（VSS）

3.3. 条件视觉状态空间（C-VSS）

3.4. 损失函数

4. 实验

声明

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”
论文信息