点击下方 “深度学习爱好者 ”,选择加p" 星标 "或“ 置顶 ”
论文信息 题目:SUM: Saliency Unification through Mamba for Visual Attention Modeling SUM: 通过Mamba实现显著性统一以建模视觉注意力 作者:Alireza Hosseini,Amirhossein Kazerouni,Saeed Akhavan,Michael Brudno,Babak Taati 源码:https://github.com/Arhosseini77/SUM 论文创新点 新颖的统一模型 :作者提出了SUM (Saliency Unification through Mamba),这是一个新颖的统一模型,它将Mamba的高效长期依赖建模与U-Net集成,为不同类型的图像提供了一个统一的模型。这是首次将Mamba架构应用于显著性预测任务,使其能够以线性计算复杂度 捕获长期视觉信息。条件视觉状态空间(C-VSS)块 :为了确保在不同图像类型中的普遍适用性,作者引入了一个新颖的C-VSS 块。该组件有效地分离了不同数据类型的分布,使模型能够在自然场景、电子商务图像和用户界面等多种视觉特征中动态适应。复合损失函数 :作者设计了一个复合损失函数 ,该函数整合了五个不同的组件,每个组件针对显著性预测任务的不同方面进行优化。这种损失函数的设计旨在通过最小化差异度量和最大化相似度量来提高模型预测的准确性。摘要 视觉注意力建模对于解释和优先处理视觉刺激非常重要,它在市场营销、多媒体和机器人技术等应用中扮演着重要角色。传统的显著性预测模型,特别是基于卷积神经网络(CNN)或Transformer的模型,通过利用大规模标注数据集取得了显著的成功。然而,当前使用Transformer的最先进(SOTA)模型在计算上非常昂贵。此外,通常需要为每种图像类型单独构建模型,缺乏统一的方法。在本文中,作者提出了一种新的方法——通过Mamba实现显著性统一(SUM),它将Mamba的高效长期依赖建模与U-Net集成,为不同类型的图像提供了一个统一的模型。使用新颖的条件视觉状态空间(C-VSS)块,SUM能够动态适应包括自然场景、网页和商业图像在内的各种图像类型,确保在不同数据类型中的普遍适用性。作者在五个基准测试中的全面评估表明,SUM能够无缝适应不同的视觉特征,并持续超越现有模型。这些结果将SUM定位为推进视觉注意力建模的多功能和强大工具,为不同类型的视觉内容提供了一个普遍适用的稳健解决方案。 关键词 视觉注意力建模、显著性预测、Mamba、U-Net、条件视觉状态空间(C-VSS)、Transformer、卷积神经网络(CNN) 3. 提出的方法 本节提供了如图1(a)所示的提出的网络架构的概述。接下来,我们回顾了刘等人[47]引入的视觉状态空间(VSS)的概念。在此基础上,我们引入了我们新颖的C-VSS模块和基于条件Mamba-U-Net的显著性预测模型。 3.1. 模型架构 如图1(b)所示的SUM架构采用了U-Net配置。过程从一个输入图像 开始,其空间维度为 和 ,3个通道,通过一个patch嵌入模块进行初步转换,将其维度降低到 。编码器模块生成四个层次的输出表示。每个阶段后跟一个下采样层,将空间维度减半,同时将通道数翻倍。转到解码器,包含四个C-VSS层的四个阶段,每个阶段包含两个块,除了最后阶段,只包含一个块。然后应用patch扩展层以实现分辨率上采样,同时将通道维度减少2倍。最后,一个线性层负责生成最终输出。我们的SUM架构使用在ImageNet[12]上预训练的VMamba[47]权重。这种预训练加速了学习过程,提高了模型检测显著区域的能力,并确保了在多样化图像上更好的泛化。 3.2. 视觉状态空间(VSS) Mamba[18]采用SSMs[19]将注意力的复杂性从二次降低到线性,用于长序列建模。这在视觉任务中特别有益,因为它具有更高的准确性、更低的计算负载和更低的内存需求[67]。然而,将Mamba的固有1D、因果扫描适应于2D图像面临挑战,因为它的接收场受限,并且无法有效处理未扫描的数据。为了解决这些问题,VMamba[47]引入了交叉扫描模块,该模块沿水平和垂直轴进行双向扫描。该模块将图像扩展为以四个方向扫描的patch序列,使每个像素能够整合所有方向的信息。随后,这些序列被重新组装成原始的2D格式,形成一个完整的图像。被称为2D-Selective-Scan(SS2D)的方法增强了Mamba对2D空间处理的功能,确保了局部和全局空间的相关性。基于这些见解,我们将VSS块作为SUM中的基本单元。如图1(c)所示,VSS模块可以表述为: 其中输入特征由 表示。操作符 表示逐元素乘法操作,LN代表LayerNorm,DW-Conv代表深度卷积,SiLU[15]是一个激活函数。 3.3. 条件视觉状态空间(C-VSS) 我们通过根据输入类型对解码器中的VSS块进行条件化,增强了模型对多样化视觉内容的适应性。这对于有效预测显著性图至关重要,因为不同类型的内容以不同的方式吸引观众的注意力。例如,自然场景可能关注颜色和运动,电子商务图像关注文本信息,UI设计关注特定布局模式,如左上象限。为了解决这些变化,我们通过动态缩放和移位操作调制特征图,根据输入类型调整特征激活。调制后的特征图可以定义为: 其中 表示原始特征图。这里, 是缩放因子, 是移位因子, 是逐元素乘法。 为了提高我们模型有效处理不同数据类型的能力,我们定义了 个可学习的标记,每个标记的维度为 。每个标记被指定捕获以下数据类别之一的独特信息:自然场景-鼠标、自然场景-眼睛、电子商务和UI。这些标记提供了比简单的单热编码更细致的机制,使模型能够适应并学习详细的类型特定信息。我们已经为自然场景数据分配了两个标记,因为这些类别的数据收集方法不同,眼睛和鼠标。将它们归为一个标记可能会在推理期间混淆模型。如[59]中讨论的,鼠标跟踪数据不如眼动跟踪数据一致,更分散,并且与眼动跟踪数据的分布不完全一致,特别是在不同的上下文区域。此外,虽然鼠标跟踪数据可以导致训练现有模型的可接受结果,但对于模型选择和评估来说不够可靠。基于这些见解和我们的实验,我们区分了自然场景的鼠标和眼睛数据。 随后,相关标记被送入一个多层感知器(MLP)模型中,以确保学习基于每种数据类型的特定特征。MLP由 个隐藏层组成,每层有 个特征。这个MLP旨在回归参数 和 ,这些参数根据输入的多样性调制模型。MLP定义为 ,输出一个矩阵 ,每一行代表四个输入标记之一,并生成五个关键参数。这些参数包括 和 的对和个别实例,具体为 。输入标签 决定了从 中选择的相关行,结果输出向量 。这个 向量包含针对指定输入微调的调制参数。然后这些参数被整合到模型中以动态修改其行为: 用于移位和缩放 , 调整SS2D块的缩放以调节特征强度, 移位和缩放 。这使得MLP能够精确控制模型内部的归一化和缩放,从而提高其性能和在不同视觉内容类型上的泛化能力。 3.4. 损失函数 我们的模型使用一个复合损失函数,该函数在视觉显著性预测中受到[2, 14, 48]的启发。这个函数整合了五个不同的组件,每个组件旨在通过针对显著性预测任务的不同方面来优化显著性图的预测精度。损失函数被表述为: 其中 表示真实的显著性图, 表示真实的注视图, 是网络预测的显著性图。损失函数的每个组件都具有特定的目的,如下所述。Kullback-Leibler散度(KL):KL散度测量预测和真实分布之间的差异,提供了一种方法,在模型的预测显著偏离实际数据分布时对模型进行惩罚。 线性相关系数(CC):相关系数评估预测和真实显著性图之间的线性关系。更高的相关性表明模型预测与真实趋势一致,提高了显著性图的可靠性。 相似性(SIM):SIM评估预测和实际显著性图之间的重叠,强调准确预测显著区域的重要性。 归一化扫描路径显著性(NSS):NSS测量归一化预测显著性图和实际注视点之间的相关性,突出了模型在捕获人类注意力模式方面的有效性。 均方误差(MSE):该组件计算预测和实际显著性图之间的均方误差,直接惩罚像素级显著值的不准确性。通过调整权重系数 ( ),我们的目标是最小化差异度量(KL, MSE)并最大化相似度量(CC, SIM, NSS)。这一策略确保了模型能够准确预测显著性图,并与人类视觉注意力模式和显著性分布紧密对齐。 4. 实验 声明 本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。 在「深度学习爱好者」公众号后台回复: Pytorch常用函数手册 ,即可下载全网第一份Py torch常用函数手册,涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数 、CUDA编程、多线程处理 等十四章章内容。在「小白学视觉 」 公众号后台回复:Python视觉实战项目 , 即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别 等31个视觉实战项目,助力快速学校计算机视觉。 欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉 驶、 计算摄影 、检测、分割、识别、医学影像、GAN、算法竞赛 等微信群(以后会逐渐细分), 请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过 。添加成功后会根据研究方向邀请进入相关微信群。请勿 在群内发送广告 ,否则会请出群,谢谢理解~