【Mamba】是一种新型状态转移模型,近年来在深度学习领域中逐渐引起关注。它通过引入新的状态转移机制,显著提升了模型在时序数据处理和动态系统模拟中的表现。Mamba技术在自然语言处理、金融时间序列预测和生物信息学等多个领域展示了其潜力和有效性,其创新的方法和良好的表现使其成为研究的热点之一。
为了帮助大家全面掌握Mamba的方法并寻找创新点,本文总结了最近两年【Mamba】相关的20篇最新论文的研究成果,这些论文的文章、来源以及论文的代码都整理好了,希望能为各位的研究工作提供有价值的参考。
1、MambaLRP:Explaining Selective State Space Sequence Models
-这篇文章深入探讨了一种新型的序列建模方法——选择性状态空间序列模型(Selective State Space Sequence Models),通常被称为Mamba模型。Mamba模型因其高效的线性时间处理长序列的能力而受到广泛关注,并已在多种应用领域展现出优异的性能,如语言建模等。然而,随着这些模型在现实世界应用的迅速推广,确保它们的透明度和可解释性变得至关重要。
-文章的核心贡献是提出了一种名为MambaLRP的新算法,该算法将层级相关性传播(Layer-wise Relevance Propagation, LRP)集成到了Mamba架构中。LRP是一种解释性AI方法,它通过单次反向传播明确识别输入特征的相关性。MambaLRP算法基于相关性守恒的公理,理论上合理、易于实现且计算效率高,能够稳定可靠地在Mamba模型中传播相关性。
-文章首先介绍了结构化状态空间序列模型(SSMs)的相关工作,然后详细阐述了Mamba模型的架构和LRP框架的背景知识。接着,文章通过一系列定量评估,展示了MambaLRP在不同模型和数据集上实现的高解释性能,超越了多种基线解释方法以及直接将LRP应用于Mamba架构的简单移植。
-此外,文章还探讨了MambaLRP在多个领域的应用,包括深入洞察模型的预测机制、揭示图像分类中的不良决策策略、识别语言模型中的性别偏见,以及分析Mamba模型的长距离依赖能力。作者还公开了相关代码,以便研究者进一步研究和应用。
-在实验部分,文章对MambaLRP的有效性进行了基准测试,与现有的解释神经网络的方法进行了比较。实验使用了多种文本分类数据集和ImageNet数据集进行视觉实验。结果表明,MambaLRP在保持相关性守恒的同时,提供了更加准确和可靠的解释。
-最后,文章讨论了Mamba模型作为Transformers的高效替代品的出现,以及提高其可解释性的重要性。作者强调,尽管实验集中在视觉和语言模型上,但MambaLRP的用途不仅限于这些领域。文章以对MambaLRP未来在更广泛应用中的潜力的展望作为结尾,并感谢了资助该研究的德国教育和研究部以及韩国政府的相关机构。
2、DualMamba: A Lightweight Spectral-Spatial Mamba-Convolution Network for Hyperspectral Image Classification
-这篇文章提出了一种新颖的轻量级双流Mamba-卷积网络(DualMamba),专为高光谱图像(HSI)分类设计。HSI分类对于遥感领域至关重要,因为它能够根据像素的光谱特征将其归类,这项技术在环境监测、资源管理、农业灾害响应和军事防御等方面有着广泛的应用。传统的基于卷积神经网络(CNN)和变换器的方法在计算负担上较为沉重,并且在捕获全局-局部光谱-空间特征表示方面仍有改进空间。
-文章的核心贡献是开发了一种并行轻量级Mamba和CNN块,以提取全局和局部的光谱-空间特征。首先,提出了一种交叉注意力光谱-空间Mamba模块,利用Mamba的全局建模能力,并通过动态位置嵌入增强视觉序列的空间位置信息。
-轻量级光谱/空间Mamba块包括高效的扫描策略和轻量级Mamba设计,以高效提取全局光谱-空间特征。接着,设计了交叉注意力光谱-空间融合,学习交叉相关性并融合光谱-空间特征。其次,提出了轻量级光谱-空间残差卷积模块,通过残差学习提取局部光谱-空间特征。最后,提出了自适应全局-局部融合,动态结合全局Mamba特征和局部卷积特征,以实现全局-局部光谱-空间表示。
-实验结果表明,与现有的最先进的HSI分类方法相比,DualMamba在三个公共HSI数据集上取得了显著的分类准确率,同时在模型参数和浮点运算(FLOPs)上实现了大幅度减少。这表明DualMamba在保持高效的同时,能够提供有效的HSI分类性能。
-文章还详细介绍了相关工作,包括基于深度学习的HSI分类方法、状态空间模型和Mamba。作者详细描述了DualMamba的方法,包括预备知识、交叉注意力光谱-空间Mamba模块、轻量级光谱-空间残差卷积模块以及自适应全局-局部融合。通过在三个HSI数据集上的广泛实验,展示了所提方法的有效性。
-此外,文章通过定量结果和分析、模型复杂性和效率的讨论,以及消融研究和参数分析,进一步验证了DualMamba设计的有效性和效率。最后,文章得出结论,DualMamba是一个高效且轻量级的HSI分类网络,能够以最少的参数和计算复杂性实现优越的分类精度。
3、Autoregressive Pretraining with Mamba in Vision
-这篇文章探讨了一种新型的自回归预训练方法(ARM),专门针对视觉领域中的Mamba架构。Mamba是一种状态空间模型(SSM),在自然语言处理(NLP)中因其线性复杂度处理长序列的能力而展现出巨大潜力。文章的核心贡献是展示了通过自回归预训练,可以显著提升Mamba在视觉任务上的表现,这一方向之前尚未被探索。
-自回归预训练是一种自我监督的视觉表示学习范式,它预测输入序列中的下一个token,从序列的开始到结束。这种方法在NLP中已经非常成功,如Transformer和Mamba等架构。文章指出,Mamba的线性注意力特性使其非常适合自回归建模,因为这种配置确保每个token只能关注其前面的token,与自回归建模的基本原理完全一致。
-实验结果表明,自回归预训练使基础尺寸的Mamba在ImageNet上达到了83.2%的准确率,超越了其监督训练的对应版本2.0%。此外,作者还成功训练了迄今为止最大的Mamba视觉模型(ARM-H),在ImageNet上达到了85.0%的准确率(当使用384×384输入进行微调时,准确率可达到85.5%),显著超越了所有其他Mamba变体。
-文章还详细介绍了自回归预训练的关键要素,包括输入序列的形成策略。作者选择了将空间上邻近的patches组成更大的64×64的簇作为预测单元,并通过行优先的前向顺序对这些簇进行排列,这种方法简单有效,被称为ARM。
-此外,文章还探讨了Mamba在视觉领域的应用,包括各种新架构的设计,以及在分割和图像合成等任务中的应用。作者提出的MambaMLP块结合了Mamba作为token混合器和多层感知器(MLP)作为通道混合器,这种设计在预训练和微调阶段有所不同,以满足它们不同的需求。
-在实验部分,作者详细介绍了ARM的实现细节,包括预训练和微调的设置,并在ImageNet-1K数据集上进行了广泛的结果验证。作者还评估了模型在多种领域外的ImageNet变体上的表现,证明了ARM在不同条件下的鲁棒性和泛化能力。
-最后,文章通过一系列消融实验进一步分析了ARM的效果,包括预测单元的数量、预测顺序、解码器设计、预测目标以及预训练范式。这些实验结果为ARM的有效性提供了有力的证据,并展示了其在不同配置下的性能。
-文章的结论强调了ARM作为一种新的自回归视觉预训练策略,为Mamba架构在视觉领域的应用奠定了坚实的基础,并为未来的探索和潜在扩展提供了可能。作者希望这项工作能够激发社区对自回归预训练策略在视觉领域中应用的更多研究。
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
确保文章为个人原创,未在任何公开渠道发布。若文章已在其他平台发表或即将发表,请明确说明。
建议使用Markdown格式撰写稿件,并以附件形式发送清晰、无版权争议的配图。
【AI前沿速递】尊重作者的署名权,并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。
您可以通过添加我们的小助理微信(aiqysd)进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”
长按添加AI前沿速递小助理