众所周知,Mamba在NLP应用里并不如RWKV那么work。而Vision Mamba的效果更是连差强人意都做不到。Mamba从原理上或许真的不适合视觉任务,但是英伟达最近提出了一个新的transformer混合架构:MambaVision,真的能让Mamba在视觉领域化腐朽为神奇吗?
Github: https://github.com/NVlabs/MambaVision
Paper: https://arxiv.org/abs/2407.08083
摘要
nVIDIA提出了一个新的transformer混合架构:MambaVision
MambaVision在Top-1精度和吞吐量方面实现了SOTA的帕累托边界,表现出了强大的潜力:
方法
方法很简单,这篇工作引入了一个新的transformer mixer,通过增加SSM分支,来增强全局上下文建模
MambaVision采用经典的视觉模型4stage架构。前两个stage使用残差卷积块进行快速特征提取。后两个stage同时采用了MambaVision和Transformer模块。具体来说,给定N个层,使用N / 2个MambaVision+MLP模块,N / 2个Transformer+MLP模块。
伪代码如下:
评测
速度和精度上远超VisionMamba,速度上相比于纯ViT或纯CNN也有着较大优势,显示出了混合架构的优越性。
而在下游检测和分割任务上则优势不那么明显。
总体来说,通过Transformer混合架构,成功打破了Mamba不work的局面。Transformer混合架构,通过串联transforemr和其他模块,平衡了全局感知能力和计算复杂度,在NLP和CV领域都有着越来越广泛的应用。
但换句话说,这提升得益于混合架构本身的优势,而并非Mamba block。换成线性注意力、局部注意力,或者其他轻量化注意力机制的模块,可能也有类似的效果。
点击👇关注 “思源Source”
👇点个“赞”和“在看”吧