MambaVision: 在视觉任务里,Mamba也能work?

文摘   科技   2024-07-15 18:30   上海  



思源Source报道
编辑:seefun
所周知,Mamba在NLP应用里并不如RWKV那么work。而Vision Mamba的效果更是连差强人意都做不到。Mamba从原理上或许真的不适合视觉任务,但是英伟达最近提出了一个新的transformer混合架构:MambaVision,真的能让Mamba在视觉领域化腐朽为神奇吗?

Github: https://github.com/NVlabs/MambaVision

Paper: https://arxiv.org/abs/2407.08083


摘要

nVIDIA提出了一个新的transformer混合架构:MambaVision

MambaVision在Top-1精度和吞吐量方面实现了SOTA的帕累托边界,表现出了强大的潜力:

方法

方法很简单,这篇工作引入了一个新的transformer mixer过增加SSM分支,来增强全局上下文建模

MambaVision采用经典的视觉模型4stage架构。前两个stage使用残差卷积块进行快速特征提取。后两个stage同时采用了MambaVision和Transformer模块。具体来说,给定N个层,使用N / 2个MambaVision+MLP模块,N / 2个Transformer+MLP模块。

伪代码如下:

评测

速度和精度上远超VisionMamba,速度上相比于纯ViT或纯CNN也有着较大优势,显示出了混合架构的优越性。

而在下游检测和分割任务上则优势不那么明显。

总体来说,通过Transformer混合架构,成功打破了Mamba不work的局面。Transformer混合架构,通过串联transforemr和其他模块,平衡了全局感知能力和计算复杂度,在NLP和CV领域都有着越来越广泛的应用。

但换句话说,这提升得益于混合架构本身的优势,而并非Mamba block。换成线性注意力、局部注意力,或者其他轻量化注意力机制的模块,可能也有类似的效果。


点击👇关注 “思源Source”

👇点个“赞”和“在看”吧

思源数据科学
Towards AGI
 最新文章