MambaVision: 在视觉任务里，Mamba也能work？

文摘科技 2024-07-15 18:30 上海

思源Source报道

编辑：seefun

众所周知，Mamba在NLP应用里并不如RWKV那么work。而Vision Mamba的效果更是连差强人意都做不到。Mamba从原理上或许真的不适合视觉任务，但是英伟达最近提出了一个新的transformer混合架构：MambaVision，真的能让Mamba在视觉领域化腐朽为神奇吗？

Github: https://github.com/NVlabs/MambaVision

Paper: https://arxiv.org/abs/2407.08083

摘要

nVIDIA提出了一个新的transformer混合架构：MambaVision

MambaVision在Top-1精度和吞吐量方面实现了SOTA的帕累托边界，表现出了强大的潜力：

方法

方法很简单，这篇工作引入了一个新的transformer mixer，通过增加SSM分支，来增强全局上下文建模

MambaVision采用经典的视觉模型4stage架构。前两个stage使用残差卷积块进行快速特征提取。后两个stage同时采用了MambaVision和Transformer模块。具体来说，给定N个层，使用N / 2个MambaVision+MLP模块，N / 2个Transformer+MLP模块。

伪代码如下：

评测

速度和精度上远超VisionMamba，速度上相比于纯ViT或纯CNN也有着较大优势，显示出了混合架构的优越性。

而在下游检测和分割任务上则优势不那么明显。

总体来说，通过Transformer混合架构，成功打破了Mamba不work的局面。Transformer混合架构，通过串联transforemr和其他模块，平衡了全局感知能力和计算复杂度，在NLP和CV领域都有着越来越广泛的应用。

但换句话说，这提升得益于混合架构本身的优势，而并非Mamba block。换成线性注意力、局部注意力，或者其他轻量化注意力机制的模块，可能也有类似的效果。

点击👇关注 “思源Source”

👇点个“赞”和“在看”吧

思源数据科学

Towards AGI

最新文章

粉丝专属 | 红包封面 & 抽奖

拥抱新时代：transformers深度集成timm

Kimi 1.5 技术报告解读

粉丝专属 | 红包封面第二弹

粉丝专属 | 新年红包 & 红包封面

创业项目的两大误区 | 文末红包

英伟达50系显卡发布，5070打平4090

2025年，AI工程师必读的50篇论文

AI工程师必读论文：链接汇总

Alec Radford：最强本科生，如何成长为OpenAI资深研究员

Jina CLIP v2：为多模态RAG设计的向量模型

解密o1推理过程！DeepSeek-R1-Lite预览版上线

Pixtral Large：124B的最强开源多模态大模型

审稿人要求引用文章怎么办？凉拌！

高通量实验正在重塑工业AI优化的范式

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、AI视频生成和具身智能，30+位重磅嘉宾抢先看！

Omnivision-968M：最小多模态模型，为边缘设备而生！

一文读懂：从RAG到多模态RAG

仅1.3B！Janus 统一多模态理解和生成

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响

YOLO11问世！重新定义AI的可能性！

Emu3: 统一多模态输入与生成

Llama 3.2：走向多模态

通向高分辨率VLM (10): 原生动态分辨率

OpenAI o1: 大家都忽略的一点

Hugging Face最新视频数据集：FineVideo

流言四起！商业化受阻？Scaling Law失效？大模型行业怎么了？

李沐：大模型发展趋势与个人职业选择

反思：CNN和ViT，到底谁更快

校外可参加！8月23日重磅讲座@李沐

大模型面试体会和分享（2024版）

热榜第一！可视化理解transformer原理