Mamba 虽好,但发展尚早。
论文标题:A Survey of Mamba 论文地址:https://arxiv.org/pdf/2408.01129
Mamba-360: Survey of state space models as transformer alternative for long sequence modelling: Methods, applications, and challenges. arXiv:2404.16112
State space model for new-generation network alternative to transformers: A survey. arXiv:2404.09516
Vision Mamba: A Comprehensive Survey and Taxonomy. arXiv:2405.04404
A survey on vision mamba: Models, applications and challenges. arXiv:2404.18861
A survey on visual mamba. arXiv:2404.15956
离散化
卷积计算
集成方法:将 Mamba 块与其它模型集成到一起,实现效果与效率的平衡; 替换方法:用 Mamba 块替换其它模型框架中的主要层; 修改方法:修改经典 Mamba 块内的组件。
展平式扫描方法:以展平的视角看待 token 序列,并基于此处理模型输入; 立体式扫描方法:跨维度、通道或尺度扫描模型输入,这又可进一步分为三类:分层扫描、时空扫描、混合扫描。
如何开发和改进基于 Mamba 的基础模型; 如何充分实现硬件感知型计算,以尽可能利用 GPU 和 TPU 等硬件,提升模型效率; 如何提升 Mamba 模型的可信度,这需要安全和稳健性、公平性、可解释性以及隐私方面的进一步研究; 如何将 Transformer 领域的新技术用于 Mamba,如参数高效型微调、灾难性遗忘缓解、检索增强式生成(RAG)。
END