【魔改Mamba系列】Mamba-YOLO-World: 将 YOLO-World 与 Mamba 结合用于开放词汇检测

科技 2024-11-27 11:01 中国香港

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”

论文信息

题目：Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

Mamba-YOLO-World: 将 YOLO-World 与 Mamba 结合用于开放词汇检测

作者：Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang

论文创新点

Mamba-YOLO-World模型：作者提出了一个新颖的基于YOLO的开放词汇检测(OVD)模型，名为Mamba-YOLO-World。该模型采用了作者提出的**MambaFusion Path Aggregation Network (MambaFusion-PAN)**作为其颈部架构，这是对传统YOLO系列在OVD领域应用的一个重要扩展。
基于状态空间模型的特征融合机制：作者引入了一个创新的基于状态空间模型的特征融合机制，包括并行引导选择性扫描算法和串行引导选择性扫描算法。这一机制具有线性复杂度和全局引导的接受域，能够有效地利用多模态输入序列和mamba隐藏状态来指导选择性扫描过程，从而提高了模型在开放词汇检测任务中的表现。

摘要

开放词汇检测（OVD）旨在检测超出预定义类别集的对象。作为将 YOLO 系列纳入 OVD 的先驱模型，YOLO-World 非常适合优先考虑速度和效率的场景。然而，其性能受到其颈部特征融合机制的限制，这导致了二次复杂度和有限的引导接受域。为了解决这些限制，我们提出了 Mamba-YOLO-World，这是一个新颖的基于 YOLO 的 OVD 模型，采用了我们提出的 MambaFusion Path Aggregation Network（MambaFusion-PAN）作为其颈部架构。具体来说，我们引入了一个创新的基于状态空间模型的特征融合机制，包括一个并行引导选择性扫描算法和一个串行引导选择性扫描算法，具有线性复杂度和全局引导的接受域。它利用多模态输入序列和 mamba 隐藏状态来指导选择性扫描过程。实验表明，我们的模型在 COCO 和 LVIS 基准测试中的零样本和微调设置下均优于原始的 YOLO-World，同时保持了可比的参数和 FLOPs。此外，它以更少的参数和 FLOPs 超越了现有的最先进的 OVD 方法。关键词—目标检测，开放词汇，Mamba

关键词

目标检测、开放词汇、Mamba

方法

Mamba-YOLO-World 主要基于 YOLOv8[30] 开发，包括一个 Darknet 背骨[3]和一个 CLIP[31] 文本编码器作为模型的背骨，我们的 MambaFusion-PAN 作为模型的颈部，以及一个文本对比分类头和一个边界框回归头作为模型的头部，如图 2 所示。

Mamba 预备知识

对于连续输入信号，SSM[32] 将其映射到连续输出信号通过一个隐藏状态。 (1) (2) 其中 E 是 SSM 状态扩展因子，是状态转移矩阵，和分别是输入和输出映射矩阵。在 SSM 的基础上，Mamba[21] 引入了选择性扫描算法，使 A、B 和 C 成为输入序列的函数。

MambaFusion-PAN

MambaFusion-PAN 是作者提出的用于替换 YOLO 中路径聚合特征金字塔网络的特征融合网络。如图 2(a) 所示，MambaFusion-PAN 利用作者提出的基于 SSM 的并行和串行特征融合机制来聚合多尺度图像特征，并通过视觉和语言分支之间的三阶段特征融合流程同时增强文本特征：文本到图像、图像到文本，最后是文本到图像。具体组件在本节的以下部分详细说明。

Mamba 隐藏状态

目前，基于 Transformer 和基于 Mamba 的 VLMs 简单地串联多模态特征[18]、[19]、[27]-[29]、[33]、[34]，导致随着文本序列长度和图像分辨率的增长，复杂度不可避免地增加。尽管 YOLO-World 中的 VL-PAN 采用了单向融合而没有特征串联，但它仍然导致了 O(N^2) 复杂度。这是由于文本到图像融合流程中的视觉通道注意力机制和图像到文本融合流程中的多头交叉注意力机制。为了解决这些问题，我们提出通过 mamba 隐藏状态作为不同模态之间特征融合的中介，其中 D 是输入序列的维度，E 是 SSM 状态扩展因子[21]、[26]。由于 D 和 E 都是常数且不受序列长度的影响，我们的特征融合机制的复杂度为 O(N + 1)，其中 N 来自一个模态的输入序列，1 来自另一个模态的 mamba 隐藏状态。

TextMambaBlock

TextMambaBlock 由堆叠的 Mamba 层组成。给定从 CLIP 文本编码器输出的文本嵌入，我们采用图 2(b) 中描述的 TextMambaBlock 不仅提取输出文本特征，还提取文本隐藏状态 THS ，这将用于后续的文本到图像特征融合。

MF-CSPLayer

如图 2(c) 所示，我们通过 MambaFusion CSPLayer（MF-CSPLayer）将 THS 与多尺度图像特征集成在一起。MF-CSPLayer 将提出的并行引导选择性扫描算法并入 YOLO CSPLayer 风格的网络中。通过 MFCSPLayer 处理后我们不仅可以获得输出图像特征，还可以获得图像隐藏状态 IHS ，这将用于后续的图像到文本特征融合。

并行引导选择性扫描

Mamba 选择性扫描算法根据输入序列动态调整内部参数。受此启发，我们创新性地提出了并行引导选择性扫描（PGSS）算法，它根据输入图像序列和 THS 在扫描过程中动态调整 Mamba 内部参数（A、B 和 C），如图 2(d) 和算法 1 所示。因此，压缩的文本信息与整个视觉选择性扫描过程并行注入 Mamba，使得多尺度图像特征在像素级而不是通道级得到引导。由此产生的输出被传递到 MF-CSPLayer 的后续层。以下，我们将这部分称为文本到图像特征融合流程。

串行引导选择性扫描

Mamba 选择性扫描算法根据输入序列持续将信息压缩到 h(t) 中。受此启发，我们提出了串行引导选择性扫描（SGSS）算法，并将其整合到 TextMambaBlock 中，如图 2(e) 所示。SGSS 的目标是将先前序列的先验知识压缩到 h(t) 中，并将其作为后续序列的引导。具体来说，SGSS-TextMambaBlock 通过扫描压缩的视觉信息 IHS 来串行调整 Mamba 内部参数（A、B 和 C），然后提取文本特征。以下，我们将这部分称为图像到文本特征融合流程。

实验

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247570855&idx=2&sn=1f496316c4d6803822128a8aab91be93

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

微调 YOLO 做车辆、人员、交通标志检测 | 附代码+数据集

【魔改Mamba系列】视觉Mamba和多尺度多频率特征融合，实现遥感图像分割：

使用视觉语言模型（VLMs）进行目标检测

招生信息 | 加州大学圣地亚哥分校Dr. Lianhui Qin招收NLP方向博士

【魔改Mamba系列】Mamba-YOLO-World: 将 YOLO-World 与 Mamba 结合用于开放词汇检测

视觉Transformer同架构设计和训练技巧

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

医图论文 Arxiv'24 | TP-UNet：用于医学图像分割的时间提示引导UNet

知识蒸馏综述：代码整理

招生信息 | 波士顿学院Dr. Yuan Yuan实验室开放人工智能方向多个博后、博士、硕士及本科生岗位

【魔改YOLO系列】Hyper-YOLO: 利用超图计算增强目标检测

思考 | 什么时候不要使用神经网络？

招生信息 | 英国贝尔法斯特女王大学Dr. Shuyan Li团队招生

【魔改YOLO系列】YOLO-Claw：快速准确的鸡爪检测方法

你是几级调参侠？

博士招生 | 深圳理工大学人工智能学院客座研究生招聘

【魔改YOLO系列】YOLO-PPA：YOLO中引入并行块感知注意力实现高效交通标志检测

使用YOLO World进行高性能目标检测

招生信息 | 香港城市大学Dr. Su Wen招收统计学习方向博士生

【魔改YOLO系列】Hyper-YOLO: 超图计算与YOLO结合实现目标检测

奇异值分解（SVD）原理总结

Nature打破传统！“天才大神”展示深度学习＋视觉成像的全新思路！将颠覆传统研究！

招生信息 | 英国贝尔法斯特女王大学计算机系Shi Xinming博士团队招募

知乎高赞：为什么编程语言会发展出“类型”？

约翰霍普金斯大学PENSA实验室Sijia Geng 博士招生

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

收藏 | 卷积神经网络压缩方法总结

招生信息 | 新加坡NUS计算机工程系Jin Yueming教授招收博士及博士后

【魔改Mamba系列】UNetMamba：一种用于高分辨率遥感图像语义分割的高效UNet类Mamba模型

使用零样本目标检测识别物体 | 附代码

独自一人，怒发顶会！！

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

【魔改Mamba系列】CAMS: 基于Mamba的无卷积和无注意力的图像分割

特征选择的通俗讲解！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

kaggle图像分割实战要点与技巧总结

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

一篇文章梳理清楚 Python 多线程与多进程

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

知识蒸馏综述：蒸馏机制

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

【魔改Mamba系列】DSDFormer: 一种创新的Transformer-Mamba框架，用于鲁棒高精度驾驶员分心识别

图像处理——过程全解析，配图超详细！

博士招生 | 埃默里大学计算机科学系Dr. Guo Zhichun实验室博士生招生

【魔改YOLO系列】无源域自适应YOLO目标检测

一博士狂编200多篇SCI发表，被揭发后畏罪自杀...网友：堪称史诗级学术骗局！

大模型经典著作《大语言模型基础与前沿》

博士招生 | UIUC 计算机科学系实验室博士生、博士后招募

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

【魔改Mamba系列】Mamba-YOLO-World: 将 YOLO-World 与 Mamba 结合用于开放词汇检测

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”论文信息

论文信息

题目：Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection

Mamba-YOLO-World: 将 YOLO-World 与 Mamba 结合用于开放词汇检测

作者：Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang

论文创新点

摘要

关键词

方法

Mamba 预备知识

MambaFusion-PAN

Mamba 隐藏状态

TextMambaBlock

MF-CSPLayer

并行引导选择性扫描

串行引导选择性扫描

实验

声明

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”

论文信息