CV | [顶刊CVPR2024]YOLO-World论文详解

文摘   2024-10-31 13:58   马来西亚  
👆点击上方名片关注哟👆


2024年,腾讯发布了可以集成到ComfyUI的工作流程,只是提示调优,图像提示,高分辨图像 等功能,让我们来具体解读一下论文吧~

论文:2024.2.22v3_Real-Time Open-Vocabulary Object Detection

论文地址:https://arxiv.org/pdf/2401.17270

代码地址:https://github.com/AILab-CVC/YOLO-World

Demo:https://www.yoloworld.cc/

YOLO-World使用一种名为RepVL-PAN(Pr-parmeteriable Vision-Langeuate Path Aggregation Network)的新网络来促进视觉和语言信息之间的交互,以零样本的方式高效运行。使用开放词汇对象检测更快、更便宜和更广泛可用。YOLO-World保持几乎相同的精度,比之前好的零样本检测器快20倍,小了5倍。

论文详解

摘要

You Only Look Once (YOLO) 系列探测器已成为高效实用的工具。但是,它们对预定义和训练的对象类别的依赖限制了它们在开放场景中的适用性。为了解决这一局限性,论文引入了YOLO-World,这是一种创新方法,通过视觉语言建模和大规模数据集上的预训练,增强了YOLO的开放词汇检测能力。具体来说,论文提出了一种新的可重参数化的视觉-语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,以促进视觉和语言信息之间的交互。擅长以零样本方式高效检测各种物体。在具有挑战性的LVIS数据集上,YOLO-World在V100上实现了35.4 AP,FPS为52.0 FPS,在准确性和速度方面都优于许多最先进的方法。此外,经过微调的YOLO-World在多个下游任务上取得了卓越的性能,包括对象检测和开放词汇实例分割。

方法

1.预训练公式:区域-文本对

传统的YOLO系列(例如YOLOv5,YOLO6,YOLO7,YOLO8),需要有bounding box有instance annotation去训练,但YOLO-World 同时采用图像  和文本 (一组名词)作为输入,输出预测的边界框  及其对应的目标嵌入

2.模型架构

YOLO-WORLD的骨干采用了YOLO的现有结构,语言模型采用了CLIP模型。使用文本和图像特征中的特征通过区域到文本对比学习连接到 RepVL-PAN。YOLO检测将图像-文本数据集成到区域-文本对中。

YOLO检测器(YOLO Detector)

  • 基于 Ultralytics YOLOv8;

  • 从输入影像中提取多尺度要素。

  • 暗网骨干作为图像编码器

  • 多尺度特征金字塔的路径聚合网络(PAN),

  • head 用于边界框回归和对象嵌入。


文本编码器(Text Encoder):

  • 使用CLIP 预训练的 Transformer 文本编码器;

  • 将文本编码为文本嵌入


文本对比头(Text Contrastive Head)

  • 使用了yolov8的解耦头和俩个3×3卷积

  • 因为要计算目标-文本的相似度,所以提出文本对比头

  • 为了稳定区域-文本训练,目标编码e和文本编码t使用L2-Norm


在线词汇训练(Training with Online Vocabulary)

在训练过程中,为每个包含4幅图像的马赛克样本构建一个在线词汇表 。

离线词汇推理(Inference with Offline Vocabulary)

提出了一种以“提示后检测”的策略,使用离线词汇以进一步提高效率。

3.✨可重新参数化的视觉语言路径聚合网络 (RepVL-PAN)

 - 在图像特征和文本嵌入之间执行多级跨模态融合

  • 提出RepVL-PAN的结构:PAN中的自顶向下和自底向上的路径,建立具有多尺度图像特征的特征金字塔。

  • 提出了文本引导的CSPLayer(T-CSPLayer)和图像池化注意力(I-Pooling Attention),以进一步增强图像特征与文本特征之间的交互,这可以提高开集能力的视觉语义表示。

  • 在推理过程中,离线词汇嵌入可以重新参数化为卷积层或线性层的权重以进行部署。

与传统的YOLO检测器相比,YOLO-World是一个开放的词汇检测器,它使用文本作为输入,而文本编码器首先将输入文本编码为嵌入。然后,图像编码器将输入图像编码为多层图像特征,RepVL-PAN对图像和文本特征进行多层跨模态融合。最后,YOLO-World 预测与输入文本中出现的类别或名词匹配的校准边界框和对象嵌入。

YOLO-World提供三种型号:小型13M(重新参数化77M),中型29M(重新参数化92M)和大型48M(重新参数化110M)参数。

在LVIS数据集上对模型进行了基准测试,YOLO-World达到了35.4 AP和52.0 FPS之间的大版本和26.2 AP和74.1 FPS的小版本。

实验

在 LVIS minival上对 YOLO-World 进行了评估。报告了固定 AP ,以便与最新方法进行比较。† 表示设置中的伪标记 CC3M,其中包含 246k 个样本。FPS 是在没有 TensorRT 的 NVIDIA V100 GPU 上评估的。对 YOLO-World 重新参数化版本(不含括号)和原始版本(含括号)的参数和 FPS 进行了评估。

在 COCO 物体检测方面与 YOLO各个模型进行比较,在 COCO train2017 上对 YOLO-World 进行了微调,并在 COCO val2017 上进行了评估。

结论

YOLO-World 是一种先进的实时开放词汇检测器,旨在提高实际应用中的效率和开放词汇能力。在本文中,将流行的 YOLO 重塑为用于开放词汇预训练和检测的视觉语言 YOLO 架构,并提出了 RepVL-PAN,它将视觉和语言信息与网络连接起来,并可重新参数化以实现高效部署。进一步提出了有效的预训练方案,包括检测、接地和图像文本数据,从而赋予 YOLOWorld 强大的开放词汇检测能力。实验证明了 YOLO-World 在速度和开放词汇性能方面的优越性,也表明了在小型模型上进行视觉语言预训练的有效性,这对未来的研究很有启发。论文希望 YOLO-World 能成为解决现实世界开放词汇检测问题的新基准。



想要了解更多内容,可在小程序搜索🔍AI Pulse,获取更多最新内容。

AI Pulse
\x26quot;AI Pulse - AI脉动\x26quot;,探索AI技术前沿,深入解析算法精髓,分享行业应用案例,洞察智能科技未来。欢迎关注,与我们共赴AI学习之旅。
 最新文章