开放词汇目标检测,正在超越Faster R-CNN、DETR、YOLOs等传统方法,成为CV领域极具潜力的研究方向,近两年顶会创新也层出不穷,腾讯重磅发布不久的YOLO-World,便是一种先进的开放词汇检测器,基于简洁高效的YOLOv8架构,通过视觉语言建模,以及大规模数据集的预训练,能够识别并定位训练集中未出现的新类别物体,具备超强的零样本及泛化性能,部署轻便!
为了帮助大家掌握YOLO-World,研梦非凡于9月10日晚(周二),邀请了CV领域资深算法工程师Frank导师,独家详解CVPR'24收录工作《YOLO-World:实时开放词汇目标检测》(AI前沿直播课NO.66),从传统目标检测回顾,到开放词汇/开集目标检测介绍,重点讲解YOLO-World主要贡献、网络结构及算法原理,并代码演示如何使用YOLO-World,1节课速通开放词汇目标检测,get论文改进和求职面试知识点!
👇🏻扫描二维码找助教0元预约直播课!
凡预约即可免费领取160篇目标检测精选论文(开放词汇/YOLO系列/顶会收录等)+文末还有算力等科研福利!
本节直播课内容概览
01 开放词汇目标检测和开集目标检测
传统目标检测算法及不足
YOLO系列检测器高效实用 缺点1:受限于预定义和训练的物体类别 缺点2:新类别可能错误归为有限类别的一种
开放词汇目标检测(OVOD)
概念:检测和识别未在训练集中明确标注的物体类别 特点1:视觉特征提取(ResNet或ViT) 特点2:文本嵌入(BERT或CLIP文本编码器) 特点3:视觉-语言匹配 特点4:多模态融合(注意力机制、自监督学习等)
开集目标检测(OSOD)
概念:与OVOD类似 区别:与OVOD不同,识别出未知类别后,不再继续判断
02 YOLO-World简介
YOLO-World主要贡献
先进的开放词汇对象检测器 可重新参数化的视觉-语言路径聚合网络 开放词汇区域-文本对比的预训练方案 强大的零样本性能,在LVIS上达到35.4 AP和52.0 FPS
YOLO-World网络结构
👇🏻扫描二维码找助教0元预约直播课!
凡预约即可免费领取160篇目标检测精选论文(开放词汇/YOLO系列/顶会收录等)+文末还有算力等科研福利!
03 YOLO-World算法原理
YOLO Detector
基于YOLOv8开发 主要包括Darknet骨干、路径聚合网络(PAN)、Head结构
Text Encoder
采用CLIP预训练的Transformer文本编码器 提供了更好的视觉语义能力
Re-parameterizable Vision-Language PAN(RepVL-PAN)
通过多尺度图像特征建立特征金字塔 通过文本引导CSPLayer和图像池注意,进一步增强图像特征和文本特征之间的交互 推理过程中,离线词汇嵌入可重新参数化以便部署
实验分析
04 YOLO-World代码讲解
开源代码实战演示
导师介绍
【个人背景】国内一线车企研究院资深算法工程师,擅长感知算法方向,在语义分割、车道线检测、2D和3D目标检测、BEV目标检测等领域,具有丰富的项目创新和落地经验。
【研究经历】曾主导多个重大项目,精通算法研究和部署端优化,以主要研究者身份,发表过CVPR多模态方向论文,在CV领域积累了多篇授权和落地专利。
👇🏻扫描二维码找助教0元预约直播课!
凡预约即可免费领取160篇目标检测精选论文(开放词汇/YOLO系列/顶会收录等)+文末还有算力等科研福利!
YOLO系列课程开学季活动
独家课程一《YOLOv8-10速成课程》
主要内容:精讲YOLOv8-10论文和代码,以及具体任务的轻量化部署 上线时间:2024年 课程时长:共5节课,约5小时 课程形式:录播课,下单即可畅听全部内容 开课福利:免费领取YOLOV1-10全部论文&代码&数据集+YOLO近年改进论文等资料 开学福利价:5.99元
独家课程二《YOLO全家桶训练营》
主要内容:重点讲解YOLOv1-10的算法原理、代码实现、项目实战等 上线时间:2024年 课程时长:共9节课,约9小时 课程形式:直播课,每周1节,目前已开课,本周预计上线第6节,下单后畅享往期回放 开课福利:若完成课程打卡,送价值2000元的研梦年卡会员;免费领取YOLOV1-10全部论文&代码&数据集+YOLO近年改进论文等资料 开学福利价:咨询助教
👇🏻 扫码加助教咨询/开课立享开学福利价!
研梦非凡科研论文指导方案
👇🏻扫描二维码咨询助教两种指导方案