基于YOLO v8融合CLIP!CVPR 2024多模态检测神器!

科技   2024-09-10 16:17   浙江  

开放词汇目标检测,正在超越Faster R-CNN、DETR、YOLOs等传统方法,成为CV领域极具潜力的研究方向,近两年顶会创新也层出不穷,腾讯重磅发布不久的YOLO-World,便是一种先进的开放词汇检测器,基于简洁高效的YOLOv8架构,通过视觉语言建模,以及大规模数据集的预训练,能够识别并定位训练集中未出现的新类别物体,具备超强的零样本及泛化性能,部署轻便!

为了帮助大家掌握YOLO-World,研梦非凡于9月10日晚(周二),邀请了CV领域资深算法工程师Frank导师,独家详解CVPR'24收录工作《YOLO-World:实时开放词汇目标检测》AI前沿直播课NO.66)从传统目标检测回顾,到开放词汇/开集目标检测介绍,重点讲解YOLO-World主要贡献、网络结构及算法原理,并代码演示如何使用YOLO-World,1节课速通开放词汇目标检测,get论文改进和求职面试知识点!

👇🏻扫描二维码找助教0元预约直播课!

凡预约即可免费领取170篇目标检测精选论文(开放词汇/YOLO系列/顶会收录等)+文末还有算力等科研福利!


unsetunset本节直播课内容概览unsetunset

01 开放词汇目标检测和开集目标检测

  1. 传统目标检测算法及不足
  • YOLO系列检测器高效实用
  • 缺点1:受限于预定义和训练的物体类别
  • 缺点2:新类别可能错误归为有限类别的一种
  1. 开放词汇目标检测(OVOD)
  • 概念:检测和识别未在训练集中明确标注的物体类别
  • 特点1:视觉特征提取(ResNet或ViT)
  • 特点2:文本嵌入(BERT或CLIP文本编码器)
  • 特点3:视觉-语言匹配
  • 特点4:多模态融合(注意力机制、自监督学习等)
  1. 开集目标检测(OSOD)
  • 概念:与OVOD类似
  • 区别:与OVOD不同,识别出未知类别后,不再继续判断

02 YOLO-World简介

  1. YOLO-World主要贡献
  • 先进的开放词汇对象检测器
  • 可重新参数化的视觉-语言路径聚合网络
  • 开放词汇区域-文本对比的预训练方案
  • 强大的零样本性能,在LVIS上达到35.4 AP和52.0 FPS
  1. YOLO-World网络结构

👇🏻扫描二维码找助教0元预约直播课!

凡预约即可免费领取170篇目标检测精选论文(开放词汇/YOLO系列/顶会收录等)+文末还有算力等科研福利!

03 YOLO-World算法原理(重点)

  1. YOLO Detector
  • 基于YOLOv8开发
  • 主要包括Darknet骨干、路径聚合网络(PAN)、Head结构
  1. Text Encoder
  • 采用CLIP预训练的Transformer文本编码器
  • 提供了更好的视觉语义能力
  1. Re-parameterizable Vision-Language PAN(RepVL-PAN)
  • 通过多尺度图像特征建立特征金字塔
  • 通过文本引导CSPLayer和图像池注意,进一步增强图像特征和文本特征之间的交互
  • 推理过程中,离线词汇嵌入可重新参数化以便部署
  1. 实验分析

04  YOLO-World代码讲解(重点)

  • 开源代码实战演示


unsetunset导师介绍unsetunset

Frank 导师

【个人背景】国内一线车企研究院资深算法工程师,擅长感知算法方向,在语义分割、车道线检测、2D和3D目标检测、BEV目标检测等领域,具有丰富的项目创新和落地经验。

【研究经历】曾主导多个重大项目,精通算法研究和部署端优化,以主要研究者身份,发表过CVPR多模态方向论文,在CV领域积累了多篇授权和落地专利。

👇🏻扫描二维码找助教0元预约直播课!

凡预约即可免费领取170篇目标检测精选论文(开放词汇/YOLO系列/顶会收录等)+文末还有算力等科研福利!


unsetunsetYOLO系列课程开学季活动unsetunset

课程一《YOLOv8-10速成课程》

  1. 主要内容:精讲YOLOv8-10论文和代码,以及具体任务的轻量化部署
  2. 上线时间:2024年
  3. 课程时长:共5节课,约5小时
  4. 课程形式:录播课,下单即可畅听全部内容
  5. 开课福利:免费领取YOLOV1-10全部论文&代码&数据集+YOLO近年改进论文等资料
  6. 开学福利价:5.99元

课程二《YOLO全家桶训练营》

  1. 主要内容:重点讲解YOLOv1-10的算法原理、代码实现、项目实战等
  2. 上线时间:2024年
  3. 课程时长:共9节课,约9小时
  4. 课程形式:直播课,每周1节,目前已开课,本周预计上线第6节,下单后畅享往期回放
  5. 开课福利:若完成课程打卡,送价值2000元的研梦年卡会员;免费领取YOLOV1-10全部论文&代码&数据集+YOLO近年改进论文等资料
  6. 开学福利价:咨询助教

👇🏻 扫码加助教咨询/开课立享开学福利价!


unsetunset研梦非凡科研论文指导方案unsetunset

idea并不是直接拍脑门拍出来的,是一遍一遍实验、跑代码、改模型、思路修正的过程中产生的。研梦非凡1V1定制化论文指导,和研梦导师一起找idea,研梦导师指导实验,共同解决数据问题。授之以渔——搭建论文写作框架,增删改查,针对性实验指导!哪里薄弱补哪里!
<<< 左右滑动见更多 >>>

👇🏻扫描二维码咨询助教两种指导方案


unsetunset研梦非凡部分导师介绍unsetunset

研梦非凡导师团队,来自海外QStop200、国内华五、C9、985高校的教授/博士导师/博士后,以及世界500强公司算法工程师、国内外知名人工智能实验室研究员等。

这是一支实力强大的高学历导师团队,在计算机科学、机器学习、深度学习等领域,积累了丰富的科研经历,研究成果也发表在国际各大顶级会议和期刊上,在指导学员的过程中,全程秉持初心,坚持手把手个性化带教。包括但不限于以下导师~

<<< 左右滑动见更多 >>>
👇🏻扫码加助教为你匹配合适课题的大牛导师


unsetunset研梦非凡科研福利unsetunset

🌟90分钟人工智能零基础入门课免费领
🌟7小时科研论文写作系列课免费领
🌟年度会员福利价129元(原价2999
🌟50小时3080GPU算力免费领
🌟百篇9月论文资料大合集免费领
👇🏻 扫码领取以上5重粉丝专属科研福利!

机器学习实验室
专注于机器学习和深度学习技术与实践。
 最新文章