基于YOLOv8顶会改进！YOLO-World检测一切！

科技 2024-09-03 15:00 江苏

开放词汇目标检测，正在超越Faster R-CNN、DETR、YOLOs等传统方法，成为CV领域极具潜力的研究方向，近两年顶会创新也层出不穷，腾讯重磅发布不久的YOLO-World，便是一种先进的开放词汇检测器，基于简洁高效的YOLOv8架构，通过视觉语言建模，以及大规模数据集的预训练，能够识别并定位训练集中未出现的新类别物体，具备超强的零样本及泛化性能，部署轻便！

为了帮助大家掌握YOLO-World，研梦非凡于9月10日晚（周二），邀请了CV领域资深算法工程师Frank导师，独家详解CVPR'24收录工作《YOLO-World：实时开放词汇目标检测》（AI前沿直播课NO.66），从传统目标检测回顾，到开放词汇/开集目标检测介绍，重点讲解YOLO-World主要贡献、网络结构及算法原理，并代码演示如何使用YOLO-World，1节课速通开放词汇目标检测，get论文改进和求职面试知识点！

👇🏻扫描二维码找助教0元预约直播课！

凡预约即可免费领取160篇目标检测精选论文（开放词汇/YOLO系列/顶会收录等）+文末还有算力等科研福利！

unsetunset本节直播课内容概览unsetunset

01 开放词汇目标检测和开集目标检测

传统目标检测算法及不足

YOLO系列检测器高效实用
缺点1：受限于预定义和训练的物体类别
缺点2：新类别可能错误归为有限类别的一种

开放词汇目标检测（OVOD）

概念：检测和识别未在训练集中明确标注的物体类别
特点1：视觉特征提取（ResNet或ViT）
特点2：文本嵌入（BERT或CLIP文本编码器）
特点3：视觉-语言匹配
特点4：多模态融合（注意力机制、自监督学习等）

开集目标检测（OSOD）

概念：与OVOD类似
区别：与OVOD不同，识别出未知类别后，不再继续判断

02 YOLO-World简介

YOLO-World主要贡献

先进的开放词汇对象检测器
可重新参数化的视觉-语言路径聚合网络
开放词汇区域-文本对比的预训练方案
强大的零样本性能，在LVIS上达到35.4 AP和52.0 FPS

YOLO-World网络结构

👇🏻扫描二维码找助教0元预约直播课！

凡预约即可免费领取160篇目标检测精选论文（开放词汇/YOLO系列/顶会收录等）+文末还有算力等科研福利！

03 YOLO-World算法原理

YOLO Detector

基于YOLOv8开发
主要包括Darknet骨干、路径聚合网络（PAN）、Head结构

Text Encoder

采用CLIP预训练的Transformer文本编码器
提供了更好的视觉语义能力

Re-parameterizable Vision-Language PAN（RepVL-PAN）

通过多尺度图像特征建立特征金字塔
通过文本引导CSPLayer和图像池注意，进一步增强图像特征和文本特征之间的交互
推理过程中，离线词汇嵌入可重新参数化以便部署

实验分析

04 YOLO-World代码讲解

开源代码实战演示

unsetunset导师介绍unsetunset

Frank 导师

【个人背景】国内一线车企研究院资深算法工程师，擅长感知算法方向，在语义分割、车道线检测、2D和3D目标检测、BEV目标检测等领域，具有丰富的项目创新和落地经验。

【研究经历】曾主导多个重大项目，精通算法研究和部署端优化，以主要研究者身份，发表过CVPR多模态方向论文，在CV领域积累了多篇授权和落地专利。

👇🏻扫描二维码找助教0元预约直播课！

凡预约即可免费领取160篇目标检测精选论文（开放词汇/YOLO系列/顶会收录等）+文末还有算力等科研福利！

unsetunsetYOLO系列课程开学季活动unsetunset

独家课程一《YOLOv8-10速成课程》

主要内容：精讲YOLOv8-10论文和代码，以及具体任务的轻量化部署
上线时间：2024年
课程时长：共5节课，约5小时
课程形式：录播课，下单即可畅听全部内容
开课福利：免费领取YOLOV1-10全部论文&代码&数据集+YOLO近年改进论文等资料
开学福利价：5.99元

独家课程二《YOLO全家桶训练营》

主要内容：重点讲解YOLOv1-10的算法原理、代码实现、项目实战等
上线时间：2024年
课程时长：共9节课，约9小时
课程形式：直播课，每周1节，目前已开课，本周预计上线第6节，下单后畅享往期回放
开课福利：若完成课程打卡，送价值2000元的研梦年卡会员；免费领取YOLOV1-10全部论文&代码&数据集+YOLO近年改进论文等资料
开学福利价：咨询助教

👇🏻 扫码加助教咨询/开课立享开学福利价！

unsetunset研梦非凡科研论文指导方案unsetunset

idea并不是直接拍脑门拍出来的，是一遍一遍实验、跑代码、改模型、思路修正的过程中产生的。研梦非凡1V1定制化论文指导，和研梦导师一起找idea，研梦导师指导实验，共同解决数据问题。授之以渔——搭建论文写作框架，增删改查，针对性实验指导！哪里薄弱补哪里！

<<< 左右滑动见更多 >>>

👇🏻扫描二维码咨询助教两种指导方案

unsetunset研梦非凡部分导师介绍unsetunset

研梦非凡导师团队，来自海外QStop200、国内华五、C9、985高校的教授/博士导师/博士后，以及世界500强公司算法工程师、国内外知名人工智能实验室研究员等。

这是一支实力强大的高学历导师团队，在计算机科学、机器学习、深度学习等领域，积累了丰富的科研经历，研究成果也发表在国际各大顶级会议和期刊上，在指导学员的过程中，全程秉持初心，坚持手把手个性化带教。包括但不限于以下导师～

<<< 左右滑动见更多 >>>

👇🏻扫码加助教为你匹配合适课题的大牛导师

unsetunset研梦非凡科研福利

🌟90分钟人工智能零基础入门课免费领

🌟7小时科研论文写作系列课免费领

🌟年度会员福利价129元（原价2999）

🌟50小时3080GPU算力免费领

🌟百篇8月论文资料大合集免费领

👇🏻 扫码领取以上5重粉丝专属科研福利！

http://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247537730&idx=1&sn=dfdb21c21b6109712594874a8bbf60c5

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

大型视觉语言模型OMG-LLaVA：图像级、目标级和像素级的推理和理解任务统一

PE-YOLO：解决黑夜中的目标检测难点

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

人脸识别精度提升 | 基于Transformer的人脸识别（附源码）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

FP-DETR：通过完全预训练提升transformer目标检测器

3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放

顶会新方向！全新多模态大模型统一分割框架

微软新出框架：Transformer扩展到10亿token（附代码下载）

Drone-YOLO：一种有效的无人机图像目标检测

26申博时间规划！别再按老套路来了，没用

“计算机视觉研究院”商务合作

一文读懂模型的可解释性（附代码）

首个快速知识蒸馏的视觉框架：ResNet50 80.1%精度，训练加速30%

劲爆！YOLOv6又快又准的目标检测框架开源啦（附源代码下载）

今天面试了一个字节女生，当场想给她offer

三区idea最后发了顶会！

特别小的目标检测识别（附论文下载）

基于Transformer的跨模态3D点云目标检测SOTA！易复现！

NeurIPS 2024 | 消除多对多问题，清华提出大规模细粒度视频片段标注新范式VERIFIED

“计算机视觉研究院”商务合作

机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

不需要标注了？看自监督学习框架如何助力目标检测

RestoreDet：低分辨率图像中目标检测

目标检测创新：一种基于区域的半监督方法，部分标签即可（附原论文下载）

又快又准，即插即用！清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

MIT韩松团队长上下文LLM推理高效框架DuoAttention：单GPU实现330万Token上下文推理

50K*16薪，进字节了！

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

“计算机视觉研究院”商务合作

RestoreDet：低分辨率图像中目标检测

CVPR’24｜PanoOcc基于相机的3D全景分割最强SOTA！

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

245个目标检测开源项目合集，建议收藏！

“计算机视觉研究院”商务合作

完爆YOLO家族？新一代目标检测器又有新突破！

NeurIPS 2024 Oral | 小参数，大作为！揭秘非对称 LoRA 架构的高效性能

YOLO-SLD：一种改进的注意机制YOLO车牌检测

“计算机视觉研究院”商务合作

欢迎加入“计算机视觉研究院”学习群

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

Kaggle金牌和CCF A一作哪个更有用？

“计算机视觉研究院”商务合作

发论文别太老实，用对方法一年三篇SCI！

AI智能体引擎加持：天玑9400让「完全体」AI手机提前问世了

大规模参数的更强、更鲁棒的视觉基础模型

多尺度特征融合：为检测学习更好的语义信息（附论文下载）

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉