遥感目标检测新王者！YOLO-World提升速度20倍！

文摘 2024-09-03 10:28 荷兰

开放词汇目标检测，正在超越Faster R-CNN、DETR、YOLOs等传统方法，成为CV领域极具潜力的研究方向，近两年顶会创新也层出不穷，腾讯重磅发布不久的YOLO-World，便是一种先进的开放词汇检测器，基于简洁高效的YOLOv8架构，通过视觉语言建模，以及大规模数据集的预训练，能够识别并定位训练集中未出现的新类别物体，具备超强的零样本及泛化性能，部署轻便！

为了帮助大家掌握YOLO-World，研梦非凡于9月10日晚（周二），邀请了CV领域资深算法工程师Frank导师，独家详解CVPR'24收录工作《YOLO-World：实时开放词汇目标检测》（AI前沿直播课NO.66），从传统目标检测回顾，到开放词汇/开集目标检测介绍，重点讲解YOLO-World主要贡献、网络结构及算法原理，并代码演示如何使用YOLO-World，1节课速通开放词汇目标检测，get论文改进和求职面试知识点！

👇🏻扫描二维码找助教0元预约直播课！

凡预约即可免费领取160篇目标检测精选论文（开放词汇/YOLO系列/顶会收录等）+文末还有算力等科研福利！

本节直播课内容概览

01 开放词汇目标检测和开集目标检测

传统目标检测算法及不足

YOLO系列检测器高效实用
缺点1：受限于预定义和训练的物体类别
缺点2：新类别可能错误归为有限类别的一种

开放词汇目标检测（OVOD）

概念：检测和识别未在训练集中明确标注的物体类别
特点1：视觉特征提取（ResNet或ViT）
特点2：文本嵌入（BERT或CLIP文本编码器）
特点3：视觉-语言匹配
特点4：多模态融合（注意力机制、自监督学习等）

开集目标检测（OSOD）

概念：与OVOD类似
区别：与OVOD不同，识别出未知类别后，不再继续判断

02 YOLO-World简介

YOLO-World主要贡献

先进的开放词汇对象检测器
可重新参数化的视觉-语言路径聚合网络
开放词汇区域-文本对比的预训练方案
强大的零样本性能，在LVIS上达到35.4 AP和52.0 FPS

YOLO-World网络结构

👇🏻扫描二维码找助教0元预约直播课！

凡预约即可免费领取160篇目标检测精选论文（开放词汇/YOLO系列/顶会收录等）+文末还有算力等科研福利！

03 YOLO-World算法原理

YOLO Detector

基于YOLOv8开发
主要包括Darknet骨干、路径聚合网络（PAN）、Head结构

Text Encoder

采用CLIP预训练的Transformer文本编码器
提供了更好的视觉语义能力

Re-parameterizable Vision-Language PAN（RepVL-PAN）

通过多尺度图像特征建立特征金字塔
通过文本引导CSPLayer和图像池注意，进一步增强图像特征和文本特征之间的交互
推理过程中，离线词汇嵌入可重新参数化以便部署

实验分析

04 YOLO-World代码讲解

开源代码实战演示

导师介绍

Frank 导师

【个人背景】国内一线车企研究院资深算法工程师，擅长感知算法方向，在语义分割、车道线检测、2D和3D目标检测、BEV目标检测等领域，具有丰富的项目创新和落地经验。

【研究经历】曾主导多个重大项目，精通算法研究和部署端优化，以主要研究者身份，发表过CVPR多模态方向论文，在CV领域积累了多篇授权和落地专利。

👇🏻扫描二维码找助教0元预约直播课！

凡预约即可免费领取160篇目标检测精选论文（开放词汇/YOLO系列/顶会收录等）+文末还有算力等科研福利！

YOLO系列课程开学季活动

独家课程一《YOLOv8-10速成课程》

主要内容：精讲YOLOv8-10论文和代码，以及具体任务的轻量化部署
上线时间：2024年
课程时长：共5节课，约5小时
课程形式：录播课，下单即可畅听全部内容
开课福利：免费领取YOLOV1-10全部论文&代码&数据集+YOLO近年改进论文等资料
开学福利价：5.99元

独家课程二《YOLO全家桶训练营》

主要内容：重点讲解YOLOv1-10的算法原理、代码实现、项目实战等
上线时间：2024年
课程时长：共9节课，约9小时
课程形式：直播课，每周1节，目前已开课，本周预计上线第6节，下单后畅享往期回放
开课福利：若完成课程打卡，送价值2000元的研梦年卡会员；免费领取YOLOV1-10全部论文&代码&数据集+YOLO近年改进论文等资料
开学福利价：咨询助教

👇🏻 扫码加助教咨询/开课立享开学福利价！

研梦非凡科研福利

🌟90分钟人工智能零基础入门课免费领

🌟7小时科研论文写作系列课免费领

🌟年度会员福利价129元（原价2999）

🌟50小时3080GPU算力免费领

🌟百篇8月论文资料大合集免费领

👇🏻 扫码领取以上5重粉丝专属科研福利！

本号提供信息分享，对内容保持中立。若发现侵权问题，请及时联系我们，感谢您的理解与支持。

http://mp.weixin.qq.com/s?__biz=MzU2NTc2MjU2OQ==&mid=2247488521&idx=1&sn=402a7bba70ddeb1757bf4d43c7b72802

遥感与深度学习

聚焦遥感与深度学习，分享相关技术、论文、书籍、资讯，团队来自国内外著名期刊作者及审稿人

遥感数据 | FTW全球农田边界数据, 含对应影像数据! 约160万田块边界及7万多个样本

太强了！如何用ChatGPT结合Python处理遥感数据

NeurIPS24 | SolarCube: 马里兰大学等提出高分辨率太阳辐照预测基准数据集, 包含卫星和现场观测数据

TPAMI | 大型城市场景的建筑实例分割和3D重建, 基于航拍图像

TGRS | P2PFormer: 武大等提出遥感建筑轮廓提取新pipeline

遥感竞赛 | 基于无人机航片的玉米异常情况识别, CCF大数据与计算智能大赛

NeurIPS24 | 如何更好地利用地理位置信息来提升模型效果？

NeurIPS24 | FUSU: 香港大学等单位提出多源多时相土地利用变化分割数据集

Python包 | Leafmap: 交互式地理空间分析, 为非GEE用户设计! 含500多个高级地理空间分析工具

论文er们，深度学习+遥感这口饭得趁热吃！

实用工具｜GeoSegment,SAM用于遥感图像分割,网页端操作,下载便捷

RSE | 刚果盆地道路发展监测, 基于深度学习和多源卫星影像

INFUS | STFDiff: 基于扩散模型的遥感图像时空融合

资讯 | 硬刚！被On hold后，eLife期刊正面回应

NeurIPS24 | ETH等提出高分辨率树冠数据集, 实例级标注, 超28万个体树和5.6万树群, 全球+多样化

会议通知 | AI和数字孪生改变城市生活, 英国格拉斯哥大学举办, 可线上免费参加

超强3D人体姿态估计SOTA! 即插即用于各种基于Transformer 3D姿势估计器

遥感数据 | 时间序列农作物分类基准数据集, 跨不同国家和气候区

PNAS | 检测2000多种植物分布! 使用遥感和深度学习监测和预测植物物种分布和快速变化, 结合公民科学数据

NeurIPS24 | 无需复杂地图! 基于城市白模的无人机视觉定位新方法

IJDE | 综述 | 全面回顾多源遥感影像变化检测, 发展历史, 数据, 方法, 未来展望

实用工具｜适用遥感图像的AI自动标注工具,T-Rex Label, 开箱即用, 检测一切!

论文 | HazyDet: 雾天无人机目标检测开源数据基准, 以及深度感知检测器DeCoDet

TPAMI | Changen2, 用于生成多时相遥感图像及变化检测数据的基础模型

深度｜AI教父Hinton与AI教母李飞飞首次公开对谈：我们必须通过，让懂得数据的人和懂得如何使技术有效的人建立联系来搭建这座桥

RSE | 降低对灾后图像的依赖! 遥感建筑损毁评估模型, 受灾前后样本无需相同位置

TPAMI聚焦, SegNet 高效而精准的图像语义分割网络

完整PPT | 谷歌提出用于遥感大模型的Embedding Fields 模型

会议通知 | 第二届大湾区测绘遥感大会（二号通知）

NeurIPS24 | 多无人机协作精确预测车辆等目标移动轨迹, Drones Help Drones

2024遥感顶刊热门idea，多模态遥感影像融合

Python包 | samgeo: 使用SAM分割遥感影像等地理空间数据, 交互处理功能丰富

NeurIPS24 | 清华哈工大等提出轻量级卫星图像压缩新方法: COSMIC

Nature 子刊 | 使用元学习应对跨分辨率的多样化地球观测问题

NeurIPS24 | 大型卫星影像去云数据集, 超400万张图像

TGRS | Easy-Net: 轻量级建筑提取网络, 基于建筑本身特征, 结合CNN和Transformer

NeurIPS24 | 武大季顺平团队提出多模态大模型OMG-LLaVA, 桥接图像级、对象级、像素级理解和推理

在线地图实现SOTA性能，Wayve太强了！

论文 | Hinton等人的 t-SNE 数据可视化方法, 已广泛应用于遥感和深度学习研究

资讯 | 2025年度泰晤士高等教育世界大学排名发布

资讯 | scikit-eo: 用于遥感数据分析的Python包, 含深度学习, 大气校正, 图像融合等功能

资讯+实测 | OpenAI 推出Canvas 界面, 革新写作和编程体验! 实测U-Net和遥感代码

RSE | 结合Transformer和GEE实现Landsat全球陆地气溶胶遥感反演

Web演示 | 通过文本搜索遥感影像中的目标, 基于SkyCLIP模型, 可演示应用

NeurIPS24 | 330亿m²淹没区, 用于洪水制图的多时相卫星数据集Kuro Siwo

论文 | SegEarth-OV: 面向遥感图像的无训练开放词汇分割

CVPRW24 | GeoSynth: 卫星遥感图像生成器, 支持多种控制方式, 方便下载使用

论文 | ECCV24 | 卫星影像元数据自监督学习, 在下游任务提升分类性能

会议通知 | 2024人工智能与遥感学术交叉研讨会三号通知（AIRS-2024）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉