最近面试小米某业务算法岗,围绕视觉核心任务,提问很多与目标检测相关,比如,各类单双阶段算法,YOLO和Faster R-CNN的区别,DETR的query问题...除了传统的闭集检测方法,极具潜力的开集检测,尤其是一些多模态大模型,考察也越来越常见,不熟悉容易卡壳:闭集和开集检测的关系是?介绍一个前沿的开集检测器,比如Grounding DINO?再简述其模型架构及基本原理?等等。
为了帮助大家掌握热门的Grounding DINO,研梦非凡于9月25日晚(周三),邀请了CV资深算法工程师张导师,独家讲解ECCV'24创新工作《Grounding DINO:最强开集目标检测器!》(AI前沿直播课NO.70),从开集与闭集目标检测的关系,到Grounding DINO的研究背景、主要贡献,重点讲解模型结构、训练方法和实验,并详解代码和Demo演示,1节课速通最先进的开集目标检测器,get论文改进和求职面试知识点!
👇🏻扫描二维码找助教0元预约直播课!
凡预约即可免费领取200篇目标检测精选论文&代码(开集目标检测/YOLO系列/顶会收录等)
9.25直播课内容概览
01 Grounding DINO基本信息
ECCV2024收录论文、开源代码 Grounding DINO 1.5等版本更新
02 开集与闭集目标检测器的关系
闭集目标检测器:只能检测预先定义的类别对象 开集目标检测器:可以检测指定的任意对象,在闭集检测器中引入语言特征
03 Grounding DINO的特点
以DINO为基础,基于Transformer的检测器 Transformer架构的优势分析 无需使用NMS等模块,支持端到端训练 提出了图像-语言特征深度融合的方案 零样本基准测试中刷新记录
👇🏻扫描二维码找助教0元预约直播课!
凡预约即可免费领取200篇目标检测精选论文&代码(开集目标检测/YOLO系列/顶会收录等)
04 Grounding-DINO的总体结构(重点)
双编码器-单解码器架构
组成部分 具体原理
特征增强模块
多个特征增强器层 可变形自注意力模块 GLIP启发下图像-文本的交叉注意模块
语言引导的查询选择 跨模态解码器
跨模态查询的传递 与DINO解码器层相比,额外的文本跨注意层
子句级文本特征
句子级表示与词级表示的局限性 子句级表示的创新
05 训练方法和实验
损失函数
回归损失、分类损失
训练变体 完成任务
任务1:COCO数据集闭集目标检测 任务2:零样本迁移 任务3:在RefCOCO数据集上进行指代对象检测
可视化检测结果 将Grounding DINO和Stable Diffusion应用于图像编辑
06 代码&Demo演示(重点)
直播课导师介绍
张导师
某上市公司高级算法工程师,在自动驾驶感知等视觉领域,拥有5年以上工作经验,尤其是目标检测、目标跟踪、图像分割,以及点云、多模态、模型轻量化和部署方向,一线项目经历丰富,具备高水平的Python、Pytorch等开发能力。
👇🏻扫描二维码找助教0元预约直播课!
凡预约即可免费领取200篇目标检测精选论文&代码(开集目标检测/YOLO系列/顶会收录等)
研梦非凡科研论文指导
<<< 左右滑动见更多 >>>
全程1v1论文辅导扫码咨询助教
研梦非凡部分导师介绍
这是一支实力强大的高学历导师团队,在计算机科学、机器学习、深度学习等领域,积累了丰富的科研经历,研究成果也发表在国际各大顶级会议和期刊上,在指导学员的过程中,全程秉持初心,坚持手把手个性化带教。包括但不限于以下导师~
<<< 左右滑动见更多 >>>
扫码加助教为你匹配合适课题的大牛导师