YoloV：视频中目标实时检测依然很棒（附源代码下载）

科技 2024-12-09 12:30 江苏

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文地址： https://arxiv.org/pdf/2208.09686.pdf

代码地址： https://github.com/YuHengsss/YOLOV

概述

视频目标检测(VID)具有挑战性，因为目标外观的高度变化以及某些帧中的各种劣化。积极的一面是，与静止图像相比，在视频的某一帧中进行检测可以得到其他帧的支持。因此，如何跨不同帧聚合特征是VID问题的关键。

大多数现有的聚合算法都是为两阶段检测器定制的。但是，由于两阶段的性质，此类检测器通常在计算上很耗时。今天分享的研究者提出了一种简单而有效的策略来解决上述问题，该策略花费了边际开销，并显著提高了准确性。具体来说，与传统的两阶段流水线不同，研究者主张将区域级候选放在一阶段检测之后，以避免处理大量低质量候选。此外，构建了一个新的模块来评估目标框架与其参考框架之间的关系，并指导聚合。

进行了广泛的实验和消融研究以验证新提出设计的有效性，并揭示其在有效性和效率方面优于其他最先进的VID方法。基于YOLOX的模型可以实现可观的性能（例如，在单个2080Ti GPU上的ImageNet VID数据集上以超过30 FPS的速度达到87.5% AP50），使其对大规模或实时应用程序具有吸引力。

背景

视频目标检测可以看作是静止图像目标检测的高级版本。直观地说，可以通过将帧一一输入静止图像目标检测器来处理视频序列。但是，通过这种方式，跨帧的时间信息将被浪费，这可能是消除/减少单个图像中发生的歧义的关键。

如上图所示，视频帧中经常出现运动模糊、相机散焦和遮挡等退化，显着增加了检测的难度。例如，仅通过查看上图中的最后一帧，人类很难甚至不可能分辨出物体在哪里和是什么。另一方面，视频序列可以提供比单个静止图像更丰富的信息。换言之，同一序列中的其他帧可能支持对某一帧的预测。因此，如何有效地聚合来自不同帧的时间消息对于准确性至关重要。从上图可以看出，研究者提出的方法给出了正确的答案。

新框架

考虑到视频的特性（各种退化与丰富的时间信息），而不是单独处理帧，如何从其他帧中为目标帧（关键帧）寻求支持信息对于提高视频检测的准确性起着关键作用。最近的尝试是在准确性上的显着提高证实了时间聚合对问题的重要性。然而，大多数现有方法都是基于两阶段的技术。

如前所述，与一级基础相比，它们的主要缺点是推理速度相对较慢。为了减轻这种限制，研究者将区域/特征选择放在单级检测器的预测头之后。

研究者选择YOLOX作为基础来展示研究者的主要主张。提出的框架如上图所示。

让我们回顾一下传统的两阶段管道：

1）首先“选择”大量候选区域作为提议；

2）确定每个提议是否是一个目标以及它属于哪个类。计算瓶颈主要来自于处理大量的低置信区域候选。

从上图可以看出，提出的框架也包含两个阶段。不同的是，它的第一阶段是预测（丢弃大量低置信度的区域），而第二阶段可以被视为区域级细化（通过聚合利用其他帧）。

通过这一原则，新的设计可以同时受益于一级检测器的效率和从时间聚合中获得的准确性。值得强调的是，如此微小的设计差异会导致性能上的巨大差异。所提出的策略可以推广到许多基础检测器，例如YOLOX、FCOS和PPYOLOE。

此外，考虑到softmax的特性，可能一小部分参考特征持有大部分权重。换句话说，它经常忽略低权重的特征，这限制了可能后续使用的参考特征的多样性。

为了避免这种风险，研究者引入了平均池化参考特征（A.P.）。具体来说，选择相似度得分高于阈值τ的所有参考，并将平均池化应用于这些。请注意，这项工作中的相似性是通过N (Vc)N(Vc)T计算的。算子N(·)表示层归一化，保证值在一定范围内，从而消除尺度差异的影响。通过这样做，可以维护来自相关特征的更多信息。然后将平均池化特征和关键特征传输到一个线性投影层中进行最终分类。该过程如是上图所示。

有人可能会问，N(Qc)N(Kc)T或N(Qr)N(Kr)T是否可以作为相似度执行。事实上，这是另一种选择。但是，在实践中，由于Q和K之间的差异，它不像我们在训练期间的选择那样稳定。

实验及可视化

对于给定的关键候选，通过三种不同方法选择的参考候选之间的视觉比较。展示了4个在聚合中贡献最大的参考候选。

具体来说，在下表的上半部分，研究者报告了所涉及的竞争模型的性能，而没有采用任何后处理。由于一级检测器的特性和研究者的策略的有效性，YOLOV可以显著利用检测精度和推理效率。为了公平比较，下表中列出的所有模型都在相同的硬件环境下进行了测试，除了MAMBA和查询属性。下表的下半部分报告了YOLOV和其他带有后处理的SOTA模型的结果。在i7-8700K CPU上测试后处理的时间成本。

上排是基础的检测结果，下排是YoloV的结果

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、图像分割、模型量化、模型部署等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

01	● Yolov7：最新最快的实时检测框架，最详细分析解释（附源代码）
	► 点击阅读

02	● ECCV2022：在Transformer上进行递归，不增参数，计算量还少！
	► 点击阅读

03	● 改进的YOLO：AF-FPN替换金字塔模块提升目标检测精度
	► 点击阅读

04	● QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）
	► 点击阅读

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

独自一人，怒发顶会！

除了Yolo的其他选择，轻量级检测网络层出不穷（框架解析及部署实践）

AI顶会ICML收了一篇论文：没算法没实验，全靠idea思路好

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

YoloV：视频中目标实时检测依然很棒（附源代码下载）

图像自适应YOLO：恶劣天气下的目标检测（附源代码）

ResNet超强变体：京东AI新开源的计算机视觉模块！（附源代码）

最高加速9倍！字节跳动开源8比特混合精度Transformer引擎

水下检测+扩散模型：或成明年CVPR最大惊喜！

2024新技术：远距离的小目标也可以准确检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

视觉语言大模型新SOTA！高效微调方法性能碾压LoRA

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

旋转角度目标检测的重要性！！！（附源论文下载）

245个目标检测开源项目合集，建议收藏！

新技术：高效的自监督视觉预训练，局部遮挡再也不用担心！

最近几篇较好论文实现代码（附源代码下载）

华科&字节提出目标感知基础模型GLEE，一统所有目标感知任务

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

ICLR'25 惊现满分论文！！！走对捷径，高分论文并不难

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

EdgeYOLO：边缘设备上实时运行的目标检测器及Pytorch实现

实用教程详解：模型部署，用DNN模块部署YOLOv5目标检测（附源代码）

半监督辅助目标检测：自训练+数据增强提升精度（附源码下载）

为什么制造业都在用低代码提效？

欢迎加入“计算机视觉研究院”学习群

从源头消除大模型“幻觉”，性价比吊打传统微调方法

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

旋转角度目标检测的重要性！！！（附源论文下载）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

最后征稿+连续8届检索 | 第九届控制工程与人工智能国际会议(CCEAI 2025)会议地点已定！

智慧建筑：基于YOLOv7的建筑外墙缺陷检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

年薪百万or惨遭裁员，AIGC开发者如何破局？

陈天奇团队LLM结构化生成新引擎XGrammar：百倍加速、近零开销

2024全球无人机市场洞察报告

粉丝福利！免费赠书中奖名单

凭什么YOLO是最强目标检测器，一文读懂！

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

史上最通俗易懂的YOLO系列（v1-v10）模型解读！

更快、更灵活的Transformer图像去雾网络

“计算机视觉研究院”商务合作

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉