YoloV：视频中目标实时检测依然很棒（附源代码下载）

科技 2024-11-06 10:02 江苏

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文地址： https://arxiv.org/pdf/2208.09686.pdf

代码地址： https://github.com/YuHengsss/YOLOV

概述

视频目标检测(VID)具有挑战性，因为目标外观的高度变化以及某些帧中的各种劣化。积极的一面是，与静止图像相比，在视频的某一帧中进行检测可以得到其他帧的支持。因此，如何跨不同帧聚合特征是VID问题的关键。

大多数现有的聚合算法都是为两阶段检测器定制的。但是，由于两阶段的性质，此类检测器通常在计算上很耗时。今天分享的研究者提出了一种简单而有效的策略来解决上述问题，该策略花费了边际开销，并显著提高了准确性。具体来说，与传统的两阶段流水线不同，研究者主张将区域级候选放在一阶段检测之后，以避免处理大量低质量候选。此外，构建了一个新的模块来评估目标框架与其参考框架之间的关系，并指导聚合。

进行了广泛的实验和消融研究以验证新提出设计的有效性，并揭示其在有效性和效率方面优于其他最先进的VID方法。基于YOLOX的模型可以实现可观的性能（例如，在单个2080Ti GPU上的ImageNet VID数据集上以超过30 FPS的速度达到87.5% AP50），使其对大规模或实时应用程序具有吸引力。

背景

视频目标检测可以看作是静止图像目标检测的高级版本。直观地说，可以通过将帧一一输入静止图像目标检测器来处理视频序列。但是，通过这种方式，跨帧的时间信息将被浪费，这可能是消除/减少单个图像中发生的歧义的关键。

如上图所示，视频帧中经常出现运动模糊、相机散焦和遮挡等退化，显着增加了检测的难度。例如，仅通过查看上图中的最后一帧，人类很难甚至不可能分辨出物体在哪里和是什么。另一方面，视频序列可以提供比单个静止图像更丰富的信息。换言之，同一序列中的其他帧可能支持对某一帧的预测。因此，如何有效地聚合来自不同帧的时间消息对于准确性至关重要。从上图可以看出，研究者提出的方法给出了正确的答案。

新框架

考虑到视频的特性（各种退化与丰富的时间信息），而不是单独处理帧，如何从其他帧中为目标帧（关键帧）寻求支持信息对于提高视频检测的准确性起着关键作用。最近的尝试是在准确性上的显着提高证实了时间聚合对问题的重要性。然而，大多数现有方法都是基于两阶段的技术。

如前所述，与一级基础相比，它们的主要缺点是推理速度相对较慢。为了减轻这种限制，研究者将区域/特征选择放在单级检测器的预测头之后。

研究者选择YOLOX作为基础来展示研究者的主要主张。提出的框架如上图所示。

让我们回顾一下传统的两阶段管道：

1）首先“选择”大量候选区域作为提议；

2）确定每个提议是否是一个目标以及它属于哪个类。计算瓶颈主要来自于处理大量的低置信区域候选。

从上图可以看出，提出的框架也包含两个阶段。不同的是，它的第一阶段是预测（丢弃大量低置信度的区域），而第二阶段可以被视为区域级细化（通过聚合利用其他帧）。

通过这一原则，新的设计可以同时受益于一级检测器的效率和从时间聚合中获得的准确性。值得强调的是，如此微小的设计差异会导致性能上的巨大差异。所提出的策略可以推广到许多基础检测器，例如YOLOX、FCOS和PPYOLOE。

此外，考虑到softmax的特性，可能一小部分参考特征持有大部分权重。换句话说，它经常忽略低权重的特征，这限制了可能后续使用的参考特征的多样性。

为了避免这种风险，研究者引入了平均池化参考特征（A.P.）。具体来说，选择相似度得分高于阈值τ的所有参考，并将平均池化应用于这些。请注意，这项工作中的相似性是通过N (Vc)N(Vc)T计算的。算子N(·)表示层归一化，保证值在一定范围内，从而消除尺度差异的影响。通过这样做，可以维护来自相关特征的更多信息。然后将平均池化特征和关键特征传输到一个线性投影层中进行最终分类。该过程如是上图所示。

有人可能会问，N(Qc)N(Kc)T或N(Qr)N(Kr)T是否可以作为相似度执行。事实上，这是另一种选择。但是，在实践中，由于Q和K之间的差异，它不像我们在训练期间的选择那样稳定。

实验及可视化

对于给定的关键候选，通过三种不同方法选择的参考候选之间的视觉比较。展示了4个在聚合中贡献最大的参考候选。

具体来说，在下表的上半部分，研究者报告了所涉及的竞争模型的性能，而没有采用任何后处理。由于一级检测器的特性和研究者的策略的有效性，YOLOV可以显著利用检测精度和推理效率。为了公平比较，下表中列出的所有模型都在相同的硬件环境下进行了测试，除了MAMBA和查询属性。下表的下半部分报告了YOLOV和其他带有后处理的SOTA模型的结果。在i7-8700K CPU上测试后处理的时间成本。

上排是基础的检测结果，下排是YoloV的结果

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、图像分割、模型量化、模型部署等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

01	● Yolov7：最新最快的实时检测框架，最详细分析解释（附源代码）
	► 点击阅读

02	● 双尺度残差检测器：无先验检测框进行目标检测（附论文下载）
	► 点击阅读

03	● 改进的YOLO：AF-FPN替换金字塔模块提升目标检测精度
	► 点击阅读

04	● QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）
	► 点击阅读

http://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247539388&idx=2&sn=5d2fbe4a8eaa33704be77237b22b39ff

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

快速学会AI核心架构，Transformer！

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

免费分享顶会的idea方法！！！

无卷积骨干网络：金字塔Transformer，提升目标检测/分割等任务精度（附源代码）

我用捡来的idea发了顶会！！！

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

YoloV：视频中目标实时检测依然很棒（附源代码下载）

ICLR'25审稿质量历史最低？这么多全负正常么

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

“计算机视觉研究院”商务合作

Yolo-Z：改进的YOLOv5用于小目标检测（附原论文下载）

多尺度特征融合：为检测学习更好的语义信息（附论文下载）

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

“计算机视觉研究院”商务合作

喜提 TPAMI 顶刊！！！

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

“计算机视觉研究院”商务合作

面了一个字节50k大佬，见识到了基础天花板！

PE-YOLO：解决黑夜中的目标检测难点

“计算机视觉研究院”商务合作

快速学会登上nature的热门算法，LSTM！

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

OVO：在线蒸馏一次视觉Transformer搜索

2024新技术：远距离的小目标也可以准确检测

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

魔改LSTM！性能直逼Transformer和Mamba

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

改进的检测算法：用于高分辨率光学遥感图像目标检测

GitHub超火开发者路线图库有AI学习路线了！star数近30万

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

今年顶会这情况。。。大家提前做准备吧！

取代Mamba，超越Transformer！扩展LSTM到数十亿参数

Drone-YOLO：一种有效的无人机图像目标检测

“计算机视觉研究院”商务合作

再见阿里，你好字节！

纯干货：Box Size置信度偏差会损害目标检测器（附源代码）

PE-YOLO：解决黑夜中的目标检测难点

245个目标检测开源项目合集，建议收藏！

YoloV：视频中目标实时检测依然很棒（附源代码下载）

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

大型视觉语言模型OMG-LLaVA：图像级、目标级和像素级的推理和理解任务统一

PE-YOLO：解决黑夜中的目标检测难点

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

人脸识别精度提升 | 基于Transformer的人脸识别（附源码）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

FP-DETR：通过完全预训练提升transformer目标检测器

3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放

顶会新方向！全新多模态大模型统一分割框架

微软新出框架：Transformer扩展到10亿token（附代码下载）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉