2024新技术：远距离的小目标也可以准确检测

科技科技 2024-11-13 10:02 江苏

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

早期目标检测（OD，object detection）是许多动态系统安全的关键任务。目前的OD算法对于远距离的小物体的成功率有限。

PART/1

概述

目前的OD算法对于长距离的小物体的成功率有限。为了提高这项任务的准确性和效率，我们提出了一套新的算法，将图像划分为块，选择具有不同尺度对象的块，详细说明小对象的细节，并尽早检测到它。我们的方法建立在transformer的网络上，并集成了扩散模型以提高检测精度。如在BDD100K，我们的算法将小目标的mAP从1.03提高到8.93，并将计算中的数据量减少了77%以上。

PART/2

背景

物体检测（OD）在许多现实场景的应用中发挥着至关重要的作用，如自动驾驶和机器人。尽管针对这项任务的各种算法激增，但现有方法在早期目标检测方面仍然面临重大挑战，这是实现快速和主动决策的关键方面。在这样的场景中，由于距离长，捕获图像中的对象的大小通常会显著减小。

如上图所示，当图像仅包含有限数量的对象，并且由于数据量不足，目标检测的性能显著不理想。为了应对这一挑战，我们可以利用超分辨率（SR）算法来重建更高分辨率的图像，从而增加可用于后续目标检测模型的数据。SR也是计算机视觉中的一个经典问题，拥有大量为该任务量身定制的解决方案。

最近，与生成对抗性网络（GAN）相比，扩散模型，如DDPM，在图像生成方面表现出了显著的能力，并表现出了更大的稳定性。此外，专注于条件扩散模型（CDM）应用于SR的研究取得了显著进展。通过利用扩散模型生成高分辨率图像，我们可以显著提高目标检测性能。然而，扩散模型具有巨大的计算成本，这对自动驾驶等现实的应用构成了挑战。从上图中的图像示例来看，图像的整体细化会对背景像素造成相当大的计算负担，导致资源的过度浪费，对OD没有任何有意义的贡献。

PART/3

新框架详细分解

如下图所示，DPR包括三个关键模块：Patch-Selector, Patch-Refiner, Patch-Organizer。Patch-Selector模块负责提取补丁特征并执行分类。接下来，Patch-Refiner模块详细阐述了正补丁，利用CDM将其重建到更高的分辨率，从而提高了目标检测精度。最后，为了完全展示我们提出的方法的效率和准确性，我们使用廉价的插值技术来放大负补丁，并将所有补丁组织成完整的图像，以便于与原始图像进行直接比较。接下来我们对所有模块进行了详细讨论，并概述了算法1中提出的DPR的具体训练过程。此外，算法2详细说明了采样和测试过程。

Patch-Selector模块的设计如下图：(a)利用分层结构编码器，输入图像被嵌入到三个不同尺度的特征中。随后，对这些特征中的补丁进行分类和聚合，以形成最终输出。(b)每个变换器层（TL）包括一个特征合并块和多个基于窗口的自关注块。

PART/4

实验及可视化

为了权衡计算和性能，在下表中对将图像从64×64放大到512×512时的不同阈值进行了补丁分类实验。第二排的mAP为4.33，是最佳选择，计算量减少了63%。

对于具有相同阈值的从128×128到1024×1024的FBDD上采样，我们的PS模块仅输出22.8%的CDM生成和OD补丁，并且与CDM相比，PS的FLOP可以忽略不计，这意味着与全图像生成相比，我们节省了77.2%的计算，如下表所示：

上图显示了集成补丁后BI和DPR的可视化比较。虽然DPR生成的总体图像看起来与BI相似，但包含对象的关键补丁显示出更精细的细节，这表明CDM只需要处理少量数据，从而实现更高效的计算。

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

http://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247539665&idx=4&sn=c4d93865c9347a9d6503e4bb7fd30894

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

快速学会AI核心架构，Transformer！

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

免费分享顶会的idea方法！！！

无卷积骨干网络：金字塔Transformer，提升目标检测/分割等任务精度（附源代码）

我用捡来的idea发了顶会！！！

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

YoloV：视频中目标实时检测依然很棒（附源代码下载）

ICLR'25审稿质量历史最低？这么多全负正常么

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

“计算机视觉研究院”商务合作

Yolo-Z：改进的YOLOv5用于小目标检测（附原论文下载）

多尺度特征融合：为检测学习更好的语义信息（附论文下载）

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

“计算机视觉研究院”商务合作

喜提 TPAMI 顶刊！！！

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

“计算机视觉研究院”商务合作

面了一个字节50k大佬，见识到了基础天花板！

PE-YOLO：解决黑夜中的目标检测难点

“计算机视觉研究院”商务合作

快速学会登上nature的热门算法，LSTM！

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

OVO：在线蒸馏一次视觉Transformer搜索

2024新技术：远距离的小目标也可以准确检测

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

魔改LSTM！性能直逼Transformer和Mamba

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

改进的检测算法：用于高分辨率光学遥感图像目标检测

GitHub超火开发者路线图库有AI学习路线了！star数近30万

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

今年顶会这情况。。。大家提前做准备吧！

取代Mamba，超越Transformer！扩展LSTM到数十亿参数

Drone-YOLO：一种有效的无人机图像目标检测

“计算机视觉研究院”商务合作

再见阿里，你好字节！

纯干货：Box Size置信度偏差会损害目标检测器（附源代码）

PE-YOLO：解决黑夜中的目标检测难点

245个目标检测开源项目合集，建议收藏！

YoloV：视频中目标实时检测依然很棒（附源代码下载）

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

大型视觉语言模型OMG-LLaVA：图像级、目标级和像素级的推理和理解任务统一

PE-YOLO：解决黑夜中的目标检测难点

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

人脸识别精度提升 | 基于Transformer的人脸识别（附源码）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

FP-DETR：通过完全预训练提升transformer目标检测器

3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放

顶会新方向！全新多模态大模型统一分割框架

微软新出框架：Transformer扩展到10亿token（附代码下载）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉