用YOLO实现无人机桥梁检查，到底应该选择哪个模型？

科技 2024-11-23 07:00 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章评估了YOLO系列模型在桥梁细节检测任务中的表现，使用了COCO-Bridge-2021+数据集，该数据集包含1470张结构性桥梁照片。文章对不同YOLO变体（如YOLOv5n、YOLOv6m、YOLOv7tiny等）在精度、推理时间等方面进行了基准测试，发现YOLOv6m6在精度上表现最佳，而YOLOv8n则在推理速度上最优。研究还将最优模型部署到边缘设备（如Jetson Nano）并结合无人机进行自动化视觉检查，测试了它们的实时处理能力。最终，文章总结出YOLOv5n、YOLOv7tiny、YOLOv6m和YOLOv6m6是最适合该任务的模型，并指出未来可以通过优化模型架构、改进特征工程和增加数据量来进一步提升性能。这项研究为桥梁细节检测任务中的模型选择和应用提供了有价值的参考。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：Deep Learning Models for UAV-Assisted Bridge Inspection: A YOLO Benchmark Analysis

作者：Trong-Nhan Phan, Hoang-Hai Nguyen等

作者机构：University of Information Technology, Ho Chi Minh City, Vietnam等

论文链接：https://arxiv.org/pdf/2411.04475

2. 摘要

桥梁的视觉检查对于确保安全和早期识别潜在故障至关重要。通过集成深度学习模型的无人机（UAV），该检查过程可以迅速且准确地实现自动化。然而，选择既轻量化又满足推理时间和精度严格要求的合适模型是一个挑战。因此，我们的工作通过在用于桥梁细节检测的数据集COCO-Bridge-2021+上，对23个属于最新四个YOLO版本（YOLOv5、YOLOv6、YOLOv7、YOLOv8）的模型进行基准测试，为模型选择过程的改进做出了贡献。通过全面的基准测试，我们确定了YOLOv8n、YOLOv7tiny、YOLOv6m和YOLOv6m6是精度与处理速度之间达到最佳平衡的模型，mAP@50得分分别为0.803、0.837、0.853和0.872，推理时间分别为5.3ms、7.5ms、14.06ms和39.33ms。我们的研究成果加速了无人机模型选择过程，使桥梁检查更加高效可靠。

3. 效果展示

每个结构桥梁详图的样本图像：（a）支座;（B）盖板终端;（c）角撑板连接;（d）平面外加劲肋。

4. 主要贡献

YOLO模型基准测试：本文在COCOBridge-2021+数据集上对YOLO系列的最新模型进行了基准测试，全面评估了YOLOv5、YOLOv6、YOLOv7和YOLOv8的性能表现，为桥梁细节检测任务提供了系统的参考。
模型选型指导：通过对YOLO系列模型在桥梁检测场景中的精度和推理速度进行比较，本文帮助检测员选择最适合桥梁细节检测的模型。
桥梁细节检测新领域：本文探索了桥梁细节检测这一新的应用场景，推动了该领域的发展，为未来在桥梁视觉检测中的应用奠定了基础。
实践指导和未来研究方向：本文总结了当前模型在桥梁细节检测中的表现，并提出未来可优化的方向，如引入新架构、使用领域知识进行特征工程、数据扩充等，以提升模型在实际场景中的泛化能力和表现。推荐课程：如何快速上手全球最强开源飞控px4？

5. 基本原理是啥？

在本研究中，基本原理是利用最新的YOLO系列模型（YOLOv5至YOLOv8）对桥梁结构细节进行检测，以支持桥梁检测任务：

目标检测模型：YOLO（You Only Look Once）模型是一种单阶段目标检测算法，旨在快速且准确地识别图像中的多个对象。YOLO系列模型通过将图像分割成网格，并在每个网格单元中预测边界框和类别概率，从而实现实时检测。这一特点使其非常适合桥梁等需要快速检测和识别结构细节的场景。
模型架构与改进：在不同版本的YOLO模型中，架构逐步优化。例如，YOLOv6和YOLOv8引入了无锚点检测机制（anchor-free paradigm），减少了检测框数量并加快了处理速度；YOLOv7则引入了E-ELAN模块和“免费袋装”（bag-of-freebies）方法，以提高模型的准确性和效率。这些改进使得模型在识别和定位桥梁细节时更加精确，并且推理速度更快。
精度与推理时间的平衡：为了支持实时检测，本研究评估了各模型在桥梁细节检测任务中的准确性（如mAP@50、mAP@50:95）和推理时间，寻找在精度和处理速度之间取得最佳平衡的模型组合。模型的选择基于在精度与推理时间之间的权衡，这对桥梁检测任务的实时性要求至关重要。
边缘设备应用：研究还涉及在Jetson Nano等边缘设备上的模型部署，这些设备通常安装在无人机上，用于桥梁的自动化视觉检测。不同模型的轻量化和推理速度在边缘设备上的表现差异直接影响了其在实际场景中的应用可行性。

6. 实验结果

在本研究中，实验结果展示了YOLO系列模型在COCO-Bridge-2021+数据集上的性能表现：

模型输入大小与复杂度：表1展示了YOLO系列模型在不同输入大小下的参数数量和GFLOPs（浮点运算量）。模型的输入大小为640x640像素或1280x1280像素，参数数量在1.76M到152.90M之间，GFLOPs范围从4.1到672.5。较小的输入大小（640x640像素）对于大多数对象检测已经足够，但较大的输入大小（1280x1280像素）对于模糊的图像或远距离物体的检测可能有帮助，但代价是增加了模型的复杂度。
mAP与推理时间：

mAP@50:95 和 mAP@50 的表现波动范围分别为：从0.401到0.475，以及从0.790到0.872。YOLOv6m6在mAP@50:95上取得了最佳的0.475，而在mAP@50上也取得了最高的0.872。
推理时间 的范围从5.3毫秒到57.46毫秒不等，YOLOv8n在推理时间方面表现最快，为0.803。

精度与推理时间的权衡：图2展示了mAP@50与推理时间之间的权衡曲线，根据该曲线，选择了四个最优模型：YOLOv8n、YOLOv7tiny、YOLOv6m和YOLOv6m6。这些模型在精度与速度之间达到了较好的平衡。

边缘设备部署：接下来，研究团队将这四个最佳模型部署到边缘设备上，使用Jetson Nano作为边缘设备，这些设备可与无人机结合进行自动化的视觉检测。图3表明，只有YOLOv7tiny和YOLOv8n能够实现实时处理速率，分别为36.308和58.272张图像每秒。而YOLOv6m6和YOLOv6m虽然具有较高的mAP值，但处理速率受限，分别为1.246和5.512张图像每秒。

性能总结：总体而言，YOLOv6m6在精度方面表现最佳，而YOLOv8n则在推理速度上表现最优。通过在边缘设备上的部署，研究展示了在实际应用中如何平衡模型的精度和实时性，以满足桥梁细节检测的需求。

这些实验结果为桥梁检测领域提供了一个有效的模型选择指南，并展示了不同YOLO变体在不同应用场景下的优缺点。

7. 总结 & 未来工作

我们的研究在COCOBridge-2021+数据集上对YOLO系列最新模型进行了基准测试，以部分帮助检测员选择最合适的细节检测模型。结果表明，YOLOv5n、YOLOv7tiny、YOLOv6m和YOLOv6m6是高精度和高推理速度的最佳模型。我们的工作为桥梁细节检测这一新领域铺平了道路，未来改进和推进研究仍有巨大潜力。目前基准测试的模型数量仍然有限，且模型架构尚未针对该问题进行优化。未来的工作可以探索各种新架构的潜力以及对现有架构的改进。通过利用领域知识进行更好的预处理和特征工程也可以提高性能。更多的数据也能提升模型的实际表现，帮助改进模型的泛化能力并减少过拟合。更好的桥梁细节检测有助于理解环境和缺陷，从而实现更优质的桥梁视觉检测。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247711690&idx=4&sn=95ca3542ec1463714177ec9891d8ef43

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

一位阿里P9的年薪和家庭资产

章国锋团队开启SfM新篇章！DATAP-SfM：动态感知跟踪一切！

无人机流式输出视频没有用？Video2BEV：通过3D高斯与视频提升无人机定位精度

CVPR，ICCV，ECCV，AAAI，IJCAI等顶会的评分机制是怎样的？

KW-MINI | 精度0.05mm！体积超小！重量超轻！结构光3D相机！

卡尔曼滤波YYDS！「分割一切」遇上「跟踪一切」！前谷歌经理直呼“优雅”

全面理解运动预测、规划、建图！DriveMLLM：自动驾驶多模态的空间理解基准

斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结

具身智能还有多久才能落地？

科技部发文：对短期内发表多篇论文、取得多项专利等成果的，开展专项数据核查！

那些从自动驾驶“跳槽”进具身智能的大佬们，都来自哪家公司？

Adobe重磅开源DiffusionGS：融入3DGS到扩散模型，6s完成三维重建！

清华大学＋具身智能+ Visuomotor控制任务=？