中国地质大学(北京) | TGRS | 增强目标检测:在 YOLOv5 框架内融合 SPD 和 CoTC3

文摘   2024-12-27 06:59   湖北  
关注+星标🌟,好文及时看
应众多读者的需求和建议,遥感地理视界创建了学习交流群,想加入交流的可扫描下方二维码添加。请进群后按照群公告备注如“学位-学校(或机构)-昵称”格式(详情请查看公众号置顶推文)。

(一)文章信息
  • 标题:Enhanced Target Detection: Fusion of SPD and CoTC3 Within YOLOv5 Framework

  • 期刊:《 IEEE Transactions on Geoscience and Remote Sensing》(中科院1区, IF=7.5)

  • 作者:Junyu Zhang, et al.

  • doi:10.1109/TGRS.2024.3512586

(二)研究背景
随着高分辨率遥感技术的发展,高清遥感图像识别在城市规划、土地利用等领域具有重要意义。现有模型在训练过程中过分关注图像的纹理和细粒度特征,忽略了特征图中更广泛的上下文信息,这降低了模型识别目标的能力。为了提高检测的准确性和鲁棒性,本研究引入了针对小目标和低分辨率遥感图像特征的YOLOv5框架的增强版本。该模型通过引入空间到深度(SPD)元素和采用空和深度可分离卷积来更好地捕捉目标属性。此外,研究还引入了上下文变换器集中综合卷积(CoTC3)模块,无缝集成到YOLOv5的核心架构中。这一创新模块使模型能够利用相邻键之间的丰富上下文信息,从而获得更优的特征表示,并提高检测准确性。

(三)研究数据与方法
研究使用了三个不同的数据集,包括DOTA、DIOR和NWPU VHR-10,涵盖了34个目标类别,共计382,221个对象。这些数据集包含了各种地理环境下的遥感图像,如飞机、船只、储油罐等,具有高分辨率和丰富的特征信息。为了增强模型对图像中目标位置的鲁棒性,研究中采用了数据增强技术,包括随机缩放、翻转和旋转。模型训练参数和硬件软件环境的具体配置在文中的表格中详细说明。研究中还进行了消融实验,以测试YOLOv5模型的改进效果,并通过对比不同损失函数对模型性能的影响,选择了最佳的损失函数。

(四)研究结果

研究结果表明,经过改进的YOLOv5模型在目标检测的准确性和鲁棒性方面取得了显著提升。特别是在车辆和桥梁的识别准确率上分别提高了10.1%和11.3%,整体准确率分别提高到93.5%、88.1%和71.2%。消融实验结果显示,仅添加CoT块到模型可以适度提高准确性,但同时整合CoT块和SPD组件可以显著提升模型性能。在不同损失函数的比较中,SIoU损失函数在遥感图像数据集上表现出最高的检测准确率,比YOLOv5原始损失函数提高了1.1%。与其他方法的比较中,如faster R-CNN、YOLOv5和YOLOv8,本研究提出的方法具有最高的准确性,在NWPU VHR-10数据集上与YOLOv8准确度相同,而在DOTA数据集和DIOR数据集上分别比YOLOv8高出1.7%和0.6%。此外,研究还展示了模型在不同数据集上对各种对象类别的检测性能,证明了模型在处理小目标检测任务中的有效性。

(五)研究结论

本研究提出了一种用于遥感图像识别的增强框架,有效地解决了高清遥感图像中目标识别的挑战。首先,通过添加SPD组件和CoTC3模块,模型在捕获遥感图像的球形特征和提高图像表示学习能力方面得到了增强。其次,通过实验比较不同的损失函数,发现SIoU损失函数能够实现最高的检测准确率。最后,与现有方法的比较证明了本研究提出的方法在多个数据集上具有更高的准确性和鲁棒性。未来的工作将尝试将本研究提出的模型应用于无人机,并在实际应用中对模型进行改进。同时,鉴于实际应用中可能遇到的极端天气条件,如雨和雾,研究还计划进一步开发算法以克服这些挑战,从而增强模型的实际应用性。

文章来源 :

Zhang, J., Li, S., & Long, T. (2024). Enhanced Target Detection: Fusion of SPD and CoTC3 within YOLOv5 Framework. IEEE Transactions on Geoscience and Remote Sensing.
免责声明 :

本公众号发布的内容仅供学习交流使用,内容版权归原作者所有。如有侵犯您的权益,请及时与我们联系。



END

可扫码获取PDF文档
点击关注

回复“1109获取全文

关注后记得加🌟

| 期待下一次相遇


往期推荐

【JAG好文推荐】基于Sentinel-1 SAR图像的极化与空间信息多尺度机器学习洪水映射方法

2024-12-05

TGRS好文推荐】MGPACNet: 用于图像融合分类的多尺度几何先验感知跨模态网络

2024-12-04

【ISPRS好文推荐】PolyR-CNN:用于端到端多边形建筑物轮廓提

2024-12-03

遥感地理视界
致力于分享遥感科学、地理科学、深度学习相关的最新前沿的顶刊文章。分享数据建模/软件操作/论文绘图等相关知识。文章和科研学术推广欢迎来稿,联系方式:eco_rs_gis@163.com或VX: ECO_RS_GIS 感谢您的关注!
 最新文章