目标检测的YOLOv3模型搭建的过程

文摘 2024-09-26 20:31 广东

YOLO v3是一种流行的用于实时物体检测的卷积神经网络(CNN) ，由Redmon等人于 2018 年发布。距今已有6年了，现在目标检测yolo算法已经发展到了yolov10，但是对于我这个深度学习新手来说，是有必要去深入学习一下经典的yolov3。

我第一次看到yolo这个词是在unknowncheats论坛，看到一个国外老哥用yolo制作守望先锋的锁头挂，他提供了测试视频，视频里他的士兵76确实很猛。据他说yolov3的目标检测速度快，当时我也在玩守望先锋，所以记忆比较深刻。当时我的python玩得不六，当时只能默默膜拜一下大佬的操作。（我没有开过ow的外挂）

那我们还是来看看yolov3网络整体架构吧。

You Only Look Once

YOLO代表“ You Only Look Once ”，翻译为中文就是你只需要看一次。在yolo之前也有一些目标检测模型，它们一般是通过滑块批量地检测是否存在目标。

实际上，YOLO v3是同类中第一个端到端网络。yolov3属于cnn模型，yolov3的主干网络使用了特征金字塔网络（Feature Pyramid Network, FPN）和Darknet-53

今天的学习目标就是弄清楚yolov3的主干网络是什么，以输入416 × 416 × 3尺寸的图像为例，在yolov3的主干网络中特征提取过程如下图所示。

虚线内是Darknet-53,虚线外是金字塔网络FPN。

网上、论文说Darknet-53之所以叫Darknet-53，是因为有53个卷积。但是，我数了很多次它只有52个卷积。

搭建过程中的网络尺寸计算可以参考这里：

【深度学习】从LeNet学神经网络搭建

Darknet-53的代码实现

代码自己写的，花了很多时间，在这个过程中一边参考上面的yolov3的网络一边调试。

#!/usr/bin/env python
# -*- coding: utf-8 -*- 
# @Time : 2024/9/4 下午20:17
# @File : yolov3model.py 
import torch
import torch.nn as nn

# Basic convolution block
class ConvBlock(nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size, stride, padding):
        super(ConvBlock, self).__init__()
        self.conv = nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding, bias=False)
        self.bn = nn.BatchNorm2d(out_channels)
        self.leaky_relu = nn.LeakyReLU(0.1)

    def forward(self, x):
        return self.leaky_relu(self.bn(self.conv(x)))

# Residual block used in Darknet-53
class ResidualBlock(nn.Module):
    def __init__(self, in_channels):
        super(ResidualBlock, self).__init__()
        self.conv1 = ConvBlock(in_channels, in_channels // 2, kernel_size=1, stride=1, padding=0)
        self.conv2 = ConvBlock(in_channels // 2, in_channels, kernel_size=3, stride=1, padding=1)

    def forward(self, x):
        return x + self.conv2(self.conv1(x))

# Darknet-53 backbone network
class Darknet53(nn.Module):
    def __init__(self):
        super(Darknet53, self).__init__()
        self.conv1 = ConvBlock(3, 32, kernel_size=3, stride=1, padding=1)
        self.conv2 = ConvBlock(32, 64, kernel_size=3, stride=2, padding=1)
        self.residual1 = nn.Sequential(*[ResidualBlock(64) for _ in range(1)])

        self.conv3 = ConvBlock(64, 128, kernel_size=3, stride=2, padding=1)
        self.residual2 = nn.Sequential(*[ResidualBlock(128) for _ in range(2)])

        self.conv4 = ConvBlock(128, 256, kernel_size=3, stride=2, padding=1)
        self.residual3 = nn.Sequential(*[ResidualBlock(256) for _ in range(8)])

        self.conv5 = ConvBlock(256, 512, kernel_size=3, stride=2, padding=1)
        self.residual4 = nn.Sequential(*[ResidualBlock(512) for _ in range(8)])

        self.conv6 = ConvBlock(512, 1024, kernel_size=3, stride=2, padding=1)
        self.residual5 = nn.Sequential(*[ResidualBlock(1024) for _ in range(4)])

    def forward(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = self.residual1(x)
        out1 = x

        x = self.conv3(x)
        x = self.residual2(x)
        out2 = x

        x = self.conv4(x)
        x = self.residual3(x)
        out3 = x

        x = self.conv5(x)
        x = self.residual4(x)
        out4 = x

        x = self.conv6(x)
        x = self.residual5(x)
        out5 = x

        return out3, out4, out5  # 输出三个不同尺度的特征图


# YOLO detection head
class YOLOHead(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(YOLOHead, self).__init__()
        self.head = nn.Sequential(
            ConvBlock(in_channels, out_channels, kernel_size=1, stride=1, padding=0),
            ConvBlock(out_channels,in_channels, kernel_size=3, stride=1, padding=1),
            ConvBlock(in_channels, out_channels, kernel_size=1, stride=1, padding=0),
            ConvBlock(out_channels,in_channels, kernel_size=3, stride=1, padding=1),
            ConvBlock(in_channels, out_channels, kernel_size=1, stride=1, padding=0),
        )


    def forward(self, x):
        return self.head(x)

# YOLOv3 with feature fusion
class YOLOv3(nn.Module):
    def __init__(self, num_classes=80, anchors_num=3):
        super(YOLOv3, self).__init__()
        self.backbone = Darknet53()


        # 此时是13x13x512
        self.yolo_head1 = YOLOHead(1024,512)  # Large scale detection

        self.final_out_1 = nn.Sequential(
            nn.Conv2d(512, 1024, kernel_size=3, stride=1, padding=1),
            nn.Conv2d(1024, anchors_num*(num_classes+5), kernel_size=1, stride=1, padding=0),
        )

        self.last_layer1_conv = nn.Conv2d(512, 256, kernel_size=1, stride=1, padding=0)
        self.last_layer1_upsample = nn.Upsample(scale_factor=2, mode='nearest')

        self.yolo_head2 = YOLOHead(768, 256)  # midum scale detection

        self.final_out_2 = nn.Sequential(
            nn.Conv2d(256, 100, kernel_size=3, stride=1, padding=1),
            nn.Conv2d(100, anchors_num * (num_classes + 5), kernel_size=1, stride=1, padding=0),
        )


        self.last_layer2_conv = nn.Conv2d(256, 128, kernel_size=1, stride=1, padding=0)
        self.last_layer2_upsample = nn.Upsample(scale_factor=2, mode='nearest')

        self.yolo_head3 = YOLOHead(384, 128)  # samll scale detection

        self.final_out_3 = nn.Sequential(
            nn.Conv2d(128, 256, kernel_size=3, stride=1, padding=1),
            nn.Conv2d(256, anchors_num * (num_classes + 5), kernel_size=1, stride=1, padding=0),
        )






    def forward(self, x):
        out3, out4, out5 = self.backbone(x)

        head1 = self.yolo_head1(out5)
        y1 = self.final_out_1(head1)

        fusion1 = self.last_layer1_conv(head1)
        fusion1 = self.last_layer1_upsample(fusion1)
        fusion1 = torch.cat([fusion1, out4], dim=1)
        head2 = self.yolo_head2(fusion1)
        y2 = self.final_out_2(head2)


        fusion2 = self.last_layer2_conv(head2)
        fusion2 = self.last_layer2_upsample(fusion2)
        fusion2 = torch.cat([fusion2, out3], dim=1)
        head3 = self.yolo_head3(fusion2)
        y3 = self.final_out_3(head3)

        return y1, y2, y3  # 返回三个不同尺度的输出

if __name__ == '__main__':
        
    # Initialize model
    model = YOLOv3(num_classes=80)
    
    # Print model architecture
    print(model)
    
    
    # 设定输入图像的尺寸
    input_size = (1, 3, 416, 416)  # batch_size, channels, height, width
    
    # 创建一个随机的输入张量
    input_tensor = torch.randn(*input_size)
    
    # 初始化YOLOv3模型
    model = YOLOv3(num_classes=20)
    
    # 将输入张量传递给模型
    with torch.no_grad():  # 关闭梯度计算，因为这只是测试
        outputs = model(input_tensor)
    
    # 输出每个尺度的检测结果
    for i, output in enumerate(outputs):
        print(f"Output {i+1} shape: {output.shape}")

网络搭建起来，其余部分就差读取数据集、定义损失函数。等模型训练好了，还要写一个预测脚本。

题外话

yolo、yolov2、yolov3是同一个作者写的，其他的版本是其他人魔改的版本。那后续者为什么也叫yolov呢？可能是因为yolo的名气大。相当于前几年的盗版小说网站都叫笔趣阁一样。

yolo的原作者Joseph Redmon在2020年初由于自己的开源算法用于军事和隐私问题，宣布退出CV领域。

参考：

https://github.com/bubbliiiing/yolo3-pytorch

http://mp.weixin.qq.com/s?__biz=MzkyODE5OTA4Nw==&mid=2247486706&idx=1&sn=8e5a0775a153e55362b06a809b4251c7

remote sensing

一个专注于测绘、地信、遥感的公众号

最新文章

老了，腻了，似乎是写不动了。

如何使用 Python 将 TIFF 和 Shapefile 叠加并保存为 JPG

如何在python中调用本地大模型：经验分享

无人机照片为什么会涉密？从大疆航片粗校正说起

使用 Python 和 GeoJSON 计算多边形的边界框（Bounding Box）

避免 Python 中 GDAL/OGR 绑定导致的崩溃

从原图中提取GPS信息并创建Shapefile（第5版）| 把文件名字写入shp、txt中

这么多年下来，我确实是没处理过modis影像 | hdf格式转为tif格式 | 代码分享

为什么我经常使用python，原因在于Python 是地理信息系统（GIS）和遥感领域的热门编程语言。

在Ubuntu 24.04系统上安装Rust编程语言环境

从原图中提取GPS信息并创建Shapefile（第四版）允许文件夹里同时存在原图、非原图

主要是让不会arcgis的人也能按字段分割shp（第二版）

主要是让不会arcgis的人也能按字段分割shp

从照片中提取GPS信息并创建Shapefile（第三版）同时生成一个TXT文本

从照片中提取GPS信息并创建Shapefile（第二版）适用于无人机照片和手机照片

从照片中提取GPS信息并创建Shapefile（第一版）适用于无人机照片和手机照片

6个最奇怪的 Python 概念

在地图上移动：将米转换为经纬度

复盘 | 测绘 | 地信 | 遥感 | 202409

国外开源的地信遥感编程的基础教程，现已上传到云盘。

国外开源的合成孔径雷达学习教程，现已上传到云盘。

目标检测的YOLOv3模型搭建的过程

上个月，我去了一趟青秀山玩...拍了这张照片，想到了遥感的边界能力。

如何在配备RTX 2060 Super的电脑上安装深度学习大模型：经验分享

输入行列号，获取遥感影像的对应位置的数值

小型连续剧之程序员喜欢说的几句话

只要你以后还要去处理矢量，早晚要用到这个功能...

shp文件转换为KML文件 (第二版) 支持不同的坐标系、不完全支持中文属性表

在 Python 中使用 JSON

为了方便使用遥感影像植被色彩增强，我把这功能集成到rstool

这个rstool的开发，是属于挤牙膏式开发...

带标注KML的批量生成，代码已开源，工具免费下载

每个python程序员都应该早点知道的 6 个 Python 函数

shp文件转换为CAD文件 (第三版) 这个软件的界面颜值挺高的

shp文件转换为CAD文件 (改进版)

conda换源是什么？

python、C++、rust速度比较

windows电脑自动倒计时关机

复盘 | 测绘 | 地信 | 遥感 | 202408

shp文件转换为CAD文件（dxf格式）

三种通过代码创建矢量文件的方法及例子

坚持写公众号已经超过半年了。。。

对GMTSAR的D-InSAR得到数据进行简单的分析，包括数据读取、数据转换并进行代码编写

GMTSAR的D-InSAR基本处理过程

手动下载Sentinel-1卫星精密轨道数据

ubuntu22.04安装gmtsar

Linux 下安装miniconda(少走弯路)

高效的多维空间点索引算法-Geohash算法原理及实现

加载torch报错及如何解决

安装torch gpu版（不走弯路）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉