详细记录u版YOLOv5目标检测NCNN实现

科技 2024-11-03 10:05 辽宁

点击下方“深度学习爱好者”，选择加"星标"或“置顶”

仅作学术分享，不代表本公众号立场，侵权联系删除

转载于：作者丨nihui@知乎

来源丨https://zhuanlan.zhihu.com/p/275989233

0x0 u版YOLOv5

众所周知，原版YOLO系列是 darknet 框架训练的，而广泛使用的是 YOLOv4 作者 AlexeyAB 的版本

AlexeyAB 首字母是a，于是也被叫做 a版，darknet模型可以用 ncnn 自带的 darknet2ncnn 无痛转换，步骤比较简单，因此本文不提

https://github.com/AlexeyAB/darknet

Ultralytics LLC 再次改进出更快更好的 YOLOv5，并且之前也有独立实现的 pytorch yolov3

Ultralytics 首字母是u，于是也被叫做 u版。pytorch 大法好！（曾经我以为u版的意思是能放在u盘里跑的yolo（（（

https://github.com/ultralytics/yolov5

0x1 缘由

pytorch yolov5 转 ncnn 推理，搜索下 github 便能找到好几个，zhihu 也有文章

ncnn example 里没有 yolov5.cpp，本打算借鉴下社区成果，结果仔细看了代码发现这些实现都缺少了 yolov5 Focus 模块和动态尺寸输入，前者导致检测精度差一截，后者导致推理速度差一截，这样子放进官方repo当成参考代码是不行的

这里就用 yolov5 作为例子，介绍下如何用 ncnn 实现出完整形态的 yolov5

0x2 pytorch测试和导出onnx

按照 yolov5 README 指引，下载 yolov5s.pt，调用 detect.py 看看检测效果

$ python detect.py --source inference/images --weights yolov5s.pt --conf 0.25

效果没有问题，继续按照 README 指引，导出 onnx，并用 onnx-simplifer 简化模型，到此都很顺利

https://github.com/ultralytics/yolov5/issues/251github.com

$ python models/export.py --weights yolov5s.pt --img 640 --batch 1
$ python -m onnxsim yolov5s.onnx yolov5s-sim.onnx

0x3 转换和实现focus模块

$ onnx2ncnn yolov5s-sim.onnx yolov5s.param yolov5s.bin

转换为 ncnn 模型，会输出很多 Unsupported slice step，这是focus模块转换的报错

Unsupported slice step !
Unsupported slice step !
Unsupported slice step !
Unsupported slice step !
Unsupported slice step !
Unsupported slice step !
Unsupported slice step !
Unsupported slice step !

好多人遇到这种情况，便不知所措，这些警告表明focus模块这里要手工修复下

打开 yolov5/models/common.py 看看focus在做些什么

class Focus(nn.Module):
    # Focus wh information into c-space
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):  # ch_in, ch_out, kernel, stride, padding, groups
        super(Focus, self).__init__()
        self.conv = Conv(c1 * 4, c2, k, s, p, g, act)

    def forward(self, x):  # x(b,c,w,h) -> y(b,4c,w/2,h/2)
        return self.conv(torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1))

这其实是一次 col-major space2depth 操作，pytorch 似乎并没有对应上层api实现（反向的 depth2space 可以用 nn.PixelShuffle），yolov5 用 stride slice 再 concat 方式实现，实乃不得已而为之的骚操作

用netron工具打开param，找到对应focus的部分

把这堆骚操作用个自定义op YoloV5Focus代替掉，修改param

找准输入输出 blob 名字，用一个自定义层 YoloV5Focus 连接
param 开头第二行，layer_count 要对应修改，但 blob_count 只需确保大于等于实际数量即可
修改后使用 ncnnoptimize 工具，自动修正为实际 blob_count

替换后用 ncnnoptimize 过一遍模型，顺便转为 fp16 存储减小模型体积

$ ncnnoptimize yolov5s.param yolov5s.bin yolov5s-opt.param yolov5s-opt.bin 65536

接下来要实现这个自定义op YoloV5Focus，wiki上的步骤比较繁多

https://github.com/Tencent/ncnn/wiki/how-to-implement-custom-layer-step-by-stepgithub.com

针对 focus 这样，没有权重，也无所谓参数加载的 op，继承 ncnn::Layer 实现 forward 就可以用，注意要用 DEFINE_LAYER_CREATOR 宏定义 YoloV5Focus_layer_creator

#include "layer.h"
class YoloV5Focus : public ncnn::Layer
{
public:
    YoloV5Focus()
    {
        one_blob_only = true;
    }

    virtual int forward(const ncnn::Mat& bottom_blob, ncnn::Mat& top_blob, const ncnn::Option& opt) const
    {
        int w = bottom_blob.w;
        int h = bottom_blob.h;
        int channels = bottom_blob.c;

        int outw = w / 2;
        int outh = h / 2;
        int outc = channels * 4;

        top_blob.create(outw, outh, outc, 4u, 1, opt.blob_allocator);
        if (top_blob.empty())
            return -100;

        #pragma omp parallel for num_threads(opt.num_threads)
        for (int p = 0; p < outc; p++)
        {
            const float* ptr = bottom_blob.channel(p % channels).row((p / channels) % 2) + ((p / channels) / 2);
            float* outptr = top_blob.channel(p);

            for (int i = 0; i < outh; i++)
            {
                for (int j = 0; j < outw; j++)
                {
                    *outptr = *ptr;

                    outptr += 1;
                    ptr += 2;
                }

                ptr += w;
            }
        }

        return 0;
    }
};

DEFINE_LAYER_CREATOR(YoloV5Focus)

加载模型前先注册 YoloV5Focus，否则会报错找不到 YoloV5Focus

ncnn::Net yolov5;

yolov5.opt.use_vulkan_compute = true;
// yolov5.opt.use_bf16_storage = true;

yolov5.register_custom_layer("YoloV5Focus", YoloV5Focus_layer_creator);

yolov5.load_param("yolov5s-opt.param");
yolov5.load_model("yolov5s-opt.bin");

0x4 u版YOLOv5后处理

其实工程量最大的倒是后处理的实现，u版的后处理和a版本是不一样的，ncnn内置的YoloV3DetectionOuptut是对着a版实现的，不能直接拿来接住，需要自己实现

anchor信息是在 yolov5/models/yolov5s.yaml

pytorch的后处理在 yolov5/models/yolo.py Detect类 forward函数，对着改写成 cpp

netron里找到模型的3个输出blob，分别对应于 stride 8/16/32 的输出

输出shape可知

w=85，对应于bbox的dx,dy,dw,dh，bbox置信度，80种分类的置信度
h=6400，对应于整个图片里全部anchor的xy，这个1600是stride=8的情况，输入640的图片，宽高划分为640/8=80块，80x80即6400
c=3，对应于三种anchor

sort nms 可以借鉴 YoloV3DetectionOuptut

0x5 动态尺寸推理

u版yolov5 是支持动态尺寸推理的

静态尺寸：按长边缩放到 640xH 或 Wx640，padding 到 640x640 再检测，如果 H/W 比较小，会在 padding 上浪费大量运算
动态尺寸：按长边缩放到 640xH 或 Wx640，padding 到 640xH2 或 W2x640 再检测，其中 H2/W2 是 H/W 向上取32倍数，计算量少，速度更快

ncnn天然支持动态尺寸输入，无需reshape或重新初始化，给多少就算多少

如果直接跑小图，会发现检测框密密麻麻布满整个画面，或者根本检测不到东西，就像这样

问题出在最后 Reshape 层把输出grid数写死了，根据 ncnn Reshape 参数含义，把写死的数量改为 -1 便可以自适应

后处理部分也不可写死 sqrt(num_grid)，要根据图片宽高和 stride 自适应

const int num_grid = feat_blob.h;

int num_grid_x;
int num_grid_y;
if (in_pad.w > in_pad.h)
{
    num_grid_x = in_pad.w / stride;
    num_grid_y = num_grid / num_grid_x;
}
else
{
    num_grid_y = in_pad.h / stride;
    num_grid_x = num_grid / num_grid_y;
}

ncnn实现代码和转好的模型已上传到github

0x6 android例子

https://github.com/nihui/ncnn-android-yolov5github.com

根据 README 步骤就能编译，yolov5 小目标检测挺厉害的

0x7 总结

没啥好总结的，写个文章，实践下如何用自定义层，讲讲动态输入的注意事项，将来有需要可以参考着来

虽然没有这教程，也能把 example 的 yolov5 跑起来，但里头的过程和细节就看不到了，授人鱼不如授人渔

ncnn就要1w star啦（小声

https://github.com/Tencent/ncnngithub.com

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247569472&idx=3&sn=ff1e36498b8b0f05a3f5fd34ac476817

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

独自一人，怒发顶会！！

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

【魔改Mamba系列】CAMS: 基于Mamba的无卷积和无注意力的图像分割

特征选择的通俗讲解！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

kaggle图像分割实战要点与技巧总结

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

一篇文章梳理清楚 Python 多线程与多进程

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

知识蒸馏综述：蒸馏机制

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

【魔改Mamba系列】DSDFormer: 一种创新的Transformer-Mamba框架，用于鲁棒高精度驾驶员分心识别

图像处理——过程全解析，配图超详细！

博士招生 | 埃默里大学计算机科学系Dr. Guo Zhichun实验室博士生招生

【魔改YOLO系列】无源域自适应YOLO目标检测

一博士狂编200多篇SCI发表，被揭发后畏罪自杀...网友：堪称史诗级学术骗局！

大模型经典著作《大语言模型基础与前沿》

博士招生 | UIUC 计算机科学系实验室博士生、博士后招募

收藏 | 半监督目标检测相关方法总结

【魔改Mamba系列】MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

收藏 | 目标检测回归损失函数总结

深度学习模型参数量/计算量和推理速度计算

去他的顶会顶刊！我就想发个论文毕个业！

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

有哪些深度学习效果不如传统方法的经典案例？

【Mamba前沿网络】SUM: 通过Mamba实现显著性统一以建模视觉注意力

小样本学习只是一场学术界自嗨吗？

一篇适合新手的深度学习综述！

【Mamba网络前沿】混合Transformer-Mamba网络用于单图像去雨

为什么 Batch Normalization 那么有用？

薛定谔的准确率：PyTorch随机数引发的可复现性陷阱

【魔改YOLO系列】Infra-YOLO：实时红外小目标检测的高效神经网络结构

招生信息 | 香港大学杜泓阳教授团队博士招生

图像去噪的原理及实现

【魔改YOLO系列】Mamba YOLO: 基于SSMs的YOLO用于目标检测

YOLOv9 - 在自定义数据集上进行目标检测

IoU、GIoU、DIoU、CIoU损失函数的那点事儿

【魔改YOLO系列】CST-YOLO：YOLO与CNN-Swin Transformer结合，实现精准小目标检测

招生信息 | 香港大学计算机视觉与机器智能实验室（CVMI Lab）博士招生

使用YOLO检测眼睛闭合 | 设定警报

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

硬肝！超详细matplotlib基础介绍！！！

医图顶会 MICCAI'24 | 条件Diffusion结合空间注意力，实现医学图像精准区分割

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉