提升篇 | 优化YOLOv8以加快推理速度

科技 2024-11-25 22:24 广东

为了一项研究，我需要减少YOLOv8的推理时间。在这项研究中，我使用了自己的电脑而不是Google Colab。我的电脑有一个Intel i5（第12代）处理器，我的GPU是NVIDIA GeForce RTX 3050。这些信息很重要，因为我在一些方法中使用了CPU，在其他方法中使用了GPU。

原始模型使用情况

为了测试，我们使用了Ultralytics提供的YOLOv8n.pt模型，并使用bus.jpg图像进行评估。我们将分析获得的时间值和结果。要了解模型的性能，还要知道它运行在哪个设备上——无论是使用CUDA GPU还是CPU。

# cudaimport cv2import matplotlib.pyplot as pltfrom ultralytics import YOLOimport torch
yolov8model = YOLO("yolov8n.pt")img = cv2.imread("bus.jpg")results = yolov8model.predict(source=img, device='cuda')

img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
for result in results:    boxes = result.boxes    for box in boxes:        x1, y1, x2, y2 = box.xyxy[0].tolist()        confidence = box.conf[0].item()        class_id = int(box.cls[0].item())
        cv2.rectangle(img, (int(x1), int(y1)), (int(x2), int(y2)), (255, 0, 0), 2)        cv2.putText(img, f'ID: {class_id} Conf: {confidence:.2f}',                     (int(x1), int(y1)-10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (255, 0, 0), 2)
used_device = next(yolov8model.model.parameters()).deviceprint("Model is running on:", used_device)plt.figure(figsize=(10, 10))plt.imshow(img)plt.axis('off')plt.show()

# cpuimport cv2import matplotlib.pyplot as pltfrom ultralytics import YOLOimport torch
yolov8model = YOLO("yolov8n.pt")img = cv2.imread("bus.jpg")results = yolov8model.predict(source=img, device='cpu')

img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
for result in results:    boxes = result.boxes    for box in boxes:        x1, y1, x2, y2 = box.xyxy[0].tolist()        confidence = box.conf[0].item()        class_id = int(box.cls[0].item())
        cv2.rectangle(img, (int(x1), int(y1)), (int(x2), int(y2)), (255, 0, 0), 2)        cv2.putText(img, f'ID: {class_id} Conf: {confidence:.2f}',                     (int(x1), int(y1)-10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (255, 0, 0), 2)
plt.figure(figsize=(10, 10))plt.imshow(img)plt.axis('off')plt.show()
used_device = next(yolov8model.model.parameters()).deviceprint("Model is running on:", used_device)

现在，我们有一个起点。具体来说，对于bus.jpg图像，模型在CPU上的推理时间是199.7毫秒，在GPU上是47.2毫秒。

剪枝

我们使用的第一个方法是剪枝模型。剪枝改变了模型并创建了一个更高效的版本。有些方法修改了模型本身，而其他方法改变了输入或直接影响推理。在剪枝中，模型中较不重要或影响最小的连接被移除。这导致了一个更小、更快的模型，但它可能会对准确性产生负面影响。

import torchimport torch.nn.utils.prune as prunefrom ultralytics import YOLO
def prune_model(model,amount=0.3):    for module in model.modules():        if isinstance(module,torch.nn.Conv2d):            prune.l1_unstructured(module,name="weight",amount=amount)            prune.remove(module,"weight")    return model
model = YOLO("yolov8n.pt")#results= model.val(data="coco.yaml")
#print(f"mAP50-95: {results.box.map}")torch_model = model.modelprint(torch_model)
print("Prunning model...")pruned_torch_model = prune_model(torch_model,amount=0.1)print("Model pruned.")
model.model =pruned_torch_model
print("Saving pruned model...")model.save("yolov8n_trained_pruned.pt")
print("Pruned model saved.")

通常，一种方法被用来比较数据集；然而，在这个例子中，使用了大约18 GB的数据集的通用yolov8n.pt模型。在这个例子中，没有使用coco.yaml文件。

我将分享使用的GPU的结果，我们将更新比较图，因为应用不同的参数时时间可能会改变。通常，我无法弄清楚时间为何会改变，但这可能是由于内存或其他因素。

# cuda prunedimport cv2import matplotlib.pyplot as pltfrom ultralytics import YOLOimport torch
yolov8model = YOLO("yolov8n_trained_pruned.pt")img = cv2.imread("bus.jpg")results = yolov8model.predict(source=img, device='cuda')

img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
for result in results:    boxes = result.boxes    for box in boxes:        x1, y1, x2, y2 = box.xyxy[0].tolist()        confidence = box.conf[0].item()        class_id = int(box.cls[0].item())
        cv2.rectangle(img, (int(x1), int(y1)), (int(x2), int(y2)), (255, 0, 0), 2)        cv2.putText(img, f'ID: {class_id} Conf: {confidence:.2f}',                     (int(x1), int(y1)-10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (255, 0, 0), 2)        used_device = next(yolov8model.model.parameters()).deviceprint("Model is running on:", used_device)plt.figure(figsize=(10, 10))plt.imshow(img)plt.axis('off')plt.show()

正如你看到的，结果有点令人困惑；ID和blob不准确。

然而，当我们比较推理时间时，剪枝模型在CPU和GPU上都比原始模型表现略好。剪枝模型的问题是它会影响结果，但它减少了模型的推理时间。

改变批量大小

在确定模型训练或预测的批量大小时，我们模型中同时处理的帧数至关重要。我创建了一个循环来识别最优批量大小，因为增加批量大小有时可能会产生负面影响。然而，我注意到每次尝试时最优批量大小都会改变。我尝试平均结果，但这种方法是不充分的。为了说明我的发现，我将分享一张我的初步试验的表格，用红点突出显示最优批量大小。

import cv2import matplotlib.pyplot as pltfrom ultralytics import YOLOimport torchimport time
yolov8model = YOLO("yolov8n.pt")img = cv2.imread("bus.jpg")img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
inference_times = []

for batch_size in range(1, 41):    start_time = time.time()  

    results = yolov8model.predict(source=img_rgb, device='cuda', batch=batch_size)        end_time = time.time()     inference_time = end_time - start_time         inference_times.append((batch_size, inference_time))    print(f"Batch Size: {batch_size}, Inference Time: {inference_time:.4f} seconds")

plt.figure(figsize=(10, 5))batch_sizes = [bt[0] for bt in inference_times]times = [bt[1] for bt in inference_times]

min_time_index = times.index(min(times))min_batch_size = batch_sizes[min_time_index]min_inference_time = times[min_time_index]

plt.plot(batch_sizes, times, marker='o')plt.plot(min_batch_size, min_inference_time, 'ro', markersize=8)  plt.title('Inference Time vs. Batch Size')plt.xlabel('Batch Size')plt.ylabel('Inference Time (seconds)')plt.xticks(batch_sizes)plt.grid()

plt.show()

best_results = yolov8model.predict(source=img_rgb, device='cuda', batch=min_batch_size)

for result in best_results:    boxes = result.boxes     for box in boxes:        x1, y1, x2, y2 = box.xyxy[0].cpu().numpy()          conf = box.conf[0].cpu().numpy()          cls = int(box.cls[0].cpu().numpy())  

        cv2.rectangle(img, (int(x1), int(y1)), (int(x2), int(y2)), (0, 0, 255), 2)          cv2.putText(img, f'Class: {cls}, Conf: {conf:.2f}', (int(x1), int(y1) - 10),                     cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 255), 2)

plt.figure(figsize=(10, 10))plt.imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))plt.title(f'Results with Batch Size {min_batch_size}')plt.axis('off')plt.show()

硬件加速方法

为了提高YOLOv8模型的性能，另一个选择是使用硬件加速。为此目的有几种工具可用，比如TensorRT和OpenVINO。

TensorRT

TensorRT是一种使用NVIDIA硬件优化推理效率的方法。在这部分中，我使用了带有T4 GPU的Google Colab来比较标准模型和TensorRT优化模型的性能。让我们从如何将我们的模型转换为TensorRT格式开始。首先，我们需要将模型文件上传到Colab，然后编写以下代码：

from ultralytics import YOLO
model = YOLO("yolov8n.pt")
model.export(format="engine")

然后，我们使用bus.jpg测试模型，TensorRT优化模型的推理时间为6.6毫秒。相比之下，标准模型的推理时间为6.9毫秒。从结果来看，由于更先进的T4硬件，TensorRT模型的性能略优于标准模型。

import cv2import matplotlib.pyplot as pltfrom ultralytics import YOLOimport torch
yolov8model = YOLO('yolov8n.engine')  
img = cv2.imread("bus.jpg")
results = yolov8model.predict(source=img, device='cuda')
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
for result in results:    boxes = result.boxes    for box in boxes:        x1, y1, x2, y2 = box.xyxy[0].tolist()        confidence = box.conf[0].item()        class_id = int(box.cls[0].item())
        cv2.rectangle(img, (int(x1), int(y1)), (int(x2), int(y2)), (255, 0, 0), 2)        cv2.putText(img, f'ID: {class_id} Conf: {confidence:.2f}',                     (int(x1), int(y1)-10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (255, 0, 0), 2)
used_device = yolov8model.deviceprint("Model is running on:", used_device)
plt.figure(figsize=(10, 10))plt.imshow(img)plt.axis('off')plt.show()

OpenVINO

OpenVINO是一个主要为优化模型性能而设计的套件，特别是在Intel硬件上。它可以显著提高CPU性能，通常在常规使用中可提高多达3倍。让我们从将我们的模型转换为OpenVINO格式开始。

from ultralytics import YOLO
# Load a YOLOv8n PyTorch modelmodel = YOLO("yolov8n.pt")
# Export the modelmodel.export(format="openvino")  # creates 'yolov8n_openvino_model/'
# Load the exported OpenVINO modelov_model = YOLO("yolov8n_openvino_model/")

import cv2import matplotlib.pyplot as pltfrom ultralytics import YOLO

yolov8model = YOLO('yolov8n_openvino_model/', task="detect")  

img = cv2.imread("bus.jpg")

results = yolov8model.predict(source=img)
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
for result in results:    boxes = result.boxes    for box in boxes:        x1, y1, x2, y2 = box.xyxy[0].tolist()        confidence = box.conf[0].item()        class_id = int(box.cls[0].item())
        cv2.rectangle(img, (int(x1), int(y1)), (int(x2), int(y2)), (255, 0, 0), 2)        cv2.putText(img, f'ID: {class_id} Conf: {confidence:.2f}',                     (int(x1), int(y1)-10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (255, 0, 0), 2)
plt.figure(figsize=(10, 10))plt.imshow(img)plt.axis('off')plt.show()

正如你看到的，在CPU性能上OpenVINO模型的推理时间略有下降。以下是我尝试的不同方法的比较结果。

总之，如果你有一块高级GPU，使用TensorRT是最佳选择。然而，如果你在配备Intel CPU的计算机上工作，OpenVINO是首选。不同的方法会导致不同的推理时间，因此每种方法都进行了多次测试以观察差异。

AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

最新文章

性能堪比o1？阿里mRAG新框架开启多模态动态检索新时代！

格局打开！马斯克的Grok免费开放给所有人了！

和Sora掰手腕！谷歌升级了视频模型Veo 2和Imagen 3。

图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit：BrushNet进阶版来了

ECCV 2024 | 扩散视觉Transformer：基于Transformer生成图像

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

ECCV 2024 | BK-SDM：一种轻量级、快速且廉价的Stable Diffusion版本

极越，“暴雷”了！

别吹Sora了，实测一言难尽。甚至分不清人脸和猪？？

985教授发表1226篇论文，被质疑“学阀”“水文”，本人回应！

满血版 o1 上线两天，被网友玩出来了 10 个疯狂用法

AAAI 2024 | 即插即用，Conv-Former注意力模块，用卷积实现Transformer效果！

高中生中了顶会，还是一作。。。

字节团队提出 SuperClass 告别CLIP ，革新图像文本预训练分类技术！

被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！

NeurIPS 2024 | 融合现实与虚拟：人脸二维码生成技术开启新时代

网易深圳游戏部门全被裁？？

北大发布ConsisID：无需训练Lora，就可以定制化个人视频写真！

YOPO (You Only Prune Once)：给LLaVA做剪枝，大幅缩减多模态大模型计算量至12%！

雷军大学时候的论文，不需要参考文献

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

字节大瓜后续，GPU集群被投毒，索赔800万！

Kimi开源底层推理框架，1小时GitHub揽星1.2k

ArXiv | RealisHuman：用于修复生成图像中畸形人体部件的两阶段方法

RAG还是微调，怎么选？

Sora开放前夕，最好的视频生成模型是哪个？

国产AI视频生成CogVideoX v1.5，开源。

90%员工月入2-5万？互联网大厂月薪分布揭示真相

一位阿里P9的年薪和家庭资产

提升篇 | 优化YOLOv8以加快推理速度

中文版的TPAMI，你听说过么！

绝了，图片秒变代码，开发越来越简单了！

谷歌浏览器，要被强制出售！

Python优雅地书写LaTeX

又一985，落地深圳！

医图论文 Arxiv'24 | CAMS: 基于Mamba的无卷积和无注意力的图像分割

谷歌2024博士奖学金名单公布

喜提 TPAMI 顶刊！！！

网易高管贪污，基层裁员

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

如何在自定义数据集上训练 YOLOv8 实例分割模型

何恺明大神在MIT的秋季最新课程！附课程地址

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

顶会新方向！全新多模态大模型统一分割框架

被美国“制裁”的中国大学名单。。。

IC-Light V2：AI打光细节完美保留！

Pytorch2.x时代，关于C++部署的讨论

优化计算机视觉和图像处理中的图像格式：OpenCV中的PNG、JPG和WEBP

15岁，7年开发经验！初中生！开源项目被数百万收购

ECCV 2024 Oral | Co-Instruct: 让通用多模态大模型学会比较视觉质量

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉