CPU也能跑模型：OpenVINO模型部署入门教程

科技 2024-11-05 22:00 广东

↑ 点击蓝字关注极市平台

作者丨一天到晚潜水的鱼

来源丨DeepDriving

编辑丨极市平台

极市导读

本文以部署YOLOv10b为例介绍使用OpenVINO部署模型的基本流程和模型量化工具NNCF的使用方法。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

0. 前言

OpenVINO（Open Visual Inference and Neural network Optimization）是英特尔推出的一个用于深度学习推理的开源工具套件，旨在帮助开发人员优化和部署深度学习模型，以在各种硬件平台上实现高性能的推理。OpenVINO的主要特点和功能：

「跨平台支持」：OpenVINO支持多种硬件平台，包括英特尔的CPU、集成显卡、FPGA以及神经计算棒（Neural Compute Stick），这使得开发人员能够在各种设备上进行高效的深度学习推理。
「模型优化」：OpenVINO提供了一系列工具和技术，可用于优化和转换深度学习模型，以便在目标硬件上实现更高的性能和效率，这包括模型压缩、量化、剪枝等技术。
「推理加速」：OpenVINO利用英特尔的硬件加速器（如英特尔集成显卡、FPGA等）以及优化的软件库（如英特尔数学核心库）来加速深度学习推理，提高推理速度和效率。
「模型部署」：OpenVINO提供了用于将优化过的深度学习模型部署到各种硬件平台上的工具和库，包括C/C++、Python、Java的API，以及支持各种框架（如TensorFlow、PyTorch等）的模型转换工具。
「端到端解决方案」：OpenVINO提供了端到端的解决方案，涵盖了从模型训练到推理部署的整个深度学习工作流程，使开发人员能够更轻松地构建和部署深度学习应用程序。

「本文将以部署YOLOv10b为例介绍使用OpenVINO部署模型的基本流程和模型量化工具NNCF的使用方法」。

1. 安装OpenVINO

OpenVINO有很多种安装方式，如果只想用Python版的API，可以直接用pip进行安装：

pip install openvino

如果还想用C/C++版的API，可以选择使用Archive文件进行安装。下文展示在Ubuntu 22.04系统中使用Archive文件安装OpenVINO的基本步骤：

创建安装目录并下载压缩包文件

# 创建目录  
mkdir -p ~/intel && cd ~/intel/  
# 下载文件  
curl -L https://storage.openvinotoolkit.org/repositories/openvino/packages/2024.4/linux/l_openvino_toolkit_ubuntu22_2024.4.0.16579.c3152d32c9c_x86_64.tgz --output openvino_2024.4.0.tgz  
# 解压包  
tar -xf openvino_2024.4.0.tgz  
# 重命名目录  
mv l_openvino_toolkit_ubuntu22_2024.4.0.16579.c3152d32c9c_x86_64/ openvino_2024.4.0  
#创建软链接  
ln -s openvino_2024.4.0/ openvino_2024

```
安装必要的依赖库：
```

cd openvino_2024/  
sudo -E ./install_dependencies/install_openvino_dependencies.sh  
pip install python/requirements.txt

```
设置环境变量：
```

source setupvars.sh

为了方便，可以在~/.bashrc文件的最后添加一行命令用来设置OpenVINO的环境变量:

source ~/intel/openvino_2024/setupvars.sh

完成以上步骤后，可以执行下面的Python脚本查询当前OpenVINO可用的设备：

python samples/python/hello_query_device/hello_query_device.py

如果输出可用设备（一般只有CPU）的信息，说明OpenVINO已经安装成功。

2. 用OpenVINO部署模型

2.1 模型格式转换

OpenVINO支持PyTorch、TensorFlow、PaddlePaddle、ONNX、OpenVINO IR等多种格式的模型，部署模型的时候可以选择先将其他格式的模型转换为OpenVINO IR格式再部署，也可以直接使用原来的格式进行部署。

将其他格式的模型转换为OpenVINO IR格式有两种方法，第一种方法是使用Python接口进行转换：

import openvino as ov  
ov_model = ov.convert_model('yolov10b.onnx')  
ov.save_model(ov_model, 'yolov10b.xml')

另一种方法是使用ovc命令：

ovc yolov10b.onnx

转换好的OpenVINO IR格式模型分为.xml和.bin两个文件。

2.2 基本部署流程

「本文将介绍如何使用OpenVINO的Python接口部署ONNX格式的YOLOv10b模型。」用OpenVINO部署模型的流程非常简单，只需要以下几个步骤：

「导入`openvino`包并创建`Core`对象」

import openvino as ov  
core = ov.Core()

```
「加载并编译模型」
```

compiled_model = core.compile_model("yolov10b.onnx", "AUTO")

模型的所有输入/输出信息可以通过下面的方式获取

inputs = compiled_model.inputs  
outputs = compiled_model.outputs

如果模型只有一个输入/输出，也可以这样获取

input = compiled_model.input()  
output = compiled_model.output()

或者通过索引来获取某个输入/输出的信息

input = compiled_model.input(0)  
output = compiled_model.output(0)

然后可以获取模型输入/输出的维度和数据类型等信息

input_shape = input.shape  
data_type = input.get_element_type()

```
「创建推理请求」
```

infer_request = compiled_model.create_infer_request()

```
「绑定模型输入数据」
```

# input_data是图片经过预处理后以NCHW的通道顺序排列的数据  
input_tensor = ov.Tensor(array=input_data, shared_memory=True)  
infer_request.set_input_tensor(input_tensor)

```
「执行模型推理操作」
```

infer_request.start_async()  
infer_request.wait()

这里的推理方式采用异步模式，wait()是要一直等到推理完成。如果想设置一个最大等待时间，可以使用wait_for()函数：

infer_request.wait_for(100) #单位是毫秒

也可以采用同步方式进行推理（不推荐）：

infer_request.infer()

「获取推理结果，进行必要的后处理」

output_tensor = infer_request.get_output_tensor()  
output_data = output_tensor.data  
# 对output_data进行后处理......

完整的推理流程代码如下：

import cv2  
import numpy as np  
import openvino as ov  
  
# 读取测试图片  
image = cv2.imread("soccer.jpg")  
print("image shape: ", image.shape)  
image_height, image_width, _ = image.shape  
  
# 创建Core对象  
core = ov.Core()  
compiled_model = core.compile_model("yolov10b.onnx", "AUTO")  
  
# 获取模型输入输出信息  
inputs = compiled_model.inputs  
outputs = compiled_model.outputs  
  
input_shape = inputs[0].shape  
model_height, model_width = input_shape[2:]  
print("model_height: ", model_height)  
print("model_width: ", model_width)  
  
# 对图像数据进行预处理  
input_data, ratio, x_offset, y_offset = preprocess(  
    image, image_width, image_height, model_width, model_height  
)  
  
# 创建推理请求  
infer_request = compiled_model.create_infer_request()  
  
# 把输入数据绑定到infer_request  
input_tensor = ov.Tensor(array=input_data, shared_memory=True)  
infer_request.set_input_tensor(input_tensor)  
  
# 执行推理  
infer_request.start_async()  
infer_request.wait()  
  
# 获取模型推理数据  
output_tensor = infer_request.get_output_tensor()  
output_data = output_tensor.data  
  
# 后处理，省略...

对输入图片做预处理和对YOLOv10模型推理结果做后处理的代码在之前的文章已经贴过，这里就不再重复了。感兴趣的读者可以看下面这篇文章：YOLOv10来啦！ONNX模型部署和性能对比了解一下检测结果如下：

可以看到，OpenVINO推理结果与用ONNXRuntime推理的结果是一致的。但是由于是用CPU进行推理，整个处理过程耗时超过了400毫秒!

3. NNCF模型量化工具

由于使用Float32精度的模型进行推理速度太慢了，因此有必要对模型进行量化再做部署。本节将介绍如何使用模型量化工具NNCF（Neural Network Compression Framework）对模型进行INT8量化以加快推理速度。这里的量化指的是训练后量化（PTQ），需要从训练集或者验证集中选一定数量的图片作为校准数据。NNCF支持对OpenVINO IR、PyTorch、TensorFlow、ONNX等格式的模型进行量化，「但是在实际使用过程中发现直接使用ONNX进行量化会报莫名其妙的错误（可能对ONNX的支持不太好？）」，因此下文将使用OpenVINO IR格式的模型进行量化。NNCF可以直接通过pip命令进行安装：

pip install nncf

量化过程比较简单，只需要以下几个步骤：

「准备校准数据」

这一步需要创建一个nncf.Dataset类的实例，这个类的构造函数接收两个参数：数据集对象和转换函数。其中数据集对象用来加载校准数据并对数据做预处理操作，可以是深度学习框架中的数据加载器（比如PyTorch中的DataLoader），也可以是任意可迭代对象（比如一个列表）；转换函数用于从数据集中取样并返回可传递给模型进行推理的数据。这是官方文档给的示例代码：

import nncf  
import torch  
  
calibration_loader = torch.utils.data.DataLoader(...)  
  
def transform_fn(data_item):  
    images, _ = data_item  
    return images.numpy()  
  
calibration_dataset = nncf.Dataset(calibration_loader, transform_fn)

「加载模型并对模型进行量化」

import openvino as ov  
  
model = ov.Core().read_model("yolov10b.xml")  
quantized_model = nncf.quantize(model, calibration_dataset)

调用nncf.quantize函数对模型进行量化，该函数还有其他参数进行设置：

「model_type」：用于指定特定类型模型所需的量化方案，默认为None。对基于Transformer的模型进行量化时可设置为nncf.ModelType.Transformer。
「preset」：指定量化方案，有两种方案可选：

「PERFORMANCE」：默认模式，定义权重和激活的对称量化。
「MIXED」：权重采用对称量化，激活函数采用非对称量化。如果模型中有非ReLU激活函数或者非对称激活函数（ELU、PReLU、GELU等），推荐使用此方案。

「fast_bias_correction」：设置为False时，可启用更准确的偏差校正算法以提高量化模型的准确性（量化过程更耗时），默认为True以最小化量化时间。该参数仅对OpenVINO IR和ONNX格式的模型有效。
「subset_size」：指定用于估计量化参数的校准数据集样本的数量，默认为300。

```
「保存量化好的模型」
```

ov.save_model(quantized_model, "yolov10b_quantized.xml")

下面是对YOLOv10b模型进行量化的完整代码：

import os  
import onnx  
import cv2  
import glob  
import numpy as np  
import nncf  
import openvino as ov  
import random  
  
# 自定义一个可迭代对象用于加载校正数据  
class CalibDataLoader:  
    def __init__(self, width, height, image_dir, num):  
        self.index = 0  
        self.width = width  
        self.height = height  
        self.num = num  
        self.image_list = glob.glob(os.path.join(image_dir, "**", "*.jpg"), recursive=True)  
          
        assert (len(self.image_list) >= self.num), "{} must contains more than {} images for calibration.".format(image_dir, self.num)  
  
        random.shuffle(self.image_list)  
  
    def __next__(self):  
        if self.index < len(self.image_list):  
            image_path = self.image_list[self.index]  
            image = cv2.imread(image_path)  
            if image is not None:  
                image_height, image_width, _ = image.shape  
                # 预处理函数与部署代码中一样  
                input_tensor = PreProcess(image, image_width, image_height, self.width, self.height)  
                self.index += 1  
                return input_tensor  
            else:  
                return np.array([])  
        else:  
            raise StopIteration  
      
    def __iter__(self):  
        return self  
  
    def __len__(self):  
        return len(self.image_list)  
  
# 加载模型，获取模型输入信息  
model = ov.Core().read_model("yolov10b.xml")  
inputs = model.inputs  
outputs = model.outputs  
input_name = [name for name in inputs[0].names][0]  
input_shape = inputs[0].shape  
model_height, model_width = input_shape[2:]  
  
  
# 创建DataLoader对象，设置校准数据集的目录和数量  
calib_data_loader = CalibDataLoader(model_width, model_height, "/path/to/coco/val", 1000)  
  
# 定义转换函数  
def transform_fn(data_item):  
    return {input_name: data_item}  
  
calibration_dataset = nncf.Dataset(calib_data_loader, transform_fn)  
  
# 对模型进行量化  
quantized_model = nncf.quantize(model, calibration_dataset, fast_bias_correction=False, subset_size=1000)  
  
# 保存量化后的模型  
ov.save_model(quantized_model, "yolov10b_quantized.xml")

用NNCF对模型进行量化还是很简单的，但是量化过程非常耗内存，设置校正数据量为1000就需要耗好几十G的内存！量化后的YOLOv10b模型推理耗时约180毫秒，比Float32精度的模型还是快了很多的。

4. 参考资料

https://docs.openvino.ai/2024/index.html

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

Windows + VSCode 配置 OpenCV C++ 一站式开发调试环境教程

我为什么离开OpenAI？六年元老发离职长文：AGI将至，我们远没准备好

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

NeurIPS 2024｜RoPINN: 局域优化的物理信息神经网络，PINN的新训练范式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer-GameGen-X

NeurIPS 2024｜观物取象，穷理尽性：从视觉观测中推理物理运动规律

vLLM这一年的新特性以及后续规划（总结版!）

中国断臂女子，拿到了这场「赛博奥运会』的冠军！人机共生的时代已来

精英齐聚芜湖，大赛成果分享｜邀您参加2024长三角（芜湖）算力算法创新应用大赛颁奖典礼！

复旦提出 CTA-Net：卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！

NeurIPS 2024｜浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

90后上海女生，成美国数学大奖首位女性华人得主！获评委陶哲轩盛赞

finetune后的模型参数，还可以继续怎么玩？

ECCV'24｜SAM4MLLM：结合多模态大型语言模型和SAM实现高精度引用表达分割

CPU也能跑模型：OpenVINO模型部署入门教程

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

TPAMI 2024｜解耦图神经网络：同时训练多个简单的GNN而不是一个

ECCV 2024｜谷歌提出LookupViT：全新通用视觉Transformer块

只要两张3090就可复现！Vision Search Assistant开源：VLM与Web搜索能力的巧妙结合

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

NeurIPS 2024｜浙大/微信/清华提出：彻底解决扩散模型反演问题

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了

实践教程｜CUDA C++编程指北-编程接口与硬件实现

刚刚，阿里全球数学竞赛决赛结果公布，姜萍违反预选赛规则未获奖

从0开始用 PyTorch 构建完整的 NeRF

NeurIPS 2024｜自监督湍流分析，减少99%标注数据需求

边缘检测算法综合指南

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

100+深度学习各方向数据集资源大盘点

CLIPFit：不绕弯子，直接微调比提示微调和适配器微调更好｜EMNLP'24

NeurIPS 2024｜机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

融合 Mamba 与 Transformer｜MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !

NeurIPS2024｜提高专业生产力，让你的AI画作布局可控，360 AI Research开源新模型HiCo

如何优雅地测量GPU CUDA Kernel耗时？

全球最大AI超算内部首次曝光！马斯克19天神速组装10万块H100，未来规模还将扩大一倍

一文看完多模态：从视觉表征到多模态大模型

NeurIPS 2024｜字节联合华师提出统一的多模态文字理解与生成大模型

零基础万字长文实践diffusion模型

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

NeurlPS 2024 Oral｜多模态融合检测端到端算法E2E-MFD来了！

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

ECCV 2024｜SegVG：刷新视觉定位新SOTA！将视觉定位的目标边界框转化为分割信号

NeurIPS 2024｜TextHarmony: 基于统一架构的视觉文本理解与生成模型

全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

陶哲轩神预言！Transformer破解百年三体难题，凭数学直觉找到李雅普诺夫函数

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉