实战精选 | 5分钟利用 OpenVINO™ 部署 Qwen2.5

学术 2024-09-26 17:20 浙江

点击蓝字

关注我们,让开发变得更有趣

作者 | 杨亦诚英特尔 AI 软件工程师

排版 | 吴紫琴

OpenVINO™

Qwen2.5 是阿里通义团队近期最新发布的文本生成系列模型，基于更富的语料数据集训练，相较于 Qwen2，Qwen2.5 获得了显著更多的知识（MMLU：85+），并在编程能力（HumanEval 85+）和数学能力（MATH 80+）方面有了大幅提升。

此外，新模型在指令执行、生成长文本（超过 8K 标记）、理解结构化数据（例如表格）以及生成结构化输出特别是 JSON 方面取得了显著改进。Qwen2.5 模型总体上对各种 system prompt 更具适应性，增强了角色扮演实现和聊天机器人的条件设置功能。

与 Qwen2 类似，Qwen2.5 语言模型支持高达 128K tokens，并能生成最多 8K tokens 的内容。它们同样保持了对包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等 29 种以上语言的支持。本文将以 Qwen2.5-7B-Instruct 为例，介绍如何利用 OpenVINO™ 的 Python API 在本地部署 Qwen2.5 系列模型。

OpenVINO™

安装相关依赖

本示例有以下依赖组件，需要通过 pip install 提前安装。

nncf==2.12.0
torch==2.3.1
modelscope
optimum[“openvino”]
openvino==2024.4.0
openvino-genai==2024.4.0

OpenVINO™

原始模型下载

我们可以通过魔搭社区提供的命令行工具，下载 Qwen2.5-7B-Instruct 的预训练模型：

modelscope download --model 'qwen/Qwen2.5-7B-Instruct ' --include '*.json' --cache_dir './local_dir'

这里的 './local_dir' 为保存模型的本地路径。

OpenVINO™

模型格式转换与量化

在部署模型之前，我们首先需要将原始的 PyTorch 模型转换为 OpenVINO™ 的 IR 静态图格式，并对其进行压缩，以实现更轻量化的部署和最佳的性能表现。通过 Optimum 提供的命令行工具 optimum-cli，我们可以一键完成模型的格式转换和权重量化任务：

optimum-cli export openvino --model './local_dir' --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8  Qwen2.5-7B-Instruct-int4-ov

开发者可以根据模型的输出结果，调整其中的量化参数，包括：

--weight-format：量化精度，可以选择
fp32,fp16,int8,int4,int4_sym_g128,int4_asym_g128,int4_sym_g64,int4_asym_g64
--group-size：权重里共享量化参数的通道数量
--ratio：int4/int8 权重比例，默认为1.0，0.6表示60%的权重以 int4 表，40%以 int8 表示
--sym：是否开启对称量化

OpenVINO™

模型部署

OpenVINO™ 目前提供两种针对大语言模型的部署方案，如果您习惯于 Transformers 库的接口来部署模型，并想体验相对更丰富的功能，推荐使用基于 Python 接口的 Optimum-intel 工具来进行任务搭建。如果您想尝试更极致的性能或是轻量化的部署方式，GenAI API 则是不二的选择，它同时支持 Python 和 C++ 两种编程语言，安装容量不到200MB。

· Optimum-intel 部署示例

from optimum.intel.openvino import OVModelForCausalLMfrom transformers import AutoConfig, AutoTokenizer
ov_model = OVModelForCausalLM.from_pretrained(    llm_model_path,    device='GPU',    config=AutoConfig.from_pretrained(llm_model_path),)tok = AutoTokenizer.from_pretrained(llm_model_path)prompt = "<|im_start|>system\n<|im_end|>\n<|im_start|>user\n什么是人工智能？<|im_end|>\n<|im_start|>assistant\n"input_tokens = tok(prompt, return_tensors="pt", **tokenizer_kwargs)answer = ov_model.generate(**input_tokens, max_new_tokens=1024)tok.batch_decode(answer, skip_special_tokens=True)[0]

· GenAI API 部署示例

import openvino_genai as ov_genai
pipe = ov_genai.LLMPipeline(llm_model_path, "GPU")pipe.generate(prompt, eos_token_id=151645, max_length=500)

当然你也可以通过以下方式实现流式输出。

def streamer(subword):    print(subword, end='', flush=True)return Falsepipe.generate(prompt, eos_token_id=151645, max_length=500, streamer=streamer)

输出结果示例：

人工智能（Artificial Intelligence，简称 AI）是指由计算机系统所表现出的一种智能行为。它是一门研究如何创建具有智能的计算机程序或系统的学科。人工智能的目标是使计算机能够执行通常需要人类智能才能完成的任务，例如学习、推理、感知、理解自然语言、解决问题、识别图像和语音等。

此外，GenAI API 提供了 chat 模式的构建方法，通过声明 pipe.start_chat()以及pipe.finish_chat()，多轮聊天中的历史数据将被以 kvcache 的形态，在内存中进行管理，从而提升运行效率。

pipe.start_chat()while True:    try:        prompt = input('question:\n')    except EOFError:        break    pipe.generate(prompt, config, streamer)    print('\n----------')pipe.finish_chat()

chat模式输出结果示例：

OpenVINO™

总结

可以看到，不管是利用 Optimum-intel 或是 OpenVINO™ GenAI API，我们都可以非常轻松地将转换后的 Qwen2.5 模型部署在 Intel 的硬件平台上，从而进一步在本地构建起各类基于 LLM 的服务和应用。

参考资料

完整示例：https://github.com/openvino-dev-samples/Qwen2.openvino

OpenVINO™

http://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247679419&idx=2&sn=e472b4ad9d848af0bea23df61dc2fd71

Datawhale

一个专注于AI领域的开源组织，汇聚了众多优秀学习者，使命-for the learner，和学习者一起成长。

最新文章

CCF 大模型安全挑战赛获奖队伍公示！

陶神回应：AI还无法达到他12岁时的水平

又一外企巨头在中国裁员了

4所高校、1000+师生受益，9月AI+X高校行圆满举行！

Yann LeCun最新万字演讲：致力于下一代AI系统，我们基本上不做LLM了

陶哲轩用AI证明方程理论，19天进度99.99%，论文将上线

起诉Open AI：一场科技巨头与小人物的纷争

苦撑30年，离职时75岁！看完老爷子的简历，我失眠了。。

探索AI+硬件新范式，10月26日与交大、商汤、面壁、蔚来、OPPO等各界技术大咖相约上海

提升动手实践能力！Datawhale精选赛事合集

2025泰晤士世界大学排名公布！

真见证历史！SpaceX 星舰第五飞试飞一级回收成功，首次实现“筷子”夹大火箭

两年倒数！Claude 公司 CEO万字长文预言：「强大AI」26年降临，人类寿命将翻倍

红杉资本行业总结篇：生成式 AI 的发展

马斯克：这将是载入史册的一天！

深度｜李飞飞：我不知道什么是AGI

十月组队学习来了！🥳

刚刚，诺贝尔化学奖，揭晓！AI是没有边界的！

报名开启 | 10月27日 Google活动来杭州了

2024 年中国开源年度报告——问卷篇

刚刚，2024年诺贝尔物理学奖，颁给了搞AI的！

近60万总奖金 + offer 直通！国内首个大模型攻防主题赛事

某大厂被爆明文存储密码，罚7亿！

17岁孩子开发AI应用，4个月入百万，人人都是AI产品经理的时代快来了

今日凌晨，ChatGPT重磅更新！— 我心目中的终极 AGI 界面

员工：把工作外包给 AI 是在胡扯！

为什么多数程序员都不做个人独立开发？

顶会卷到中学了！人大附中高中生入选NeurIPS

重磅！美国加州否决SB 1047法案！

聊一聊大模型六小虎生存现状！

Datawhale走进上市企业，（人工智能能力培训）活动圆满举行！

苹果退出投资！OpenAI高管震荡内幕：CEO压榨员工，漠视安全仓促上线4o，追名逐利初心已不再

Sam Altman最新撰文：几千天后，人类将进入智能时代

国家超算互联网平台，提供免费算力了！

捡漏拿奖赛事（目前拿奖率60%）：科大讯飞多语种个性化语音识别挑战赛

每日互动（个推）2025届校招来啦！

实战精选 | 5分钟利用 OpenVINO™ 部署 Qwen2.5

事关就业！中共中央、国务院，发布！

捡漏拿奖赛事（目前拿奖率75%）：科大讯飞自然场景视频文本跟踪匹配挑战赛

9月28日，杭州阿里见！

在校研究生总量首次超过本科生总量，张雪峰回应争议

o1发布后，信息量最大的圆桌对话：杨植麟、姜大昕、朱军探讨大模型技术路径

突发！高通拟全盘收购 intel

算法岗和开发岗有什么区别？

清华大学（深圳）Agentland 实验室，游戏开发工作坊[第1期]开始招募！

倒计时三天！大模型RAG智能问答挑战赛

9月21日，厦门见！

2024年国家杰青、优青入选情况汇总

张俊林：OpenAI o1的价值意义及强化学习的Scaling Law

交大ACM班团队出品，动手学数据结构！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉