开发者必看：轻松加速PC和小型设备上的大语言模型

2024-09-04 00:27 上海

在如今的科技浪潮中，生成式 AI（GenAI）和大语言模型（LLMs）逐渐成为推动技术变革的关键力量。无论是用于自动化内容生成，还是提升人机交互体验，LLMs 都展现出强大的潜力。作为开发者，可能有人已经意识到，在边缘计算设备上高效部署这些复杂模型的需求越来越迫切。（文末参观英特尔科技体验中心）

为了满足这一需求，英特尔推出了 OpenVINO™ 工具套件，并支持与 vLLM 结合，优化大语言模型的推理性能。以下内容将深入浅出得探讨如何利用 OpenVINO™ 与 vLLM，在英特尔® 酷睿™ Ultra 处理器上实现大语言模型的高效部署。

一、OpenVINO™ 工具套件简介

OpenVINO™（Open Visual Inference and Neural Network Optimization）是一款由英特尔开发的开源工具套件，旨在通过优化深度学习模型的推理性能，帮助开发者在各种硬件平台上高效部署 AI 应用。OpenVINO™ 支持多种框架的模型优化，包括 TensorFlow、PyTorch 等，使其能够在 CPU、GPU 和专用 AI 加速器上获得更高的推理效率。

在最新的 2024.3 版本中，OpenVINO™ 进一步增强了对生成式 AI 的支持，特别是针对大语言模型的优化。这些改进使得开发者可以更轻松地将 AI 应用部署在从边缘设备到云端的各种环境中。

Hugging Face：https://huggingface.co/OpenVINO

二、vLLM：高性能大语言模型推理框架

vLLM 是由加州大学伯克利分校开发的开源框架，专为大语言模型的高效推理和部署而设计。与传统的 LLM 库（如 Hugging Face Transformers）相比，vLLM 在推理吞吐量上有着显著提升，最高可达 24 倍。其设计目标是简化大语言模型的部署过程，同时降低部署成本。

1. vLLM 的主要优点

- 高性能：vLLM 通过优化内存管理和计算资源利用，大幅提升了推理性能，尤其是在处理大规模并发请求时效果显著。

- 易于使用：无需修改模型架构，即可在现有的 LLM 上实现高效的推理。

- 低成本：通过提高硬件资源的利用率，vLLM 使得大语言模型的部署更为经济实惠。

随着 vLLM 对 OpenVINO™ 后端的支持，开发者现在可以利用英特尔硬件平台的优势，进一步提升大语言模型的推理效率。

三、在英特尔® 酷睿™ Ultra 处理器上部署大语言模型

英特尔® 酷睿™ Ultra 处理器作为英特尔最新的处理器系列，集成了 CPU、GPU 和 NPU（神经处理单元）三大 AI 引擎，专为终端设备上的 AI 推理计算而设计。这使得它成为部署大语言模型的理想选择，特别是在边缘设备或不联网的环境中。

1. 环境搭建

在开始部署大语言模型之前，我们首先需要搭建一个 OpenVINO™ + vLLM 的开发环境。当前，vLLM 仅支持 Linux 操作系统，因此建议安装 Ubuntu 22.04 LTS 作为开发环境。如果您的开发设备运行的是 Windows 系统，可以通过 Windows Subsystem for Linux (WSL2) 安装 Ubuntu 22.04 LTS。

1.1 安装 Ubuntu 22.04 LTS

首先，安装并升级必要的系统工具：

sudo apt-get update -ysudo apt-get install python3sudo apt-get install python3.10-venvpython3 -m venv vllm_ovsource vllm_ov/bin/activate

1.2 克隆 vLLM 代码仓并安装依赖项

在虚拟环境中，克隆 vLLM 的代码仓库并安装所需的依赖项：

git clone https://github.com/vllm-project/vllm.gitcd vllmpip install -r requirements-build.txt --extra-index-url https://download.pytorch.org/whl/cpu

最后，安装支持 OpenVINO™ 后端的 vLLM：

PIP_EXTRA_INDEX_URL="https://download.pytorch.org/whl/cpu https://storage.openvinotoolkit.org/simple/wheels/pre-release" VLLM_TARGET_DEVICE=openvino python -m pip install -v .

至此，OpenVINO™ + vLLM 的开发环境已经搭建完毕，你就可以开始在酷睿™ Ultra 处理器上进行大语言模型的部署了。

2. 使用 vLLM 实现大模型推理

vLLM 在结合 OpenVINO™ 后端时，能够通过一系列环境变量来控制其行为，以优化模型的推理性能。例如：

- VLLM_OPENVINO_KVCACHE_SPACE：指定键值缓存的大小，可以根据硬件配置和内存管理需求调整。

- VLLM_OPENVINO_CPU_KV_CACHE_PRECISION：控制 KV 缓存的精度，默认为 FP16 或 BF16，可以选择更高效的 u8 精度。

- VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS：启用模型加载阶段的 U8 权重压缩，进一步提升推理性能。

在设置完这些环境变量后，可以使用 vLLM 提供的范例程序进行大语言模型的推理计算。以下是一个简单的范例程序调用：

export VLLM_OPENVINO_KVCACHE_SPACE=40export VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8export VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ONpython3 vllm/examples/offline_inference.py

该程序会下载并运行一个预先优化的模型，展示了在酷睿™ Ultra 处理器上进行高效推理的过程。如果希望使用 ModelScope 中的模型，可以通过简单的代码修改来实现模型的替换和本地化部署。

3. 性能优化与最佳实践

为了进一步优化推理性能，vLLM 提供了分块预填充功能，可以显著减少推理延迟。通过调整批处理大小（例如设置为 256），用户可以在处理大量并发请求时获得更好的性能表现。

在实际部署中，OpenVINO™ 的优化能力与 vLLM 的高效推理相结合，使得大语言模型可以在酷睿™ Ultra 处理器上稳定运行，并支持更广泛的应用场景。

OpenVINO™ 与 vLLM 的结合，为开发者在本地和边缘设备上部署大语言模型提供了一种高效、经济的解决方案。借助英特尔® 酷睿™ Ultra 处理器的强大 AI 引擎，开发者可以充分利用其 CPU、GPU 和 NPU 的计算能力，实现大语言模型的快速推理。

在未来，随着更多模型的支持和优化算法的引入，OpenVINO™ + vLLM 的应用场景将更加广泛，为 AI 技术的落地应用带来更多可能性。无论是在物联网设备中实现实时智能，还是在本地设备上部署复杂的语言模型，这一组合都将为开发者提供强大的技术支持。

说到这，如果有小伙伴对使用 OpenVINO™ 和 vLLM 进行大语言模型部署感兴趣，特别是想了解如何在 PC 及小型设备上优化和部署这些模型，那么你绝不能错过即将举行的 OpenVINO™ 加速 PC 及小型设备 LLM 性能主题活动！

活动将在 9 月 13 日（周五）下午 13:30-17:00 于北京东城举办，线上线下同步直播。届时，DEVCON 中国系列工作坊以“OpenVINO™ 加速 PC 及小型设备 LLM 性能”为中心，邀请7位讲师与大家分享基于 OpenVINO™ 和 AI PC 的最新技术与实战经验，还有动手练习环节帮助你优化自己的 AI 项目。

北京的小伙伴可以去线下玩👇（评论区选3个小伙伴北京活动当天送出精美礼品）

彩虹之眼

彩虹之眼(Rainbow Eye)-神秘而强大的 AI 情报组织。

最新文章

亚马逊云科技盛会倒计时！先人一步感受AI创新浪潮！

从SaaS到AI Agent：垂直AI Agents的未来比你想象得更大！

Flux官方模型更新，实测效果惊艳，图像领域创作更进一步！

「DevFest 2024 南京」AI 大模型及应用前沿分享，探索机器学习未来！

11月9日，华师大×GDG DevFest 2024 特别分享会开启

中杯对决大杯！SD3.5新模型测评：轻量模型如何做到「审美与质感双飞跃」？

别急着投奔Flux！SD3.5最新实测告诉你：StabilityAI还没死！

当AI掌控画笔：创意的巅峰还是人类的末路？

从“刷题家”到“学伴”：AI如何彻底改变未来教育？

开发者必看：轻松加速PC和小型设备上的大语言模型

8月 | 期待已久的聚会——AI 梦工厂

27岁连续创业者：用AI打造下一代故事创作平台，颠覆传统内容创作的未来！

Flux : 尊贵的碳基生物们，欢迎来到黑森林实验室!

深度干货 | 这可能是国内第一篇Flux系列模型单卡4090微调lora分享！

时隔一年 | 重温吴恩达教授当时在斯坦福大学精彩演讲信息量还是很大！

基模们都慢下来了，那就静等花开！

深度干货 | 首发最强文生图开源模型FLUX.1本地ComfyUI部署教程重磅来袭

AI×IoT | 对话边无际CEO & 为设备赋予有思考能力的"数字大脑"

一年亏掉50亿美金 OpenAI 拿什么盈利？

AI 搜索？4o语音？我们只要GPT-5！

腾讯出列！混元DIT 模型lora训练器与使用教程发布，且配有comfyui节点插件。

AI 顶级公司也开始苦练内功了！

出海 | 天选之子和TikTok的前世今生！

这一波没那么多时间磨磨蹭蹭！

下半年端侧模型真的火！就连 Open AI 也上了一款 mini 小钢炮！且 Sam 还透露出一个关键信息！

从0~1独立开发 AI 产品的心酸历程：营收6位数的经验&反思（二）

从0~1独立开发 AI 产品的心酸历程：营收6位数的经验&反思

好久不见，三星怼着苹果开大招！还是端侧？

英伟达 CEO 黄仁勋：我们正在经历计算通货膨胀

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉