如何管理各种GPU构建企业私有LLM服务——GPUStack

文摘   2024-10-11 08:03   北京  

今天介绍一个新项目,我对GPUStack的出现感到无比欣喜。这个创新平台彻底改变了企业级大模型服务的部署方式,为我们带来了前所未有的便利。

GPUStack堪称一站式服务平台,轻松应对GPU资源管理、推理引擎加速和API兼容等复杂任务。它支持分布式推理,让小型GPU也能驾驭大内存模型。从异构GPU到多种推理后端,从LLM到VLM再到Embedding模型,GPUStack几乎涵盖了所有主流场景和模型类型。

最令人惊叹的是其简便的安装过程和强大的自动调度功能。在最近的项目中,GPUStack不仅节省了大量配置时间,还将GPU使用效率提升了约30%。作为一个开源平台,它更提供了无限的定制和扩展可能。

如果你正在寻找一个低成本、高效能的大模型服务解决方案,GPUStack绝对值得一试。它必将让你的AI之路变得更加顺畅。

下面我们就具体介绍这个神器。

GPUStack 是面向企业私有大模型服务而设计的企业级开源软件,具备建设一个企业私有大模型即服务平台所需要的各项功能,包括 GPU 管理、推理引擎及推理加速、使用和计量、性能度量和记录、认证授权和访问控制、OpenAI 兼容的 API 以及 Dashboard 仪表板。只需要非常简单的安装设置,就可以开箱即用地构建企业的私有大模型即服务平台。

功能介绍

• 异构 GPU 支持:支持异构 GPU 资源,当前支持 Nvidia、Apple Metal 和摩尔线程的 GPU,华为昇腾 NPU、AMD GPU 等的支持也在进行中

• 多推理后端支持:支持 vLLM 和 llama.cpp 推理后端,兼顾生产性能需求与多平台兼容性需求

• 多平台支持:支持 Linux、Windows 和 macOS 平台,完整覆盖 amd64 和 arm64 架构
• 多模型类型支持:支持 LLM 文本模型、VLM 多模态模型、Embedding 文本嵌入模型,Reranker 重排序模型、语音模型、图像模型等的支持也在进行中
• 多模型仓库支持:支持从 HuggingFace、Ollama Library、ModelScope 和私有模型仓库部署模型

• 丰富的自动/手动调度策略:支持紧凑调度、扩散调度、指定 Worker 标签调度、指定 GPU 调度等各种调度策略

• 分布式推理:如果单个 GPU 无法运行较大的模型,可以通过 GPUStack 的分布式推理功能,自动将模型运行在跨主机的多个 GPU 上
• CPU 推理:如果没有 GPU 或 GPU 资源不足,GPUStack 可以用 CPU 资源来运行大模型,支持 GPU&CPU 混合推理和纯 CPU 推理两种 CPU 推理模式
• 多模型对比:GPUStack 在 Playgroud 中提供了多模型对比视图,可以同时对比多个模型的问答内容和性能数据,以评估不同模型、不同权重、不同 Prompt 参数、不同量化、不同 GPU、不同推理后端的模型 Serving 效果
• GPU 和 LLM 观测指标:提供全面的性能、利用率、状态监控和使用数据指标,可以用来评估 GPU 和 LLM 的利用情况

GPUStack 可以快速整合各种异构 GPU 资源,企业不需要采用复杂的技术栈和投入大量的集成工作,就可以低成本建设企业私有大模型即服务平台,为 AI 开发者和 AI 应用提供私有大模型服务。

如果对 GPUStack 感兴趣的同学可以参考以下实操步骤,安装并体验 GPUstack。

Step-by-Step 体验 GPUStack

安装 GPUStack

在 Linux 或 macOS 上通过以下命令调用在线脚本安装,注意在安装过程中需要输入 sudo 密码:

 curl -sfL https://get.gpustack.ai | sh -

在 Windows 上以管理员身份运行 Powershell,通过以下命令调用在线脚本安装:

Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

当看到以下输出时,说明已经成功部署并启动了 GPUStack。

Shell [INFO]  Install complete. Run "gpustack" from the command line.

接下来拿到登录 GPUStack 的初始密码,执行以下命令:

在 Linux 或 macOS 上:

cat /var/lib/gpustack/initial_admin_password

在 Windows 上:

Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\initial_admin_password") -Raw

在浏览器访问 http://YOUR_IP_ADDRESS,用户名 admin,密码为上面获得的初始密码。

重新设置密码后,进入 GPUStack:

纳管 GPU 资源

GPUStack 支持纳管 Linux、Windows 和 macOS 系统的 GPU 资源,通过以下步骤来纳管这些 GPU 资源。

其他节点需要通过认证 Token 加入 GPUStack 集群,在 GPUStack Server 节点执行以下命令获取 Token:

在 Linux 或 macOS 上:

cat /var/lib/gpustack/token

在 Windows 上:

Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\token") -Raw

拿到  Token 后,在其他节点上运行以下命令添加 Worker 到 GPUStack,纳管这些节点的 GPU(将其中的 http://YOUR_IP_ADDRESS 替换为你的 GPUStack 访问地址,将 YOUR_TOKEN 替换为用于添加 Worker 的认证 Token):

在 Linux 或 macOS 上:

curl -sfL https://get.gpustack.ai | sh - --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN

在 Windows 上:

Invoke-Expression "& { $((Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content) } --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN"

通过以上步骤,我们已经创建了一个 GPUStack 环境并纳管了多个 GPU 节点,接下来可以使用这些 GPU 资源来部署私有大模型。

部署私有大模型

访问 GPUStack,在 Models 菜单中部署模型。GPUStack 支持从 HuggingFace、Ollama Library、ModelScope 和私有模型仓库部署模型,国内网络建议从 ModelScope 部署。

GPUStack 支持 vLLM 和 llama.cpp 推理后端,vLLM 专门针对生产推理进行了优化,在并发和性能方面更能满足生产需求,但 vLLM 只支持 Linux 系统。llama.ccp 则是一个灵活、兼容多平台的推理引擎,支持 Linux、Windows 和 macOS 系统,不止支持各种 GPU 环境,也支持在 CPU 环境运行大模型,更适合需要多平台兼容性的场景。

GPUStack 会在部署模型时自动根据模型文件的类型选择适当的推理后端,如果模型为 GGUF 格式,GPUStack 会使用 llama.cpp 作为后端运行模型,如果为非 GGUF 格式, GPUStack 会使用 vLLM 作为后端运行模型。

支持部署 LLM 文本模型、VLM 多模态模型、Embedding 文本嵌入模型:

通过 API 与 RAG 或其他 AI 应用集成,RAG 或其他 AI 应用通过 API 调用 GPUStack 部署的私有 LLM 模型、VLM 多模态模型 和 Embedding 文本嵌入模型:

总结

以上是对 GPUStack 的上手体验介绍,项目的开源地址为:https://github.com/gpustack/gpustack。

GPUStack 作为一个低门槛、易上手、开箱即用的开源平台,能够帮助企业在短时间内快速搭建起一个私有大模型即服务平台,为企业提供私有大模型服务,是低成本建设私有大模型即服务平台的理想选择之一。

近期原创文章:


后台回复“进群”入群交流

AI工程化
专注于AI领域(大模型、MLOPS/LLMOPS 、AI应用开发、AI infra)前沿产品技术信息和实践经验分享。
 最新文章