今天介绍一个新项目,我对GPUStack的出现感到无比欣喜。这个创新平台彻底改变了企业级大模型服务的部署方式,为我们带来了前所未有的便利。
GPUStack堪称一站式服务平台,轻松应对GPU资源管理、推理引擎加速和API兼容等复杂任务。它支持分布式推理,让小型GPU也能驾驭大内存模型。从异构GPU到多种推理后端,从LLM到VLM再到Embedding模型,GPUStack几乎涵盖了所有主流场景和模型类型。
最令人惊叹的是其简便的安装过程和强大的自动调度功能。在最近的项目中,GPUStack不仅节省了大量配置时间,还将GPU使用效率提升了约30%。作为一个开源平台,它更提供了无限的定制和扩展可能。
如果你正在寻找一个低成本、高效能的大模型服务解决方案,GPUStack绝对值得一试。它必将让你的AI之路变得更加顺畅。
下面我们就具体介绍这个神器。
GPUStack
是面向企业私有大模型服务而设计的企业级开源软件,具备建设一个企业私有大模型即服务平台所需要的各项功能,包括 GPU 管理、推理引擎及推理加速、使用和计量、性能度量和记录、认证授权和访问控制、OpenAI 兼容的 API 以及 Dashboard 仪表板。只需要非常简单的安装设置,就可以开箱即用地构建企业的私有大模型即服务平台。
功能介绍
• 异构 GPU 支持:支持异构 GPU 资源,当前支持 Nvidia、Apple Metal 和摩尔线程的 GPU,华为昇腾 NPU、AMD GPU 等的支持也在进行中
• 丰富的自动/手动调度策略:支持紧凑调度、扩散调度、指定 Worker 标签调度、指定 GPU 调度等各种调度策略
GPUStack 可以快速整合各种异构 GPU 资源,企业不需要采用复杂的技术栈和投入大量的集成工作,就可以低成本建设企业私有大模型即服务平台,为 AI 开发者和 AI 应用提供私有大模型服务。
如果对 GPUStack 感兴趣的同学可以参考以下实操步骤,安装并体验 GPUstack。
Step-by-Step 体验 GPUStack
安装 GPUStack
在 Linux 或 macOS 上通过以下命令调用在线脚本安装,注意在安装过程中需要输入 sudo 密码:
curl -sfL https://get.gpustack.ai | sh -
在 Windows 上以管理员身份运行 Powershell,通过以下命令调用在线脚本安装:
Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content
当看到以下输出时,说明已经成功部署并启动了 GPUStack。
Shell [INFO] Install complete. Run "gpustack" from the command line.
接下来拿到登录 GPUStack 的初始密码,执行以下命令:
在 Linux 或 macOS 上:
cat /var/lib/gpustack/initial_admin_password
在 Windows 上:
Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\initial_admin_password") -Raw
在浏览器访问 http://YOUR_IP_ADDRESS,用户名 admin,密码为上面获得的初始密码。
重新设置密码后,进入 GPUStack:
纳管 GPU 资源
GPUStack 支持纳管 Linux、Windows 和 macOS 系统的 GPU 资源,通过以下步骤来纳管这些 GPU 资源。
其他节点需要通过认证 Token 加入 GPUStack 集群,在 GPUStack Server 节点执行以下命令获取 Token:
在 Linux 或 macOS 上:
cat /var/lib/gpustack/token
在 Windows 上:
Get-Content -Path (Join-Path -Path $env:APPDATA -ChildPath "gpustack\token") -Raw
拿到 Token 后,在其他节点上运行以下命令添加 Worker 到 GPUStack,纳管这些节点的 GPU(将其中的 http://YOUR_IP_ADDRESS 替换为你的 GPUStack 访问地址,将 YOUR_TOKEN 替换为用于添加 Worker 的认证 Token):
在 Linux 或 macOS 上:
curl -sfL https://get.gpustack.ai | sh - --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN
在 Windows 上:
Invoke-Expression "& { $((Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content) } --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN"
通过以上步骤,我们已经创建了一个 GPUStack 环境并纳管了多个 GPU 节点,接下来可以使用这些 GPU 资源来部署私有大模型。
部署私有大模型
访问 GPUStack,在 Models 菜单中部署模型。GPUStack 支持从 HuggingFace、Ollama Library、ModelScope 和私有模型仓库部署模型,国内网络建议从 ModelScope 部署。
GPUStack 支持 vLLM 和 llama.cpp 推理后端,vLLM 专门针对生产推理进行了优化,在并发和性能方面更能满足生产需求,但 vLLM 只支持 Linux 系统。llama.ccp 则是一个灵活、兼容多平台的推理引擎,支持 Linux、Windows 和 macOS 系统,不止支持各种 GPU 环境,也支持在 CPU 环境运行大模型,更适合需要多平台兼容性的场景。
支持部署 LLM 文本模型、VLM 多模态模型、Embedding 文本嵌入模型:
总结
以上是对 GPUStack 的上手体验介绍,项目的开源地址为:https://github.com/gpustack/gpustack。
GPUStack 作为一个低门槛、易上手、开箱即用的开源平台,能够帮助企业在短时间内快速搭建起一个私有大模型即服务平台,为企业提供私有大模型服务,是低成本建设私有大模型即服务平台的理想选择之一。
近期原创文章:
为什么LLM无法真正推理?OpenAI的o1也无法改变这一事实 原创 克制大模型怪脾气的新招——基于意图的提示校准降低LLM提示敏感度问题,让大模型表现更稳定 原创 Anthropic提出Contextual Retrieval让RAG再进化,大幅降低检索失败率 原创 测试时计算vs.预训练计算:LLM进化的重大转折 原创 AI"破解"AI:来自Claude协助的OpenAI o1模型架构图 OpenAI o1模型推理能力大幅提升的背后:重复采样如何提升AI推理能力 OpenAI前研究科学家开源面向未来的提示工程库 ell,重新定义提示工程 揭秘MemoRAG:AI记忆模块如何提升生成质量
后台回复“进群”入群交流