LLM On Kubernetes

文摘 2024-07-18 10:12 中国香港

从今年开始，人们对大型语言模型 (LLM) 及其在 GPU 基础设施上的部署的兴趣显着增加。这种不断增长的热情是由人工智能和机器学习的进步推动的，这需要 GPU 能够有效提供大量的计算能力。GPU 领先制造商 Nvidia 的股价也因这一趋势而飙升。同样诞生了大量的大模型，对于这些模型的部署和管理也变得越来越重要，在这方面 Ollama 和 OpenUI 是一个不错的选择。

Ollama 是一个开源的机器学习模型部署工具，它可以帮助您将模型部署到生产环境中，简化大型语言模型 (LLM) 的管理和交互。Ollama 拥有各种一流的开源模型，例如 Llama 3、Phi 3、Mistral 等等，我们可以将 Ollama 看成是 Docker，但是专注于机器学习模型。

使用 Ollama 部署模型非常简单，就类似于使用 Docker 部署应用程序一样。但是，如果你对 CLI 不熟悉，那么使用 Ollama 会有点痛苦。为了解决这个问题，我们可以使用一个 open-webui 的项目，它提供了一个漂亮的界面，可以让您更轻松地部署模型。

为了更好地管理 Ollama，我们可以将 Ollama 部署到 Kubernetes 集群中。这样，我们就可以更好地管理 Ollama，而不需要担心 Ollama 的高可用性、扩展性等问题。

当然首先需要一个 Kubernetes 集群，最好带有 GPU，但即使没有 GPU，llama3 模型在仅使用 CPU 的情况下也能表现得相对较好。

$ kubectl version
Client Version: v1.28.11
Kustomize Version: v5.0.4-0.20230601165947-6ce0bf390ce3
Server Version: v1.28.7

部署 Ollama 到 Kubernetes

要部署 Ollama 和 Open-WebUI 到 Kubernetes 很简单，因为 Open-WebUI 项目提供了一个 Helm Chart，可以让我们更轻松地部署 Ollama 和 Open-WebUI。这个 charts 包被托管在 https://helm.openwebui.com，我们可以使用 Helm 添加这个 repo：

helm repo add open-webui https://helm.openwebui.com/
helm repo update

open-webui 这个 charts 包默认情况下会部署 Ollama，我们可以根据自己的需求进行配置，例如我们可以配置 Ollama 是否使用 GPU，是否开启数据持久化等等，我们可以覆盖默认的配置来进行配置，如下：

# myvalues.yaml
ollama:
  enabled: true # 自动安装 Ollama Helm Chart
  ollama: # 配置 Ollama
    gpu:
      enabled: false # 是否使用 GPU
    #   type: 'nvidia'
    #   number: 1
    # models:  # 容器启动的时候加载的模型
    #  - llama3
    #  - mistral
  persistentVolume: # 配置持久化存储
    enabled: true
    storageClass: nfs-client # 指定 storageClass
    # existingClaim: ""  # 也可以使用已经存在的 PVC

# ========== Pipelines 配置 ==========

pipelines: # OpenAI API 插件框架
  enabled: true

  persistence:
    enabled: true
    storageClass: "nfs-client"

  service:
    type: NodePort

# ========== open-webui 配置 ==========
# ingress: # 配置 Ingress
#   enabled: false
#   host: "open-webui.example.com"

# 配置持久化存储
persistence:
  enabled: true
  #   existingClaim: ""  # 也可以使用已经存在的 PVC
  storageClass: "nfs-client" # 指定 storageClass

service:
  type: NodePort # 设置 Service 类型

# 指定 OpenAI API URL，如果不指定，默认使用 Pipelines 服务的端点  https://api.openai.com/v1
# openaiBaseApiUrl: ""

# 配置额外的环境变量
extraEnvVars:
  - name: HF_ENDPOINT
    value: https://hf-mirror.com
# - name: OPENAI_API_KEY # 指定 OpenAI API Key
#   value: "0p3n-w3bu!"

在上面的配置中，我们可以配置 Ollama 是否使用 GPU，是否开启数据持久化等等，对于 open-webui 部分，我们配置的是一个 NodePort 类型的 Service，这样我们就可以通过 Node 的 IP 和 NodePort 来访问 Open-WebUI 项目，当然你也可以配置 Ingress 来访问。

注意：Open-WebUI 项目默认会去访问 huggingface 的模型仓库，因为某些原因，默认情况下国内是无法访问的，所以我们需要配置 HF_ENDPOINT 环境变量来指定一个镜像地址 https://hf-mirror.com，否则会出错。

然后我们可以使用 Helm 安装这个 charts 包：

helm upgrade --install ollama open-webui/open-webui -f myvalues.yaml --create-namespace --namespace kube-ai

部署完成后，会在 kube-ai 这个命名空间下运行几个 Pod，我们可以查看 Pod 的状态：

$ kubectl get pods -n kube-ai
NAME                                    READY   STATUS    RESTARTS        AGE
open-webui-0                            1/1     Running   0               2m11s
open-webui-ollama-944dd68fc-wxsjf       1/1     Running   0               24h
open-webui-pipelines-557f6f95cd-dfgh8   1/1     Running   0               25h

因为上面我们配置的是 NodePort 类型的 Service，所以我们可以通过 Node 的 IP 和 NodePort 来访问 Open-WebUI 项目：

$ kubectl get svc -n kube-ai
NAME                   TYPE        CLUSTER-IP    EXTERNAL-IP   PORT(S)          AGE
open-webui             NodePort    10.96.1.212   <none>        80:31009/TCP     25h
open-webui-ollama      ClusterIP   10.96.2.112   <none>        11434/TCP        25h
open-webui-pipelines   NodePort    10.96.2.170   <none>        9099:32322/TCP   25h

使用

现在我们就可以通过 http://NodeIP:31009 来访问 Open-WebUI 项目了。

第一次使用的时候需要注册一个账号，然后我们就可以登录到 Open-WebUI 项目主页了。

如果你有 ollama 在其他地方运行，我们可以将其添加为另一个连接。

首先需要配置连接 ollama 的地址，然后我们就可以连接到 ollama 了，连接成功后，我们就可以看到 ollama 的模型列表了。

点击左下角的用户头像，然后选择 管理员面板，在管理员面板页面选择 设置 标签页，然后切换到 外部连接 配置项，我们可以设置 Ollama API 地址，我们这里使用的是 Helm 部署的 Ollama，默认已经为我们配置好了 Ollama API 地址。

接下来切换到 模型 标签页，我们就可以从 Ollama 的模型仓库中拉取模型了，可以下载的模型可以从 https://ollama.com/library 查看。比如我们这里选择 llama3 模型，输入 llama3 然后点击右侧的拉取下载按钮，就会开始下载这个模型了，在页面中也可以看到下载的进度。

模型拉取完成后，切回到首页，我们就可以选择切换到 llama3 模型了。

接下来我们就可以使用 llama3 模型为我们服务了。

总结

在本文中，我们探讨了使用 Open WebUI 在 Kubernetes 集群上部署 llama3 的过程。通过容器化和编排技术，我们成功地将 AI powered 的聊天机器人部署到了可扩展和维护的环境中。Open WebUI 的简洁界面和 Kubernetes 的强大自动化能力，让我们简化了部署过程，减少了手动干预。随着世界对 AI 驱动解决方案的不断依赖，这种技术组合将扮演关键角色，快速地带领创新应用程序 llama3 告诉市场。AI Powered 的聊天机器人的未来看起来非常光明，Open WebUI 和 Kubernetes 将继续领先，期待着下一个令人兴奋的发展！（这一段就来自 llama3 模型生成）

文章转载自k8s技术圈。点击这里阅读原文了解更多。

联系Linux Foundation APAC

Linux基金会是非营利性组织，是技术生态系统的重要组成部分。

Linux基金会通过提供财务和智力资源、基础设施、服务、活动以及培训来支持创建永续开源生态系统。在共享技术的创建中，Linux基金会及其项目通过共同努力形成了非凡成功的投资。请关注LFAPAC（Linux Foundation APAC）微信公众号。

http://mp.weixin.qq.com/s?__biz=MzUwOTg5NTA0Ng==&mid=2247517778&idx=2&sn=27544df42d33f6ddb036eb4684242600

LFAPAC

Linux基金会通过提供财务和智力资源、基础设施、服务、活动以及培训来支持创建永续开源生态系统。在共享技术的创建中，Linux基金会及其项目通过共同努力形成了非凡成功的投资。

最新文章

开源的未来：研讨会亮点和行动号召，激发全球可持续发展的进步

Fluent Bit: 转换 GBK 日志

从 CrowdStrike 的错误更新中吸取的教训：健壮的发布流程至关重要

使用 Shipwright 构建安全的容器镜像

容器干扰检测与治理（上篇）

CNCF 2024 云原生可持续发展周

LF AI & Data中国6月回顾：展示创新和扩大合作

使用Kubescape和Copa修复镜像漏洞

LFAPAC Weekly 24-29

在联合国的开源力量：关于OSPOs For Good研讨会和“下一步？”工作坊的反思

云原生技术深耕者：朱佳庆的Kubestronaut成长故事

将Atlantis与OpenTofu集成

LLM On Kubernetes

Operating v0.5.0 发布啦！

使用Radius和Dapr构建云无关应用程序

KubeEdge 遇上 Cilium！！！

CNCF一个全新的应用开发工作组现已启动！

基于etcd/RawNode的Multi-Raft设计与实现

针对内部开发者平台的全面提案——平台工程++

不要忽视闲置功率: Kepler的公有云能耗利用率指标

保障云安全：CloudNativeSecurityCon 2024洞见分享

机密计算的挑战和回报

LFAPAC Weekly 24-28

2024年中回顾CNCF、Linux基金会以及排名前30的开源项目的发展速度

KCL 测试框架设计

Score 加入成为 CNCF 沙箱项目

异步运行时IO问题分析

openGemini 晋级CNCF官方项目，技术发展迎来新篇章！

Kubestronaut 是如何炼成的 - Khushboo Khatter 的云原生之路

将 oVirt 虚拟机迁移到 KubeVirt

领先市场参与者携手Linux基金会成立Global Synchronizer基金会

在个人电脑一键运行谷歌最新 Gemma-2-9B 大模型

KCL v0.9.0 重磅发布 - 小体积，高性能，更丰富的生态集成

Linux基金会：布局 AI 原生未来，打造工作能力优势

Databricks加入LF AI & Data基金会，成为高级会员

随着LF Edge通过4个新项目扩大技术范围，开放边缘计算达到临界质量

Linux基金会最新SkillCred证书 Regex 上线！

LFAPAC Weekly 24-26

2024 OSPO Survey

Linux基金会新报告揭示开源如何驱动垂直行业技术变革

赞助 2024 中国 KubeCon + CloudNativeCon + 开源峰会 + AI_dev

Koordinator v1.5: 持续优化，进入 CNCF Sandbox

KubeCon 中国：移动云与云猿生联合议题《在没有专用 Operator 的情况下管理数据库集群》

Delta Lake加入LF AI & Data基金会：推进开源人工智能和数据的创新

详解微服务应用灰度发布最佳实践

Argo Rollouts 现已支持 K8s Gateway API 1.0 版本

快来查收 KCL 最新动态 | 获取最新的模型库、工具链与 IDE 更新

推动AI革命：PyTorch纪录片

Linux基金会宣布将成立LF Decentralized Trust

冰火交融：蚂蚁集团通过平台工程加速互联网和金融服务创新

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉