Kubernetes场景下基于Nvidia GPU Operator 实现图形渲染能力

科技 2024-07-26 11:05 四川

背景

现需要在Kubernetes平台上以容器的形态部署业务程序，借助NVIDIA 开源的GPU-operator组件来实现GPU显卡的调度和渲染能力。

方案简介

通过在Kubernetes集群部署gpu-operator全家桶程序，它提供了nvidia驱动的安装，实现了deviceplugin能力提供了gpu显卡的调度能力，还提供了gpu相关的指标。

实施步骤

在安装gpu-operator之前需要确保基础环境的一致:

GPU显卡型号: Nvidia T4
GPU节点操作系统: Ubuntu22.04
容器引擎: docker

安装nvidia gpu-operator

可参考nvidia官方文档资料: https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/latest/getting-started.html#

由于安装形式是operator，需要先配置helm客户端 helm的部署安装，可参考: https://support.huaweicloud.com/usermanual-cce/cce_10_0144.html
添加nvidia helm仓库

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia \ && helm repo update

指定驱动版本安装gpu-operator

helm install --wait --generate-name \ -n gpu-operator --create-namespace \ nvidia/gpu-operator \ --set driver.version=470.141.03

需要注意部分镜像可能会拉取失败导致安装失败，可以提前准备好拉取到节点上

观察gpu-operator运行状态

由于nvidia驱动的下载编译安装，需要等待片刻才能就绪，观察kubernetes集群中gpu-operator的运行状态

此时集群还没下发GPU节点，部分daemonset程序还未拉起。扩容GPU节点池，创建GPU节点

节点下发后，可以看到，每个节点都会运行daemonset程序，实现nvidia驱动的安装,gpu显卡资源的上报和调度等

等待片刻后，各组件均已正常运行。（如果daemonset程序中，部分组件长时间未就绪，可通过手动重启pod进行解决）

查看GPU节点状态

可以看到节点状态为GPU驱动未就绪，现在点击节点可以发现GPU显卡配额

也可查看gpu节点的yaml进行确认

创建工作负载申请gpu显卡资源，下发图形渲染任务

使用图形渲染软件Blender，工作负载yaml如下:

apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    version: v1
  name: blender
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: blender
      version: v1
  template:
    metadata:
      labels:
        app: blender
        version: v1
    spec:
      containers:
      - image: swr.cn-east-3.myhuaweicloud.com/hz-cloud/blender:4.1.1
        imagePullPolicy: IfNotPresent
        name: container-1
        resources:
          limits:
            nvidia.com/gpu: "1"
          requests:
            cpu: 250m
            memory: 512Mi

---
apiVersion: v1
kind: Service
metadata:
  labels:
    app: blender
    version: v1
  name: blender
  namespace: default
spec:
  ports:
  - name: cce-service-0
    port: 3000
    protocol: TCP
    targetPort: 3000
  selector:
    app: blender
    version: v1
  type: NodePort

等待Pod就绪：

登录pod进行确认gpu显卡是否已经挂载

查看容器中的环境变量,确认存在: NVIDIA_DRIVER_CAPABILITIES=all

访问业务前端配置渲染属性

配置渲染属性: 渲染引擎选择 Cycles,设备选择GPU计算

确认Blender程序已经探测到nvidia T4显卡

实施图形渲染

开始渲染，目前进度为:

观察容器的gpu使用情况

容器内可使用 watch -d nvidia-smi 动态查看gpu的使用情况: 可以发现显存和算力的使用都有在提升

关于GPU相关指标的查看

gpu-operator 会在集群中以daemonset的形式安装dcgm-exporter程序,该程序会通过9400端口暴露该GPU节点上的gpu相关指标

手动访问: curl podip:9400/metrics 查看指标:

后续集群如果集成了Prometehus监控系统可通过编写servicemonitor进行指标任务的采集，方便查看集群中GPU的使用情况。

来源(版权归原作者所有)：https://bbs.huaweicloud.com/blogs/428524

http://mp.weixin.qq.com/s?__biz=MzIyMDY2MTE3Mw==&mid=2247495370&idx=1&sn=83302f7cfcc8425ff4bb409bb386f7bf

运维开发故事

由一群志同道合的小伙伴共同维护，有运维也有开发，内容不限于Linux运维，devops工具链，k8s容器化技术，监控，日志收集，网络安全，Python或GO开发，团队成员有乔克、wanger、冬哥、素心、华仔、郑哥、夏老师

最新文章

夜莺 v7 最终版来了，可以上车了

年薪98w！运维人的新赛道，我决定入局！

服务器又被黑了，可咋办

将 VictoriaLogs 与 Grafana 集成，是时候抛弃 Loki 了！

告警平台V1.0版本

K8s 负载感知调度实践（koordinator & crane）

6 张图带你深入了解 kube-scheduler

使用 Koordinator 实现资源负载感知(重)调度

大模型驱动的智能化运维（文末抽奖）

Prometheus 3.0 全新的 Dashboard！

使用 Higress AI 插件对接通义千问大语言模型

太牛了！华为《Linux核心笔记》火了！运维必须整一份！

HR 再问运维是干啥的，你就把这个丢给她

“ 运维天命人” 通关必看的18个技术干货

急速Boost，让数据跑得更快 -- Ceph缓存技术全解析

K8s 集群巡检

开发了一个 Copilot 用来处理运维故障

无敌了！强烈建议运维人今年拿下软考！

接口拨测 Plus 版本

牛批！阿里内部《DevOps实践手册》，运维开发必须收藏（附高清PDF免费领取）

kvm安装windows虚拟机并安装virtio驱动

基于Gitlab CI+Argo CD的Gitops实践

Kubernetes场景下基于Nvidia GPU Operator 实现图形渲染能力

LLM On Kubernetes

Kubernets的NVIDIA设备插件安装方案实践

K8s 多集群思考、实践和探索

ceph配置缓存池

Jenkins Pipeline用户权限管理新技巧：打造安全高效的流水线！

【深度解析】K8s如何助力运维、开发、测试等岗位提升核心竞争力

基于Jenkins Pipeline构建企业级CI/CD

带你搞懂Kubernetes Pod 如何获取 IP 地址

你必须知道的Docker数据卷(Volume)

CoreDNS 概述及运维实践

Kubernetes 策略管理引擎 - Kyverno

中立分析腾讯云故障相关的事件

Etcd 概述及运维实践

Kubernetes中的事件收集以及监控告警

kube on kube 实现思路分享

JVM 性能调优之通过 JProfile 和 JFR 分析系统瓶颈提升系统性能

记一次 K8s 故障处理

你可能不知道的13个Kubernetes技巧

Istio多集群实践

Zadig 版本管理与自动化发布最佳实践解析

线程池#1：什么是线程池？

恭喜了！全体程序员彻底狂欢吧！这个好消息来得太及时！

开发一个接口监控的Prometheus Exporter

运维开发故事给大家拜年：祝大家新春快乐

维持请求的透明度：如何在 Istio 中保留客户端请求的源 IP

分享 Kubernetes 日常运维工作中常用的命令

2023兜兜转转，2024持续向前

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉