Kubernetes场景下基于Nvidia GPU Operator 实现图形渲染能力

科技 2024-07-22 13:58 上海

背景

现需要在Kubernetes平台上以容器的形态部署业务程序，借助NVIDIA 开源的GPU-operator组件来实现GPU显卡的调度和渲染能力。

方案简介

通过在Kubernetes集群部署gpu-operator全家桶程序，它提供了nvidia驱动的安装，实现了deviceplugin能力提供了gpu显卡的调度能力，还提供了gpu相关的指标。

实施步骤

在安装gpu-operator之前需要确保基础环境的一致:

GPU显卡型号: Nvidia T4
GPU节点操作系统: Ubuntu22.04
容器引擎: docker

安装nvidia gpu-operator

可参考nvidia官方文档资料: https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/latest/getting-started.html#

由于安装形式是operator，需要先配置helm客户端 helm的部署安装，可参考: https://support.huaweicloud.com/usermanual-cce/cce_10_0144.html
添加nvidia helm仓库

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia \ && helm repo update

指定驱动版本安装gpu-operator

helm install --wait --generate-name \ -n gpu-operator --create-namespace \ nvidia/gpu-operator \ --set driver.version=470.141.03

需要注意部分镜像可能会拉取失败导致安装失败，可以提前准备好拉取到节点上

观察gpu-operator运行状态

由于nvidia驱动的下载编译安装，需要等待片刻才能就绪，观察kubernetes集群中gpu-operator的运行状态

此时集群还没下发GPU节点，部分daemonset程序还未拉起。扩容GPU节点池，创建GPU节点

节点下发后，可以看到，每个节点都会运行daemonset程序，实现nvidia驱动的安装,gpu显卡资源的上报和调度等

等待片刻后，各组件均已正常运行。（如果daemonset程序中，部分组件长时间未就绪，可通过手动重启pod进行解决）

查看GPU节点状态

可以看到节点状态为GPU驱动未就绪，现在点击节点可以发现GPU显卡配额

也可查看gpu节点的yaml进行确认

创建工作负载申请gpu显卡资源，下发图形渲染任务

使用图形渲染软件Blender，工作负载yaml如下:

apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    version: v1
  name: blender
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: blender
      version: v1
  template:
    metadata:
      labels:
        app: blender
        version: v1
    spec:
      containers:
      - image: swr.cn-east-3.myhuaweicloud.com/hz-cloud/blender:4.1.1
        imagePullPolicy: IfNotPresent
        name: container-1
        resources:
          limits:
            nvidia.com/gpu: "1"
          requests:
            cpu: 250m
            memory: 512Mi

---
apiVersion: v1
kind: Service
metadata:
  labels:
    app: blender
    version: v1
  name: blender
  namespace: default
spec:
  ports:
  - name: cce-service-0
    port: 3000
    protocol: TCP
    targetPort: 3000
  selector:
    app: blender
    version: v1
  type: NodePort

等待Pod就绪：

登录pod进行确认gpu显卡是否已经挂载

查看容器中的环境变量,确认存在: NVIDIA_DRIVER_CAPABILITIES=all

访问业务前端配置渲染属性

配置渲染属性: 渲染引擎选择 Cycles,设备选择GPU计算

确认Blender程序已经探测到nvidia T4显卡

实施图形渲染

开始渲染，目前进度为:

观察容器的gpu使用情况

容器内可使用 watch -d nvidia-smi 动态查看gpu的使用情况: 可以发现显存和算力的使用都有在提升

关于GPU相关指标的查看

gpu-operator 会在集群中以daemonset的形式安装dcgm-exporter程序,该程序会通过9400端口暴露该GPU节点上的gpu相关指标

手动访问: curl podip:9400/metrics 查看指标:

后续集群如果集成了Prometehus监控系统可通过编写servicemonitor进行指标任务的采集，方便查看集群中GPU的使用情况。

来源(版权归原作者所有)：https://bbs.huaweicloud.com/blogs/428524

添加👇下面微信，拉你进群与大佬一起探讨云原生！

云原生运维圈

专注于Docker、Kubernetes、Prometheus、Istio、Terraform、OpenTelemetry等云原生技术分享！

最新文章

Nacos 3.0 Alpha 发布，在安全、泛用、云原生更进一步

所有运维人，明年的新方向，赢麻了！！！

一篇带你彻底了解Kubernetes，运维绝对是要收藏的！

如何找出Java进程占用CPU高的元凶

分布式锁的实现原理

一行代码都不改，Golang 应用链路指标日志全知道！

如何在Prometheus告警恢复时获取实时值

对称加密 vs 非对称加密：一分钟看懂核心区别！

记一次K8S VXLAN Overlay网络8472端口冲突问题的排查

【提效】docker镜像构建优化-提速10倍

妙哇！运维大佬内部K8S笔记曝光，运维必须收藏！（附高清PDF）

深入解析Alertmanager Gossip协议：分布式报警管理的核心

浅谈TiKV集群运维问题排查与修复——磁盘空间占用问题

实现告警可视化：Prometheus告警附带图表最佳实践

深入解析 AlertManager 告警指纹

K8s 超详细总结！这篇真绝了，建议运维都收藏！

Star 3w+，向更安全、更泛化、更云原生的 Nacos3.0 演进

漫谈两轮调度ES优化之路

vivo 全链路多版本开发测试环境落地实践

Redis集群slot迁移改造实践

牛！华为分享的《Kubernetes学习笔记》太强了，附高清免费下载！

借助 ChatGPT 解决运维问题：Nginx Location块匹配删除

十六年所思所感，聊聊这些年我所经历的 DevOps 系统

想要成为Redis高手？看看Redis自己会怎么向你传授心法！（文末赠书）

【边缘计算】KubeEdge 向左，K3S 向右

MySQL亿级数据平滑迁移实战

如何深入理解 Prometheus 监控系统的底层原理？（文末送书）

如何阅读Kubernetes源码？遵循这几点建议真的可以少走弯路！（文末赠书）

碉堡了！运维大佬内部K8s笔记曝光，这也太强了吧！（附PDF下载）

近1300页的Kubernetes神书，终于可以集齐上下两册了！（文末赠书）

基于Golang + Ansible构建Nginx管理系统

基于Golang + xtermjs构建Kubernetes多集群管理Web Terminal

基于Golang + Ansible构建作业系统

碉堡了！云原生大佬撰写的K8s学习指南，有点炸裂，建议运维都收藏！

Kubernetes场景下基于Nvidia GPU Operator 实现图形渲染能力

ZooKeeper 避坑指南： ZooKeeper 3.6.4 版本 BUG 导致的数据不一致问题

深入剖析 Kubernetes 原生 Sidecar 容器

免费赠书-大模型时代，还不懂云原生会怎么样？

数据特征采样在 MySQL 同步一致性校验中的实践

浅谈 K8s Pod IP 分配机制

使用 Node Exporter 自定义监控指标

Prometheus告警规则存储数据库思路分享

看完这篇，轻松get限流！原创

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉