HAMi 发布 v2.4.0 版本：异构计算虚拟化迈向新高度

科技 2024-10-14 12:00 上海

九月下旬 HAMI 2.4.0 版本正式发布，新版本在异构、监控、设备管理等方面带来了更多的新能力，同时持续在易用性上做了提升。

背景

HAMi，全称 Heterogeneous AI Computing Virtualization Middleware，是由第四范式和 DaoCloud 联合发起的高效异构 AI 设备管理工具。目前，它已成为 CNCF（云原生计算基金会）的 sandbox 项目，展示了其在云原生生态中的发展潜力。

HAMi 支持多种异构设备的管理和调度，包括昇腾、寒武纪、天数、海光等，旨在为用户提供统一的管理、调度和监控解决方案，提升 AI 芯片的使用效率。通过设备的共享与资源隔离，以及先进的设备虚拟化功能，HAMi 能够有效地优化资源利用。结合优先级调度、Spread 和 Binpack 等高级调度策略，HAMi 进一步提升了 AI 算力资源的利用率，成为异构 AI 芯片场景下的重要工具。

为了更好地了解大家的使用场景、实际操作中的问题与不足，以及对未来功能的期待和社区发展的建议，HAMi maintainer 团队特别发起了一次问卷调查，诚挚邀请大家积极参与，分享宝贵反馈，助力 HAMi 的持续进步与成长。

参与问卷调查：

新特性总览

正式支持华为 Ascend 910b：华为的 Ascend 910b NPU 设备已被完全支持，拓宽了 HAMi 在异构设备管理上的广度，使其在 NPU 虚拟化场景中更加灵活和高效。
Ascend NPU 自定义配置支持：用户现在可以根据需要自定义 Ascend NPU 的虚拟化配置文件，提升了灵活性。
按 UUID 或索引过滤设备：在节点注册时，可以根据 UUID 或索引进行设备过滤，提高了资源调度的精细化管理。
新增调度事件信息：新增了更详细的调度事件信息，方便用户在发生调度异常时快速定位问题并排除故障。
新增 HAMi UI 界面：可视化呈现设备状态与使用情况，实时监控一目了然，让调度与管理更加直观高效。

新特性简介

正式支持华为 Ascend 910b

新版本将正式支持华为 Ascend 910b 以及 Ascend310P 设备，提供了动态 NPU 虚拟化能力，可通过用户的需求，动态的切分 VNPU 设备并且进行挂载，使用方式大致如下：

Ascend910B

apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
    - name: ubuntu-container
      image: ascendhub.huawei.com/public-ascendhub/ascend-mindspore:23.0.RC3-centos7
      command: ["bash", "-c", "sleep 86400"]
      resources:
        limits:
          huawei.com/Ascend910B: 1 # requesting 1 Ascend
          huawei.com/Ascend910B-memory: 2000 # requesting 2000m device memor

Ascend310P

apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
    - name: ubuntu-container
      image: ascendhub.huawei.com/public-ascendhub/ascend-mindspore:23.0.RC3-centos7
      command: ["bash", "-c", "sleep 86400"]
      resources:
        limits:
          huawei.com/Ascend310P: 1 # requesting 1 Ascend
          huawei.com/Ascend310P-memory: 1024 # requesting 1024m device memory

目前 Ascend 910b 仅支持 1/4 和 1/2 两种分片策略。Ascend 310p 支持 3 种分片策略，1/7,2/7,4/7。pod 的显存请求将自动与最接近的分片策略保持一致。

模板详情请参考昇腾官方文档：https://www.hiascend.com/document/detail/zh/computepoweralloca/30rc2/cpaug/cpaug_0005.html

按 UUID 或索引过滤设备

在故障隔离的场景中，有时我们需要将某一个出现故障的 GPU 设备进行隔离，不让任务调度到故障设备上，而在新版本中，HAMI 能够支持使用 UUID 或者 GPU 索引的方式去过滤注册到 K8s 中的 GPU 设备，从而达到不允许任务调度到故障设备上的目的。其使用方式如下：

修改 HAMI 的 Configmap

{
        "nodeconfig": [
            {
                "name": "m5-cloudinfra-online02", //节点名称
                "devicememoryscaling": 1.8,
                "devicesplitcount": 10,
                "migstrategy":"none",
                "filterdevices": {
                  "uuid": ["GPU-54ea13f7-27d8-c1e4-4b86-9411e1283dff"],
                  "index": []
                }
            }
        ]
    }

这个案例中，成功修改 Configmap 后，需要手动重启 Hami-device-plugin 组件使其生效，k8s 不会再将 GPU 应用调度到此 GPU 设备上。

新增调度事件信息

在之前的版本中，如果 Pod 调度失败，那么将会很难排查，因为 HAMI 没有注册调度相关的事件信息，这为排障带来了很大阻碍。在新版本中，HAMI 对调度事件这部分进行了优化，新增了更多的调度事件信息，依赖这些信息能够更加方便的进行排障，示例如下：

调度成功：

(base) ➜  scheduler git:(master) ✗ kubectl describe  po nginx-deployment-7bd89f854c-5p2xv
Name:             nginx-deployment-7bd89f854c-5p2xv
Namespace:        default
Priority:         0
Service Account:  default
...
...
...
Events:
  Type    Reason            Age   From            Message
  ----    ------            ----  ----            -------
  Normal  Scheduled         6s    hami-scheduler  Successfully assigned default/nginx-deployment-67f97f4d9d-wtzzd to controller-node-1
  Normal  FilteringSucceed  7s    hami-scheduler  Successfully filtered to following nodes: [controller-node-1] for default/nginx-deployment-67f97f4d9d-wtzzd
  Normal  BindingSucceed    7s    hami-scheduler  Successfully binding node [controller-node-1] to default/nginx-deployment-67f97f4d9d-wtzzd
  Normal  Pulling           6s    kubelet         Pulling image "docker.m.daocloud.io/nginx:latest"
  Normal  Pulled            5s    kubelet         Successfully pulled image "docker.m.daocloud.io/nginx:latest" in 1.075344559s (1.075360343s including waiting)
  Normal  Created           5s    kubelet         Created container nginx
  Normal  Started           5s    kubelet         Started container nginx

调度失败：

(base) ➜  scheduler git:(master) ✗ kubectl describe po nginx-deployment-8dc9c4774-txbzf
Name:             nginx-deployment-8dc9c4774-txbzf
Namespace:        default
Priority:         0
...
...
...
Events:
  Type     Reason            Age   From            Message
  ----     ------            ----  ----            -------
  Warning  FailedScheduling  8s    hami-scheduler  0/2 nodes are available: 1 node(s) had untolerated taint {node.kubernetes.io/unreachable: }. preemption: 0/2 nodes are available: 1 No preemption victims found for incoming pod, 1 Preemption is not helpful for scheduling.
  Warning  FilteringFailed   9s    hami-scheduler  no available node, all node scores do not meet

新增 HAMi UI 界面

在新版本中，HAMI 同步上线了 Web UI 组件，为用户提供了资源管理、节点管理、显卡管理以及任务管理等视图，用户能够在 UI 中清晰地了解集群中 GPU 资源使用的情况，使团队能够更有效监控资源消耗。

更多详情请参考：https://github.com/Project-HAMi/HAMi-WebUI

DaoCloud 贡献

在 HAMI 2.4.0 版本发布的周期中，DaoCloud 在其中也参与了不少研发与 Bug 修复工作，以下是部分 PR：

[1] 新增调度事件信息
https://github.com/Project-HAMi/HAMi/pull/417

[2] 按 UUID 或索引过滤设备
https://github.com/Project-HAMi/HAMi/pull/495
https://github.com/Project-HAMi/HAMi/issues/491

[3] Ascend NPU 自定义配置支持
https://github.com/Project-HAMi/HAMi/pull/510

[4] HAMI 基础镜像优化
https://github.com/Project-HAMi/HAMi/pull/508

[5] HAMI CI 相关优化
https://github.com/Project-HAMi/HAMi/pull/501
https://github.com/Project-HAMi/HAMi/pull/473
https://github.com/Project-HAMi/HAMi/pull/499
https://github.com/Project-HAMi/HAMi/pull/520

[6] 新增容器维度的 GPU 利用率指标
https://github.com/Project-HAMi/HAMi/pull/258
https://github.com/Project-HAMi/HAMi-core/pull/4
https://github.com/Project-HAMi/HAMi/pull/280

[7] 优化调度逻辑
https://github.com/Project-HAMi/HAMi/pull/451
https://github.com/Project-HAMi/HAMi/pull/336

[8] 修复多容器设备分配错误
https://github.com/Project-HAMi/HAMi/pull/217

点击【阅读原文】参与问卷调查

本文作者

汤海

「DaoCloud 道客」云原生研发工程师

热门推荐

访问以下网址，或点击文末【阅读原文】立即体验

d.run，让算力更自由：

https://d.run/

DaoCloud 公司简介

「DaoCloud 道客」，云原生领域的创新领导者，成立于 2014 年底，凭借其自主知识产权的核心技术，成功打造了新一代云原生操作系统 DaoCloud Enterprise 5.0，致力于推动企业数字化、智能化转型。依托在云原生领域的技术积淀与持续创新，「DaoCloud 道客」推出 d.run 算力一体化解决方案，作为专业的技术提供商参与并推动多个区域算力枢纽中心的建设，为各行各业提供稳定、高效的算力支持。成立迄今，公司已在金融科技、先进制造、智能汽车、零售网点、城市大脑等多个领域深耕，标杆客户包括交通银行、浦发银行、上汽集团、格力集团、京东方、屈臣氏集团等。公司总部位于上海，并在新加坡、北京、深圳、成都、南京、武汉等地设立多家分公司及合资公司，总员工人数超过 300 人，是国家级“专精特新”小巨人企业、上海市高新技术企业，并入选了科创板培育企业名单。

网址：www.daocloud.io

邮件：info@daocloud.io

电话：400 002 6898

http://mp.weixin.qq.com/s?__biz=MzA5NTUxNzE4MQ==&mid=2659288298&idx=1&sn=22645e9875eb11e33cdb95a82a8c44b0

道客船长

分享云原生技术相关信息，助力开发者和企业云海扬帆！本公众号由 DaoCloud 负责运营

最新文章

掌握 AI 网络的密码，快不止一点

北美 KubeCon 前夕：containerd 相关项目集中发布全新大版本

标准化与多样性齐头并进的 KubeCon 见闻

一节课了解 AI 训练的幕后英雄—存储系统

KubeEdge 如何构建适应边缘网络的安全可信隧道

联想凌拓技术大会丨解锁数据潜能，携手共赴 AI 未来

KubeCon 北美倒计时｜在“养老圣地”畅谈云原生的开源未来

想学习海量数据的管理方法？听这节课就够了

AI中台如何成为金融业务增长的催化剂？

奔赴一场开源的旅程 | 道客船长邀你参与第九届中国开源年会

异构算力，轻松拿捏

南瓜灯下丨开启万圣夜奇幻魔法之旅

猿力觉醒丨黑客马拉松燃爆智慧火花

GPU 利用率不提升，买再多卡也徒劳

邀您共赴 DigitAI Visionaries Symposium 2024丨共筑企业 AI 与数字金融未来

不知道怎么给 GPU 加速？还不赶紧来听课

通过弹性配额突破静态 GPU 分配限制

云边协同新征程：KubeEdge 走向毕业

AI 和 ML 工作负载的 GPU 调度挑战

HAMi 发布 v2.4.0 版本：异构计算虚拟化迈向新高度

开源 vGPU 方案：HAMi，实现细粒度 GPU 切分

Kubernetes 宣布 2024 年指导委员会选举结果

把钱花在刀刃上，精打细算的 GPU 成本控制策略

KubeCon 上那些关于服务网格的新思路

七十五载华诞｜走过风雨路，盛世续华章

一位 Kubernetes 女性开发者的香港随笔

如何实现系统稳定和性能提升｜社区内关于可观测性的新尝试

故障模拟和稳定性的探索｜ DaoCloud Enterprise 5.0 的混沌工程实践

GPU 软件故障，求人不如自己搞定

人工智能影响下，那些多集群赛道上的新课题

皓月当空，你吃月饼了吗？

NVIDIA & DaoCloud ｜使用 KWOK 轻松模拟和测试大规模集群的调度策略

使用 Keycloak 为云原生应用构建身份认证系统

教师节｜致敬三尺讲台上的你

GPU 集群管理搞不定了？听这节直播课就够了

想成为未来的 Kubernetes 发布团队负责人吗？最后一天，1.32 Release Team Shadow 申请即将关闭！

那些不能错过的 KubeCon 精彩圆桌，聆听社区贡献者心声

为什么选择 d.run ｜提升 AI 算力资源的使用效率

新学期，带着 AI 进阶指南（下）来了！

KubeCon China 回顾｜开源技术的未来——做踏实的工程师，爱自己的孩子

化解异构之上的 AI 计算难题｜ HAMi 进入 CNCF Sandbox

东京首秀｜ DaoCloud 即将亮相 KubeDay Japan 2024

KubeCon Hong Kong｜和 Linus 一起共赴云原生技术盛会

大模型微调搞不定？看这期直播就够了

深度学习时代的资源博弈：Kubernetes 调度的创新实践

GOGC 2024 ｜集结号已吹响，邀您共赴开源嘉年华

Kubernetes 1.31 圆梦之路: 十年了, OCI 镜像借着 AI 的风终于加入 Volume 的大家庭 ~

KubeCon 预告｜AI 与云原生的交响，共赴香港技术盛会！

七夕 | 宇宙级的浪漫——卧看牵牛织女星

模型推理如何优化？AI 进阶指南第四节课来教你

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉