算力需求正以 375 倍 /年的速度增长,面对不同的计算设备、众多闲散的计算资源,算力管理的重要性愈发凸显。在这一领域,第四范式和「DaoCloud 道客」联合开源的项目 Heterogeneous AI Computing Virtualization Middleware(HAMi,原第四范式vgpu-scheduler)刚刚通过投票环节,正式成为 CNCF Sandbox 项目的一员。
HAMi 是一款高效的异构 AI 算力设备管理工具,支持 GPU 资源的共享和灵活分配,算力资源的硬隔离和精准调度。此外,它还具备任务优先级管理、灵活调度策略和全面资源监控功能,有效提升了 AI 算力资源的利用效率和计算任务的执行速度。
专为
异构 AI 计算而生
在 Kubernetes 集群中,GPU 任务的资源利用率令人担忧,调研显示,3/4 的企业的 GPU 资源利用率低于 70%,提升 GPU 利用率变得愈发重要。这主要是由于 GPU 资源通常只能以独占方式被容器申请,导致资源的极大浪费。面对这一挑战,业界开始积极探索 GPU 共享技术,并推出性能更强大的新款 GPU,以迅速响应市场对算力的迫切需求。与此同时,尽管 NVIDIA GPU 仍然占据主导地位,但百家争鸣的局面正在形成。在这样的大环境下,HAMi 应运而生。
主要包含以下特性:
统一管理与调度:面对多种异构 AI 设备,HAMi 提供统一的云原生管理和调度能力,目前已经支持英伟达、华为昇腾、天数、寒武纪、海光、沐曦等 GPU 资源共享:通过支持算力和显存两种资源维度的精细划分,实现了多个任务共享同一物理 GPU 资源,极大地提升了 GPU 的使用效率。同时允许算力与显存的超配使用,确保了资源的最大化利用,为用户带来了更大的灵活性。
硬资源隔离:在容器内部实现 GPU 共享资源的硬资源隔离,确保资源分配的精确性和安全性。
精准调度:用户可以指定设备类型/UUID进行调度,具备更精准的调度能力。
任务优先级管理:支持高优先级任务优先使用算力资源,低优先级任务被抢占,但是不退出,等待高优先级任务结束后继续执行。
灵活的调度策略:支持节点与 GPU 卡两种维度的 binpack & spread 策略,用户可以自由选择任务集中或分散的调度偏好,以适应不同的资源分配需求。
多维度可观测性:提供两种不同维度的可观测性能力,Kubernetes 调度层面的资源监控(pod,node,GPU 卡的调度情况),以及设备层面的监控(pod 挂载的 GPU 卡的真实使用情况)。
02
广泛应用
与社区认可
HAMi 的加入,无疑为 CNCF Sandbox 注入了新的活力,推动了 AI 算力管理技术的发展,为解决算力资源的高效利用提供了强有力的支持。目前,HAMi 已经与 Volcano 等项目实现了无缝集成,更在实际生产实践中证明了其广泛的应用前景。主要包括:
LLM 推理加速:针对大语言模型,HAMi 能够加速其推理过程,显著提高处理速度和响应时间,为 AI 应用带来更快的决策支持。 AB 测试:在 AI 模型开发和优化过程中,AB 测试是不可或缺的一环。HAMi 支持在不同设备上进行性能对比测试,帮助开发者快速识别最优模型配置。
训推一体化:结合 Volcano 和 Kueue 的队列管理能力,HAMi 实现了高优先级任务的优先资源分配,确保关键任务能够获得必要的计算资源,同时为低优先级任务提供了灵活的调度策略。
日前,「DaoCloud 道客」推出的 d.run 算力一体化方案,正是基于 HAMi 的核心能力,实现了 GPU 算力的有效共享。在广泛的生产实践中,HAMi 的方案已经得到了社区的认可。如今,它不仅是 CNCF Sandbox 的一部分,也是 CNCF CANI Landscape Project 的重要成员。随着技术的不断进步和社区的共同努力,HAMi 有望成为 AI 算力管理领域的标杆项目。
03
憧憬未来
开启新篇章
HAMi 作为 AI 算力管理领域的创新者,其未来发展蓝图不仅令人期待,更预示着算力管理方向的技术新突破。以下是 HAMi 未来规划的几个关键方向:
可观测性能力全面提升:HAMi 将持续增强其可观测性能力,提供更为丰富和多维度的 GPU 监控功能。这不仅意味着对现有 GPU 性能的深入洞察,还包括对资源使用情况的全面监控,从而帮助用户更精准地了解和优化资源分配。 与 DRA 深度适配:HAMi 将与社区新一代的设备管理标准——DRA(Device Resource Allocation)进行深度适配。这一适配将推动设备管理的标准化和自动化,简化设备配置和维护流程。
GUI 能力支持:为了进一步提升用户体验,HAMi 计划引入图形用户界面(GUI)。这一举措将极大地简化操作流程,使得非技术用户也能轻松管理算力资源。
支持更多设备:HAMi 将持续扩展其对不同设备的兼容性,包括信创、国产 AI 异构设备,以及 AMD、Intel、Google TPU 等。这将构建一个更加开放和多元的硬件生态,满足不同用户的需求。
04
致谢
HAMi 的每一步成长,都深深植根于社区的土壤。两年多的发展,是一段由每一位社区参与者共同编织的旅程。感谢每一位贡献者及用户的信任、支持和帮助,也特别感谢 CNCF 对项目发展的指导和支持。未来,HAMi 将持续探索如何更好地利用异构资源,来满足人们日益增长的算力需求。我们也诚挚邀请更多的开发者和使用者加入 HAMi 的大家庭,在 issue 中提出你的意见和想法,让你的声音成为推动 HAMi 前进的力量吧。
项目地址:
https://github.com/Project-HAMi/HAMi
在刚刚结束的 KubeCon China 2024 和 KubeDay Japan 2024 上,通过一系列精彩的分析讲解和案例演示,来自「DaoCloud 道客」的 HAMi 维护者代表张潇,成功地传达了 HAMi 如何有效地解决云原生环境中异构 AI 计算资源的管理难题。随着越来越多的企业和开发者开始关注和采用 HAMi,我们有理由相信,它将在 AI 引领的新一轮数字化转型中发挥越来越重要的作用。
热门推荐
访问以下网址,或点击文末【阅读原文】立即体验
DaoCloud 公司简介
网址:www.daocloud.io
邮件:info@daocloud.io
电话:400 002 6898