通过弹性配额突破静态 GPU 分配限制

科技 2024-10-17 17:31 中国香港

许多企业在处理复杂的计算任务时，不惜重金购买高性能 GPU，但这些昂贵的硬件资源往往难以在用户之间实现高效共享。本文探讨了采用弹性配额策略，来解决静态分配 GPU 资源所引发的问题。与传统的固定配额方式不同，弹性配额允许任务在需要时使用超出其配额的 GPU 资源，从而有效减少资源的闲置。

静态分配
的限制

在 d.run 的开发过程中，团队成员发现，利用虚拟化、容器以及高性能计算领域的某些原理，可以实现 GPU 资源的池化管理，并从底层计算环境中高效调度 GPU 资源，进而实现工作负载的灵活转移以及对人工智能基础设施的大规模高效管理。这一突破性的解决方案，帮助 AI 工程师团队构建了全新的管理模式，带来了显著的工作效率提升，使得他们对基础设施的利用率实现了更为精准的掌控与监控。

然而，深度学习任务与企业在虚拟机上运行的传统任务不同，真正高效的人工智能基础设施需要全面支持 AI 工作负载中的计算特性。两者有何不同？

首先，我们来看一下 AI 开发工程师主要从事的两种工作：

1、开发：这一阶段包括模型的交互式开发和调试。这一过程需要 GPU 资源能够即时响应并且持续可用。

2、训练：这一阶段涉及模型参数的调整。训练会话往往耗时较长，需要相当大的 GPU 算力。在这一过程中，性能和训练速度是关键因素，直接影响到模型训练的效率和质量。

在 AI 开发过程中，工程师通常只需要进行少量的交互式会话，这时静态 GPU 资源分配是合适的。但是，训练任务对 GPU 的需求则更加多变——AI 工程师可能同时开展多个训练任务（如进行超参优化），而有时则可能完全不进行训练。静态的分配方式无法实现进一步的资源共享，面对这种不断变化的需求，就显得力不从心。举例来说，即使其他 AI 工程师所拥有的 GPU 资源处于空闲，你也无法使用它们。这样会导致分配的 GPU 资源要么过剩，要么不足。

实施
弹性配额

因此，「DaoCloud 道客」的开发团队通过执行弹性配额策略来解决这一难题，通过 HAMi 实现了 GPU 资源的划分，配合 kube-scheduler 的 ElasticQuota 能力，规定不同任务使用配额的基础值（保证基本性能的最低限度的资源）和最大值，为 GPU 资源的调度提供参考。本质上，弹性配额使 AI 工程师摆脱了静态分配的限制，允许用户在空闲 GPU 可用时，使用超过配额数量的 GPU 资源。

因为弹性配额支持更多任务同时运行，因此 AI 工程师可以进行更多实验。这提高了工程师的生产力以及工作效率，同时提高了整个集群的 GPU 利用率。

至于弹性配额的运作方式，d.run 基于 Kubernetes 架构提供了一个参数矩阵：

1、项目优先级：允许组织或 IT 管理员定义项目并设定每个项目的优先级。

2、配额：为每个项目定义 GPU 的静态分配或弹性配额。

在此之后，任务将转换为队列进入我们的调度程序。与静态分配的任务相比，弹性配额的任务可以使用超出其配额数量的 GPU 资源。这意味着，即便队列中的资源需求超过了配额，系统也会优先分配可用资源给队列中的任务。如果任务被提交到配额不足的队列，且没有足够的可用资源来启动它，在考虑优先级和公平性的前提下，调度程序会智能化地暂停超出配额的队列中的任务。

弹性配额本质上打破了固定分配的界限，提高了工作效率，让使用者不再受限于同时运行的任务数量和可使用的 GPU 资源。对于需要大量 GPU 资源来支持任务运行的 AI 时代，这是一个值得在真实业务场景中实践并继续完善的技术方案。

热门推荐

访问以下网址，或点击文末【阅读原文】立即体验

d.run，让算力更自由：

https://d.run/

DaoCloud 公司简介

「DaoCloud 道客」，云原生领域的创新领导者，成立于 2014 年底，凭借其自主知识产权的核心技术，成功打造了新一代云原生操作系统 DaoCloud Enterprise 5.0，致力于推动企业数字化、智能化转型。依托在云原生领域的技术积淀与持续创新，「DaoCloud 道客」推出 d.run 算力一体化解决方案，作为专业的技术提供商参与并推动多个区域算力枢纽中心的建设，为各行各业提供稳定、高效的算力支持。成立迄今，公司已在金融科技、先进制造、智能汽车、零售网点、城市大脑等多个领域深耕，标杆客户包括交通银行、浦发银行、上汽集团、格力集团、京东方、屈臣氏集团等。公司总部位于上海，并在新加坡、北京、深圳、成都、南京、武汉等地设立多家分公司及合资公司，总员工人数超过 300 人，是国家级“专精特新”小巨人企业、上海市高新技术企业，并入选了科创板培育企业名单。

网址：www.daocloud.io

邮件：info@daocloud.io

电话：400 002 6898

http://mp.weixin.qq.com/s?__biz=MzA5NTUxNzE4MQ==&mid=2659288331&idx=1&sn=e36b35e1affd64a3164326d8578c7dd8

道客船长

分享云原生技术相关信息，助力开发者和企业云海扬帆！本公众号由 DaoCloud 负责运营

最新文章

掌握 AI 网络的密码，快不止一点

北美 KubeCon 前夕：containerd 相关项目集中发布全新大版本

标准化与多样性齐头并进的 KubeCon 见闻

一节课了解 AI 训练的幕后英雄—存储系统

KubeEdge 如何构建适应边缘网络的安全可信隧道

联想凌拓技术大会丨解锁数据潜能，携手共赴 AI 未来

KubeCon 北美倒计时｜在“养老圣地”畅谈云原生的开源未来

想学习海量数据的管理方法？听这节课就够了

AI中台如何成为金融业务增长的催化剂？

奔赴一场开源的旅程 | 道客船长邀你参与第九届中国开源年会

异构算力，轻松拿捏

南瓜灯下丨开启万圣夜奇幻魔法之旅

猿力觉醒丨黑客马拉松燃爆智慧火花

GPU 利用率不提升，买再多卡也徒劳

邀您共赴 DigitAI Visionaries Symposium 2024丨共筑企业 AI 与数字金融未来

不知道怎么给 GPU 加速？还不赶紧来听课

通过弹性配额突破静态 GPU 分配限制

云边协同新征程：KubeEdge 走向毕业

AI 和 ML 工作负载的 GPU 调度挑战

HAMi 发布 v2.4.0 版本：异构计算虚拟化迈向新高度

开源 vGPU 方案：HAMi，实现细粒度 GPU 切分

Kubernetes 宣布 2024 年指导委员会选举结果

把钱花在刀刃上，精打细算的 GPU 成本控制策略

KubeCon 上那些关于服务网格的新思路

七十五载华诞｜走过风雨路，盛世续华章

一位 Kubernetes 女性开发者的香港随笔

如何实现系统稳定和性能提升｜社区内关于可观测性的新尝试

故障模拟和稳定性的探索｜ DaoCloud Enterprise 5.0 的混沌工程实践

GPU 软件故障，求人不如自己搞定

人工智能影响下，那些多集群赛道上的新课题

皓月当空，你吃月饼了吗？

NVIDIA & DaoCloud ｜使用 KWOK 轻松模拟和测试大规模集群的调度策略

使用 Keycloak 为云原生应用构建身份认证系统

教师节｜致敬三尺讲台上的你

GPU 集群管理搞不定了？听这节直播课就够了

想成为未来的 Kubernetes 发布团队负责人吗？最后一天，1.32 Release Team Shadow 申请即将关闭！

那些不能错过的 KubeCon 精彩圆桌，聆听社区贡献者心声

为什么选择 d.run ｜提升 AI 算力资源的使用效率

新学期，带着 AI 进阶指南（下）来了！

KubeCon China 回顾｜开源技术的未来——做踏实的工程师，爱自己的孩子

化解异构之上的 AI 计算难题｜ HAMi 进入 CNCF Sandbox

东京首秀｜ DaoCloud 即将亮相 KubeDay Japan 2024

KubeCon Hong Kong｜和 Linus 一起共赴云原生技术盛会

大模型微调搞不定？看这期直播就够了

深度学习时代的资源博弈：Kubernetes 调度的创新实践

GOGC 2024 ｜集结号已吹响，邀您共赴开源嘉年华

Kubernetes 1.31 圆梦之路: 十年了, OCI 镜像借着 AI 的风终于加入 Volume 的大家庭 ~

KubeCon 预告｜AI 与云原生的交响，共赴香港技术盛会！

七夕 | 宇宙级的浪漫——卧看牵牛织女星

模型推理如何优化？AI 进阶指南第四节课来教你

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

通过弹性配额突破静态 GPU 分配限制

静态分配的限制

实施弹性配额

静态分配
的限制

实施
弹性配额