为什么选择 d.run | 提升 AI 算力资源的使用效率

科技   2024-09-02 11:00   上海  


人工智能的大爆发使得 AI 大模型的应用场景越来越多样,工作负载量也随之增加,但是传统的 AI 工作负载通常在裸机上运行,而且是通过静态分配给数据科学家使用。这不仅限制了实验的规模和速度,降低了 GPU 的利用率,并且削弱了 IT 的控制能力。在此背景下,针对 AI 工作负载的云原生化也被提上了日程。它作为一种资源管理和优化的重要手段,能够根据 AI 工作负载的需求动态分配计算资源,确保资源的高效利用

01

基于 Kubernetes 的
AI 基础设施的优势

在企业 IT 环境中,Kubernetes 已经成为了编排容器应用程序的标准工具。越来越多的企业开始用 Kubernetes 承载来支撑业务。随着 AI 大模型的普及和应用,越来越多的用户选择将 AI/ML 工作负载运行在 Kubenernets 之上

对此,d.run 基于 Kubernetes 的能力和 CNCF 的开源生态提供了特定的 AI 基础设施云原生化方案。通过构建 GPU 资源池,d.run 可有效汇集大型 GPU 集群的计算资源用于 AI 工作负载。一方面,租户内的 AI 用户可共享数据中心内所有服务器上的 GPU 算力,开发人员能够专注于更有价值的业务层面,让 AI 应用开发变得更加敏捷高效。另一方面,d.run 将 GPU 计算能力透过 Kubernetes 技术共享给更多团队,降低了大家获取计算资源的成本。

02

提升 AI 工作负载
的资源管理效率

在深度学习的不同阶段,数据科学家对计算资源有着不同的需求。在开发阶段,他们通常仅仅需要 CPU 或 GPU 。而到了计算更密集的模型训练阶段,就需要大量的 GPU 算力来满足需求。在这个过程中,动态资源分配对于促进 AI 技术的发展极为重要。这种分配方式可以根据业务实际需求灵活调整资源,以适应不同阶段的计算任务,从而提高资源的使用效率和灵活性。

d.run 平台在提供基础的 Kubernetes 调度功能之外,进一步融合了开源项目 Kueue 的先进调度策略,以满足多样化的算力需求。通过实施公平调度算法,d.run 确保了所有作业都能获得合理的资源分配,避免了资源的偏向性分配,从而保障了集群中各个用户和任务的公平性。

此外,d.run 支持亲和性调度策略,允许作业根据特定的规则被优先调度到合适的计算节点上,优化作业执行的效率和稳定性。组调度功能则允许相关作业作为一个整体进行管理和调度,确保了作业之间的协同和资源共享。紧凑调度算法的引入,使得 d.run 能够更有效地整合和利用碎片化的资源,减少了因资源不连续而导致的浪费。这些策略的综合运用,显著提升了 GPU 资源的利用率,解决了在大规模 AI 训练场景中常见的资源浪费问题。

通过这些高级调度策略,d.run 不仅优化了资源的使用效率,还确保了作业的快速响应和执行,减少了任务排队和等待的时间。这使得数据科学家和 AI 工程师能够更加专注于模型的开发和优化,而无需担心底层资源管理的复杂性

03

深度学习的
范式转变

深度学习任务的计算密集型特性意味着它们需要大量的并行处理能力。在 AI 领域,云原生化的目标已经演变为不仅要共享资源,还要能够为单个工作负载提供加速处理的能力,确保其能够根据需要快速获取和使用资源。为了适应这一变化,我们在分布式计算领域持续创新,可以更有效地利用硬件资源,提高计算效率。这些工作负载可能会持续运行很长时间,从数天到数周不等,以训练复杂的模型或处理大规模的数据集。

d.run 则提供了一种“贪婪”的解决方案,它不仅允许数据中心的资源通过虚拟化技术被多个计算任务共享,还基于第四范式与「DaoCloud 道客」联合开源的 HAMi(原第四范式 vgpu-scheduler)有效地将单个物理资源进行合理划分。这种 GPU 共享的能力确保了每个计算任务都能获得充足的处理能力,以满足其对高性能计算的需求,同时借助灵活的资源分配机制,提升了资源的利用效率,显著加快了深度学习任务的执行速度。

通过这种方式,d.run 为数据科学家和人工智能工程师提供了一个强大而灵活的计算环境。他们可以根据自己的需求,快速获取所需的计算资源,从而加速模型的训练和实验的迭代过程。这种按需分配资源的策略,使得 d.run 成为了深度学习领域中一个非常有价值的工具。

随着 AI 技术的不断进步,d.run 为多种 AI 应用的工作负载提供了一个高效、灵活且可扩展的资源管理解决方案。这一转变不仅提升了资源利用率,还加速了 AI 模型的训练和推理过程,为数据科学家解锁了更多创新的可能性。展望未来,d.run 将继续优化服务,助力企业在人工智能的道路上加速前行,引领各行各业的智能化未来。




热门推荐

            

访问以下网址,或点击文末【阅读原文】立即体验

d.run,让算力更自由
https://d.run/




DaoCloud 公司简介

「DaoCloud 道客」,云原生领域的创新领导者,成立于 2014 年底,凭借其自主知识产权的核心技术,成功打造了新一代云原生操作系统 DaoCloud Enterprise 5.0,致力于推动企业数字化、智能化转型。依托在云原生领域的技术积淀与持续创新,「DaoCloud 道客」推出 d.run 算力一体化解决方案,作为专业的技术提供商参与并推动多个区域算力枢纽中心的建设,为各行各业提供稳定、高效的算力支持。成立迄今,公司已在金融科技、先进制造、智能汽车、零售网点、城市大脑等多个领域深耕,标杆客户包括交通银行、浦发银行、上汽集团、格力集团、京东方、屈臣氏集团等。公司总部位于上海,并在新加坡、北京、深圳、成都、南京、武汉等地设立多家分公司及合资公司,总员工人数超过 300 人,是国家级“专精特新”小巨人企业、上海市高新技术企业,并入选了科创板培育企业名单。


网址:www.daocloud.io

邮件:info@daocloud.io

电话:400 002 6898



道客船长
分享云原生技术相关信息,助力开发者和企业云海扬帆!本公众号由 DaoCloud 负责运营
 最新文章