NVIDIA & DaoCloud |使用 KWOK 轻松模拟和测试大规模集群的调度策略

科技   2024-09-14 17:02   日本  

随着大模型等 AI 技术应用的不断深化与规模的急剧扩张,如何确保这些尖端技术在实际部署中的稳定性、可靠性及高效性,成为了每一位技术探索者所面临的重要课题。

2024 年 8 月 22 日,KWOK 的创始人张世明、NVIDIA GPU Cloud 的工程师陈源在 KubeCon + CloudNativeCon + 开源峰会 + AI_dev 中国大会上带来了《支持在 Kubernetes 中使用 KWOK 进行大规模和可靠性测试》的精彩分享。

01

从维护者视角看
KWOK 的诞生和发展

KWOK,全称为 Kubernetes WithOut Kubelet,是由「DaoCloud 道客」主导开发的开源工具,能够在极短的时间内部署一个拥有数千节点的 Kubernetes 集群。对于需要构建大规模 Kubernetes 集群但资源受限的用户,或者仅需要测试调度策略的用户,KWOK 提供了一个无需实体容器的便捷解决方案,使得在笔记本电脑上模拟集群环境变得轻而易举。

张世明强调了 KWOK 的主要优势:它允许用户在不部署 kubelet 或完整 Kubernetes 集群的情况下,轻松模拟和测试大规模集群的调度策略。KWOK 的简洁设计大幅减少资源消耗,降低测试成本和复杂性,同时为开发者提供极大的灵活性。他通过现场演示,展示了如何利用 KWOK 控制器快速创建集群并进行节点的扩缩容,直观地展示了工具的实用性。

此外,KWOK提供了一套高效的命令行工具,这些工具简化了本地构建和管理 Kubernetes 集群的流程。用户可以通过简单的命令快速搭建包含Kubernetes 控制平面的集群,并轻松进行管理。KWOK 支持在 Linux、MacOS 和Windows 操作系统上运行,无需复杂的容器化步骤,这提高了工具的易用性和灵活性,使开发者能够在他们熟悉的环境下高效地进行测试和开发。

在实际的业务场景中,用户往往还需要根据需求模拟不同的资源限制和负载条件,以具备更高的灵活性。这对于测试高性能计算(HPC)集群、大数据处理系统以及对资源敏感的应用程序而言尤为重要。最近,KWOK 在这方面实现了增强,不仅能够创建集群和模拟调度,还可以设置对应的 CPU 和内存信息,以此来帮助开发者更好地理解应用在不同资源状况下的表现,以及集群的调度和容错机制是否有效。接着,张世明也演示了根据需求自定义模拟场景这个过程。

02

从 NVIDIA GPU 实践
看 KWOK 的应用

随后,NVIDIA GPU Cloud 的工程师陈源从使用者的维度阐述了KWOK 的便捷性。

对于用户来说,KWOK 的作用在于模拟真实的 Kubernetes 集群环境,它为用户提供了丰富的功能测试、性能评估与系统验证的机会。首先,陈源以实际数据展示了大规模 GPU 集群在硬件基础设施、实施拓扑以及软件栈构建上的复杂性与挑战性。NVIDIA 在GPU 行业深耕多年,已经处理过多个行业对大规模集群部署的需求。在实践中,软件栈的各个环节都需要引入新组件,但是在如此高度集成的系统中,错误与故障难以避免,GPU 集群中的任何环节出错都可能因为软件间的广泛互联而迅速蔓延,导致任务延迟或系统故障等严重后果。而且,GPU 的成本是非常昂贵的,一旦出错所引发的成本支出更是翻倍的。

对此,KWOK 提供了故障模拟的功能,可以支持用户模拟极端的负载场景,进一步探索集群的负载能力。用户可以通过KWOK 将故障注入到 node 和 pod,用来模拟可能出现的故障情况,以测试系统的应对逻辑是否合理,为实际生产场景的业务运行提供参考。甚至对于一些包含多种组件的复杂系统(如图所示,NVIDIA 的某一实践中需要六个组件的联合作用),KWOK 还可以模拟真实环境下的处理流程,适应性更广。

在现场,陈源通过视频演示了如何通过 KWOK 模拟故障。当系统检测到错误发生时,KWOK 有能力重新调度或将作业迁移到其他节点以确保业务的连续性。最后,陈源总结道,KWOK 是一种以低成本进行大规模 Kubernetes 集群测试的强大工具,它为测试提供故障注入和模拟支持。
目前,由「DaoCloud 道客」自主开源 的 KWOK 项目,在 NVIDIA 的业务实践中真正赋能到了 GPU 集群的测试和模拟工作。这一方案已被多个社区项目采纳,用于集群测试管理、压力测试、以及全面评估和开发 GPU 及集群的多样化功能。在未来,KWOK 也将致力于深化在 GPU 和 AI 应用领域的实践,加大与新兴技术之间的整合力度,为更多业务场景的可靠性测试赋能。

https://mp.weixin.qq.com/s/WxefoNJN61nizhJq_bnQxw

点击下方文字查看视频回放:

《主论坛演讲: 支持在 Kubernetes 中使用 KWOK 进行大规模和可靠性测试》




热门推荐

            

访问以下网址,或点击文末【阅读原文】立即体验

d.run,让算力更自由
https://d.run/




DaoCloud 公司简介

「DaoCloud 道客」,云原生领域的创新领导者,成立于 2014 年底,凭借其自主知识产权的核心技术,成功打造了新一代云原生操作系统 DaoCloud Enterprise 5.0,致力于推动企业数字化、智能化转型。依托在云原生领域的技术积淀与持续创新,「DaoCloud 道客」推出 d.run 算力一体化解决方案,作为专业的技术提供商参与并推动多个区域算力枢纽中心的建设,为各行各业提供稳定、高效的算力支持。成立迄今,公司已在金融科技、先进制造、智能汽车、零售网点、城市大脑等多个领域深耕,标杆客户包括交通银行、浦发银行、上汽集团、格力集团、京东方、屈臣氏集团等。公司总部位于上海,并在新加坡、北京、深圳、成都、南京、武汉等地设立多家分公司及合资公司,总员工人数超过 300 人,是国家级“专精特新”小巨人企业、上海市高新技术企业,并入选了科创板培育企业名单。


网址:www.daocloud.io

邮件:info@daocloud.io

电话:400 002 6898



道客船长
分享云原生技术相关信息,助力开发者和企业云海扬帆!本公众号由 DaoCloud 负责运营
 最新文章