如果将 AI 世界看作一个碳基生物,智算中心就是它的心脏,那么它需要怎样的血液——计算资源,以及怎样的神经系统——调度器,才能保持活力和效率?而在这个充满智能的生态系统中,我们又该如何培养出更聪明的“细胞”——算法和应用程序?
8 月 21 日 - 23 日,「香港嘉里酒店」,KubeCon + CloudNativeCon + 开源峰会 + AI_dev 中国大会,让我们一起来探秘。本次大会是 KubeCon 系列活动首次与 AI_dev 联合举办,两大盛会的强强联手,必将擦出不一样的火花。来自「DaoCloud 道客」的开发者们即将在会上呈现 21 场精彩绝伦的议题演讲,其中不乏多个与 AI 相关的议题。今天船长就来带大家先睹为快,提前领略一下这部分议题的精彩内容吧!
大规模 AI 负载场景下
的故障感知和快速恢复
在大规模 GPU 集群的 AI 训练、微调和推理任务中,容错能力是确保项目顺利进行的重要因素。某个硬件故障可能让训练和微调任务延长数周甚至数月。而在推理任务中,当请求如潮水般涌来,一台服务器的故障可能引发连锁反应。在本场演讲中,刘齐均和张凡石将介绍「DaoCloud 道客」开发团队设计的一系列故障感知和快速恢复机制。这些创新机制不仅能够助力 Kubernetes 集群精准定位故障,还能在硬件故障或 CUDA API 调用出现问题时,迅速采取行动,执行有效的调度和缓解措施,最大限度地减少故障对整体运行的影响。
议程详情:
https://sched.co/1eYY2
02
如何提高大规模集群的
资源利用率?
提高数据中心 GPU 使用率的 N 种方法
随着人工智能的广泛渗透,各行各业竞相投入资金构建 AI 基础设施,并期望着所有算力资源都能够得到最高效率的利用。「DaoCloud 道客」高级技术主管张潇将分享在基于上千台 AI 加速器(GPU 或 NPU)的大规模 Kubernetes 集群上训练千亿级参数 LLM 的经验,包括模型并行化、switch-affinity 调度、检查点效率优化、从检查点恢复等。
同时,他还将分享提高 AI 加速器的模型浮点运算利用率(MFU)的 N 种方法,包括如何通过 GPU 共享技术提高 MFU,借助训练-推理混合方案解决潮汐场景的问题,以及如何通过节点资源的分组和调度来提高 GPU 利用率。
议程详情:
https://sched.co/1eYXJ
HAMi:在异构算力集群中提高资源利用率
此外,随着越来越多的大规模集群开始配备多样化的人工智能基础设施,异构算力管理问题成为了一个重大挑战。张潇还将在另外的议题中介绍一个为了应对异构算力的挑战而诞生的项目——HAMi。
HAMi 是一个致力于解决大规模异构算力集群资源管理和优化的开源项目,目前已进入 CNCF 全景图。通过设备共享、内存控制、设备类型指定等功能,HAMi 能够有效地提高资源利用率并支持灵活的调度策略和可观测性。张潇将在演讲中带来 HAMi 的技术细节分享和生产级用户的实际案例研究。关注异构方向的开发者们,千万不要错过!
议程详情:
https://sched.co/1eYYT
03
调度碎片化问题
和 AI/ML 任务的挑战
针对 Kubernetes 调度器过多可能导致的用户决策困难问题,「DaoCloud 道客」的技术专家殷纳和戴秋萍,将和来自 Godel-Scheduler、Koordinator、Kubernetes SIG-Scheduling 和 Volcano 等社区的维护者们共同带来一场精彩的专题讨论。他们将深入探讨如何简化 Kubernetes 调度器的选择和使用,帮助用户更好地理解和利用 Kubernetes 的调度功能。随着人工智能技术的快速发展,AI/ML 工作负载的调度也成为 Kubernetes 社区关注的焦点。这个专家小组还将讨论 Kubernetes 在 AI 浪潮中的现状和未来发展方向,以及社区合作的机遇。
议程详情:
https://sched.co/1eYZF
TACC 作为 AI+HPC
统一云原生基础设施
传统的基于 Slurm 的高性能计算(HPC)虽然在计算能力上表现出色,但在管理和调度的灵活性方面存在局限。与此同时,Kubernetes 为 AI 用户提供了强大的工具,但在可用性和易用性方面仍面临挑战。「DaoCloud 道客」研发副总裁潘远航将分享一种创新的人工智能基础设施管理解决方案——TACC。TACC 项目是香港科技大学计算机系统研究人员与「DaoCloud 道客」的 CNCF 贡献者共同合作的成果,它成功地将 Kubernetes 和 Slurm 的优势结合起来,打破了传统 HPC 与云原生技术之间的界限。自 2020 年以来,TACC 已经成功管理了香港科技大学的大规模集群,支持超过 500 名活跃研究人员的工作。
议程详情:
https://sched.co/1eYaH
如何让你的
AI 底座效能提升 10 倍
即使 Kubernetes 被认为是人工智能的基础架构,但 Kubernetes 仅仅是第一步。企业在投资人工智能并建立算力中心后还将面临一系列挑战,例如组织配额和成本管理、资源隔离、分层调度、集群共享等。基于以往的云原生业务实践,「DaoCloud 道客」开发者们在帮助 IDC 和企业构建 AI 底座方面有创新的技术思考和解决方案。在本次大会中,潘远航和戴秋萍将同大家分享这些实践经验,来帮助更多社区实现云原生人工智能基础设施效能的 10 倍提升。
议程详情:
https://sched.co/1eYaT
使用 Ollama Operator
轻松开发和部署 LLMs
人们经常发现很难打包、分发、部署和扩展自己的 LLM 工作负载,而 Ollama Operator,一个由 Ollama 推出的基于 Modelfile 的 LLM 模型调度工具则有效地解决了这个问题,它提供了易于使用的 API 和简单的 CRD 规格,使得开发者只需通过几行 YAML 定义就能快速部署模型,并立即与之交互。「DaoCloud 道客」高级软件工程师张凡石将介绍如何利用 Ollama Operator 更丝滑地跨操作系统和环境进行 LLM 的打包、分发、部署和扩展,实现更高效的云原生人工智能应用开发和部署。
议程详情:
https://sched.co/1eYb3
除了以上议题,「DaoCloud 道客」还将带来关于服务网格、云原生网络、边缘计算等领域的探索和实践分享。详情请关注下方海报,了解更多议程信息。除了演讲会场,开发者们还可以在「DaoCloud 道客」的展台 S1 和讲师们更深入地探讨云原生热点技术、行业实践案例。此外,Kubespary、Merbridge、HwameiStor 以及 Kubean 的技术专家将在 T4 和 T9 展台为大家带来这些项目的最新进展。
8 月 21 日 - 23 日,和我们在香港嘉里酒店见面吧!
热门推荐
访问以下网址,或点击文末【阅读原文】立即体验
DaoCloud 公司简介
网址:www.daocloud.io
邮件:info@daocloud.io
电话:400 002 6898