人工智能影响下，那些多集群赛道上的新课题

科技 2024-09-19 17:05 中国香港

不久前，KubeCon China 2024 在香港成功举办，我也作为 Speaker 去参加了这次技术盛宴，并在 A Deep Dive into Cilium Gateway API: The Future of Ingress Traffic Routing 中简单地分享了一下 Cilium 中 Gateway API 是如何实现的。

在参加 KubeCon 大会期间，我也聆听了其他演讲者的分享，其中，多集群管理（Multi-Cluster）是我比较关心的话题。事实上，本次大会的许多议题都聚焦在人工智能上，多集群领域也同样如此。因此我重点关注了这方面的演讲。在这些演讲中，有几个议题特别引起了我的兴趣。

演讲主题:
JD Cloud's Large-Scale Serverless Practice : APP Management and Elastic Scaling on Karmada

XiaoFei Wang 在本场演讲中主要介绍了，京东云中的联邦无状态服务基于联邦管理模型和无状态服务应用模型，为联邦应用容器部署、弹性扩展和故障迁移提供保障。它统一管理了超过 10,000 个节点的多集群，提高了整体资源利用率，并且减少了平台上多集群管理、调度和分发的复杂性。

他重点讲解了两个关键场景：跨集群调度和跨集群弹性伸缩。

在跨集群调度方面，京东云基于 Karmada 的多集群编排能力，开发了包括 FedKService 在内的多个控制器，结合 Hippo 服务进行资源精准测算并形成资源画像。Karmada 会根据这些画像和调度策略，实现副本的跨集群分配。

跨集群弹性伸缩则增强了 Karmada 的功能，这个场景主要包括三种模式：自动弹性伸缩、None 和人工部署。自动弹性伸缩模式默认启用，只负责调整副本数量，不涉及镜像版本、环境变量或配置文件的更新，启用该模式时会禁用人工部署模式。而人工部署模式启用时，则会禁用自动弹性伸缩模式，以此防止手动调整的副本数被自动更改。此外，None 模式则是一种无操作状态，主要用于隔离场景，会同时禁用自动弹性伸缩和人工部署两种模式。

演讲主题:
Multi-Cluster Networking and Service Discovery Leveraging NRI

目前业界有几种多集群网络互通方案，例如 Submariner ，但是这些方案都有一些缺点，诸如需要公共 IP ，预先规划不冲突的 CIDR，CNI（容器网络接口）兼容性差等。

在本场演讲中，Lingming Xia 和 Di Xu 针对这些问题提出了一种多集群网络的解决方案。开发者基于节点资源接口（NRI）建立了一个独立且统一的跨集群东西向流量网络，以避免对集群的侵入性修改和对 CNI 的限制。这个方案还涉及到集群间流量，成员集群可以通过具有公共 IP 的中心集群进行相互通信。这一方案宣称与所有 CNI 插件兼容，支持 Pod CIDR 重叠，非侵入式网络配置等。

其核心原理是通过 NRI 给 Pod 注入了一个 CNF 的虚拟网卡，所有成员集群中的 Pod 的跨集群流量都经过这个 CNF 的虚拟网卡来实现。

演讲主题:
Boundaryless Computing: Optimizing LLM Performance, Cost, and Efficiency in Multi-Cloud Architecture

Kai Zhang 和 Jian Zhu 在演讲中首先抛出了他们遇到的一系列的问题，例如：大模型的参数量越来越大导致推理服务启动非常缓慢，反复从远程存储中提取模型会迅速推高带宽成本等问题。为了解决这些问题，他们通过 OCM 的多集群应用部署能力和 Fluid 的数据编排能力，自动化实现推理应用的多地区分发，促进了大模型的跨地区分发和预热，以此来提高模型部署的效率。

这个解决方案核心原理是利用 OCM 的多集群分发能力，将 Fluid 分发到多个成员集群中，在这个过程中，Fluid 可以加速模型加载的速度，提前对数据进行预热，并且提供任务与数据的亲和性。这些特性能给 AI 模型训练和推理带来大大的提升。如上图所示，他们介绍了一个用户案例，这里利用 Fluid 将 AI 训练速度提高了 30% 以上，将大模型推理的冷启动延迟降低 85%。

演讲主题:
Connecting the Dots: Towards a Unified Multi-Cluster AI/ML Experience

目前业界有多个多集群编排方案，例如 Karmada/Fleet/OCM 等开源项目，但是对于用户来说，这也导致缺乏一个统一的使用体验。因此社区目前希望能够为开发者提供统一、标准化的多集群管理体验，同时又能最大程度地保留各个方案在多集群管理问题上的独特视角。因此社区最新提出了一个新的 API - ClusterProfile.

在这个演讲中，Qing Hao 和 Chen Yu 主要展示了如何借助 Sig Multi-Cluster 最新提出的 API - ClusterProfile，目前这个 API 主要作用有集群状态监控、签证签发(讨论中)等特性。他们演示了如何通过 ClusterProfile API 去自动化 MultiKueue 设置。MultiKueue 是 Kueue 项目中面向多集群作业调度的一个 API（Kueue 是由「DaoCloud 道客」深度参与的作业队列项目）。如上图所示。通过这些调整，用户可以先使用 OCM/Fleet/Karmada 的高级编排功能，再通过 MultiKueue 智能地将人工智能/机器学习训练任务分布到集群中，以最大化资源利用率，从而节省成本。

从上面几个分享中可以看出，Multi-Cluster 方向正在与 Kubernetes 生态中的其他社区更加紧密地结合，帮助更多用户有效地利用多集群资源，并最大化地提升资源的利用率。

本文作者

蒋兴彦

现任「DaoCloud 道客」云原生开发工程师

热门推荐

访问以下网址，或点击文末【阅读原文】立即体验

d.run，让算力更自由：

https://d.run/

DaoCloud 公司简介

「DaoCloud 道客」，云原生领域的创新领导者，成立于 2014 年底，凭借其自主知识产权的核心技术，成功打造了新一代云原生操作系统 DaoCloud Enterprise 5.0，致力于推动企业数字化、智能化转型。依托在云原生领域的技术积淀与持续创新，「DaoCloud 道客」推出 d.run 算力一体化解决方案，作为专业的技术提供商参与并推动多个区域算力枢纽中心的建设，为各行各业提供稳定、高效的算力支持。成立迄今，公司已在金融科技、先进制造、智能汽车、零售网点、城市大脑等多个领域深耕，标杆客户包括交通银行、浦发银行、上汽集团、格力集团、京东方、屈臣氏集团等。公司总部位于上海，并在新加坡、北京、深圳、成都、南京、武汉等地设立多家分公司及合资公司，总员工人数超过 300 人，是国家级“专精特新”小巨人企业、上海市高新技术企业，并入选了科创板培育企业名单。

网址：www.daocloud.io

邮件：info@daocloud.io

电话：400 002 6898

http://mp.weixin.qq.com/s?__biz=MzA5NTUxNzE4MQ==&mid=2659288023&idx=1&sn=3642911db60dbbb9f23b9df667d18ec1

道客船长

分享云原生技术相关信息，助力开发者和企业云海扬帆！本公众号由 DaoCloud 负责运营

最新文章

掌握 AI 网络的密码，快不止一点

北美 KubeCon 前夕：containerd 相关项目集中发布全新大版本

标准化与多样性齐头并进的 KubeCon 见闻

一节课了解 AI 训练的幕后英雄—存储系统

KubeEdge 如何构建适应边缘网络的安全可信隧道

联想凌拓技术大会丨解锁数据潜能，携手共赴 AI 未来

KubeCon 北美倒计时｜在“养老圣地”畅谈云原生的开源未来

想学习海量数据的管理方法？听这节课就够了

AI中台如何成为金融业务增长的催化剂？

奔赴一场开源的旅程 | 道客船长邀你参与第九届中国开源年会

异构算力，轻松拿捏

南瓜灯下丨开启万圣夜奇幻魔法之旅

猿力觉醒丨黑客马拉松燃爆智慧火花

GPU 利用率不提升，买再多卡也徒劳

邀您共赴 DigitAI Visionaries Symposium 2024丨共筑企业 AI 与数字金融未来

不知道怎么给 GPU 加速？还不赶紧来听课

通过弹性配额突破静态 GPU 分配限制

云边协同新征程：KubeEdge 走向毕业

AI 和 ML 工作负载的 GPU 调度挑战

HAMi 发布 v2.4.0 版本：异构计算虚拟化迈向新高度

开源 vGPU 方案：HAMi，实现细粒度 GPU 切分

Kubernetes 宣布 2024 年指导委员会选举结果

把钱花在刀刃上，精打细算的 GPU 成本控制策略

KubeCon 上那些关于服务网格的新思路

七十五载华诞｜走过风雨路，盛世续华章

一位 Kubernetes 女性开发者的香港随笔

如何实现系统稳定和性能提升｜社区内关于可观测性的新尝试

故障模拟和稳定性的探索｜ DaoCloud Enterprise 5.0 的混沌工程实践

GPU 软件故障，求人不如自己搞定

人工智能影响下，那些多集群赛道上的新课题

皓月当空，你吃月饼了吗？

NVIDIA & DaoCloud ｜使用 KWOK 轻松模拟和测试大规模集群的调度策略

使用 Keycloak 为云原生应用构建身份认证系统

教师节｜致敬三尺讲台上的你

GPU 集群管理搞不定了？听这节直播课就够了

想成为未来的 Kubernetes 发布团队负责人吗？最后一天，1.32 Release Team Shadow 申请即将关闭！

那些不能错过的 KubeCon 精彩圆桌，聆听社区贡献者心声

为什么选择 d.run ｜提升 AI 算力资源的使用效率

新学期，带着 AI 进阶指南（下）来了！

KubeCon China 回顾｜开源技术的未来——做踏实的工程师，爱自己的孩子

化解异构之上的 AI 计算难题｜ HAMi 进入 CNCF Sandbox

东京首秀｜ DaoCloud 即将亮相 KubeDay Japan 2024

KubeCon Hong Kong｜和 Linus 一起共赴云原生技术盛会

大模型微调搞不定？看这期直播就够了

深度学习时代的资源博弈：Kubernetes 调度的创新实践

GOGC 2024 ｜集结号已吹响，邀您共赴开源嘉年华

Kubernetes 1.31 圆梦之路: 十年了, OCI 镜像借着 AI 的风终于加入 Volume 的大家庭 ~

KubeCon 预告｜AI 与云原生的交响，共赴香港技术盛会！

七夕 | 宇宙级的浪漫——卧看牵牛织女星

模型推理如何优化？AI 进阶指南第四节课来教你

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉