标准化与多样性齐头并进的 KubeCon 见闻

文摘 2024-11-20 10:14 中国香港

本文主要总结了我在 KubeCon 中主要关注到的 Platform Engineering 和 SDLC（Software Development Lifecycle）相关的一些议题。

The Experience of ChillyRoom Developing & Managing SessionBased Game on K8s with OpenKrusieGame - Qiuyang Liu & Xinhao Liu

在这个议题中，来自凉屋游戏（Chillyroom）的 Xinhao Liu 分享了他们基于 OpenKrusieGame（OKG）在 Kubernetes 上开发和部署游戏服务器的经验。我一直比较关注 OpenKrusie，也听过 OKG，但是一直不太理解这个项目的场景。

这个充满细节的分享帮助我理解了游戏开发里一些独特的云原生诉求，例如：

需要根据业务状态来扩缩容——不止是副本数，也包括结束特定的 Pod。比如房间没有玩家时自动 Kill Pod；
连接是有状态的，需要始终和一开始建立连接的 Pod 通信；
平滑更新，已在服务器的玩家不受影响，下一轮匹配开始才是新版的服务器。

这些游戏领域特定的场景正是 OKG 这个项目创建的初衷。它基于 OpenKrusie 提供的支持原地升级（InPlace Update）的增强的 Workload，提供了 GameServerSet 和 GameServer 两个 CRD，方便游戏行业的开发者更容易在 K8s 上部署管理游戏服务器。

听完这个议题的分享感叹 K8s 作为基础设施所能提供的扩展能力之强，还有整个云原生行业的百花齐放，在每个垂直领域都有人在深耕。

更多细节参考：https://sched.co/1eYb5

Developing a Standard Multi-Cluster Inventory API | 开发标准的多集群Inventory API - Zhiying Lin & Chen Yu, Hongcai Ren, Di Xu, Jian Qiu

这个圆桌会议邀请了几位既是多云管理项目（例如 Karmada、OCM、Clusternet、Fleet）的 Maintainer 也是 cluster-inventory-api 的贡献者谈谈多云标准 API 的设计。这也是我一直觉得社区做得不好的地方，尽管多云项目如此之多，支持跨集群管理的项目也很多，例如 ArgoCD、Clusterpedia、Kueue，但是每个项目都是有自己的实现。比如 ArgoCD 使用 Secret 来存储集群的 Credential，Clusterpedia 有自己的 CRD。这造成了不同项目之间多级群信息的割裂，如果同时使用多个，往往需要在不同类型的资源间迁移，以适配不同项目。

讨论者也提到除了多云应用，多云管理项目之间迁移也有类似问题。Di Xu 认为在 k8s 的理念中，每个项目是 building block 而不应是一个完全自洽的产品。加上曾经的标准 KubeFed 已死，现在多集群管理项目百花齐放的现状更需要一个更加标准、通用的 API 管理多集群。

讨论者也聊到了 Cluster Inventory API 在过去一年中进展缓慢，主要是作为上游的 API 影响太大，为了不产生 break change 所以做的决策都很谨慎，因此目前提供的能力也比较有限，甚至还不支持 Credential（下一步就会开始讨论），上面提到的几个多云管理项目的 use case 都无法支持。

Hongcai Ren 也聊到像 Karmada 这样的多集群管理项目，在日后很长一段时间都会保持原来的 API 和 Cluster Inventory API 同时存在，开始的时候，Cluster Inventory API 主要是由 Karmada 创建，方便其他多级群应用直接集成和使用，在将来会渐渐以一种用户无感知的方式向该 API 迁移。

我下去又看了下相关的设计文档，目前在不同社区都有推进，但是包括上面提到的几个多云管理项目中都还没有实现。这肯定是一个好的能解决目前痛点的方向，但可能还需要更多时间，我也将继续关注这个项目。

Detecting and Overcoming GPU Failures During ML Training | 在 ML 训练过程中检测和克服 GPU 故障 - Ganeshkumar Ashokavardhanan & Sarah Belghiti

这个议题中讨论机器学习训练中经常碰到的 GPU 故障的问题。以 Llama 3 为例，他们在 54 天的训练过程中由于 GPU 问题导致的训练中断达到 58.7%。

除了 GPU 故障导致的 Pod 直接退出，还有 GPU hang 住和速度降低（据 Speaker 说她们曾经观察到训练速度慢了 6 倍），由于 GPU 本身就很昂贵，这带来的损失也是巨大。他们接下来的分享也从应用和基础设施提供商（node）两个层面来展开。

Sarah 主要是从应用，包括：

开始训练之前，通过 initContainer 来检测诸如 GPU 带宽、NCCL tests 的问题；
运行过程中，检测 Node 和 Workload 两方面的指标来检测 GPU 故障和工作负载是否 Hang 住。一旦发现，则可以基于 CUDA 来实现保存 Checkpoint、迁移，从 Checkpoint 恢复；Ganeshkumar 从基础设施提供商的视角提供了一些办法，包括：
使用 NPD（Node Problem Detector）来巡检，这里面会有一些不同硬件预期的指标不同的问题，好在社区已经有些开源实现了；
一旦检测问题后，就可以使用 Remedy Controller（修复控制器）通过打污点、重启等方式来修复/避开硬件故障。

两位分享者带来的议题非常系统，也很有启发性，整个方案都是基于开源的实现，特别是应用层的思路与我的同事他们的方案不谋而合，他们也在这次 KubeCon 中分享，并且已经有了一个完整的开源项目，更多的细节可以参考：kccncossaidevchn2024.sched.com/event/1eYY2

Rollout Patterns: Smoothly Migrating and Rolling Out Your Microservices | 部署模式：平稳迁移和部署您的微服务

这是我第一次以 Speaker 的身份参加 KubeCon，带去的议题是围绕微服务的灰度发布中几种场景而展开，包括：

一次发布一个服务；
多个服务一起发布，但是接口向后兼容；
多个服务一起发布，但是接口不兼容。

这是一个充满技巧性的非常实用的分享，基于 ArgoCD 和 Argo Rollout 而设计，也是我们在客户侧落地过程中展开的思考和总结。希望能为听众带去帮助。

一些感想

总的来说，今年的 KubeCon China 非常热闹，分享的议题质量也很高，亲身参与下来体验很好。但是我也发现了一些趋势：

在 KubeCon EU 和 NA 如火如荼的 ArgoCD 在国内却没有任何议题，Backstage 及平台工程也没有什么热度。我觉得有 2 个可能性：一是这些理念在国内没有什么用户 buy in，二是这次来分享的终端用户本身就少，大部分还是项目的 Maintainer 或者云厂商，所以 use case 的议题偏少；
很多分享的议题不再是特别宏大的叙事和愿景，而是基于一个小的点衍生出来的非常丰富、充满细节的思考和经验，我觉得这样的分享非常有意思也收获满满，就像 Linus 说的 “I don't know cloud, I know kernel”，每个人都有在自己擅长的领域持续地思考和贡献，为这些分享者点赞。

本文作者

肖旸

「DaoCloud 道客」云原生开发工程师

热门推荐

访问以下网址，或点击文末【阅读原文】立即体验

d.run，让算力更自由：

https://d.run/

DaoCloud 公司简介

「DaoCloud 道客」，云原生领域的创新领导者，成立于 2014 年底，凭借其自主知识产权的核心技术，成功打造了新一代云原生操作系统 DaoCloud Enterprise 5.0，致力于推动企业数字化、智能化转型。依托在云原生领域的技术积淀与持续创新，「DaoCloud 道客」推出 d.run 算力一体化解决方案，作为专业的技术提供商参与并推动多个区域算力枢纽中心的建设，为各行各业提供稳定、高效的算力支持。成立迄今，公司已在金融科技、先进制造、智能汽车、零售网点、城市大脑等多个领域深耕，标杆客户包括交通银行、浦发银行、上汽集团、格力集团、京东方、屈臣氏集团等。公司总部位于上海，并在新加坡、北京、深圳、成都、南京、武汉等地设立多家分公司及合资公司，总员工人数超过 300 人，是国家级“专精特新”小巨人企业、上海市高新技术企业，并入选了科创板培育企业名单。

网址：www.daocloud.io

邮件：info@daocloud.io

电话：400 002 6898

文章转载自道客船长。点击这里阅读原文了解更多。

CNCF概况（幻灯片）

扫描二维码联系我们！

CNCF (Cloud Native Computing Foundation)成立于2015年12月，隶属于Linux Foundation，是非营利性组织。

CNCF（云原生计算基金会）致力于培育和维护一个厂商中立的开源生态系统，来推广云原生技术。我们通过将最前沿的模式民主化，让这些创新为大众所用。请关注CNCF微信公众号。

http://mp.weixin.qq.com/s?__biz=MzI5ODk5ODI4Nw==&mid=2247550234&idx=5&sn=5ff614cfc8c7dc545a9fa9149a8ad186

CNCF

云原生计算基金会（CNCF）致力于培育和维护一个厂商中立的开源生态系统，来推广云原生技术。我们通过将最前沿的模式民主化，让这些创新为大众所用。

最新文章

宣布云原生英雄挑战

狙击 K8s 用户的“流氓”专利：分布式软件定义网络 (dSDN)

定居 - Score 在 CNCF 生态系统中的旅程

是时候踏上Dockerless之路了

标准化与多样性齐头并进的 KubeCon 见闻

openGemini社区多副本性能优化小组成员公示

Argo内部：一部关于简化Kubernetes部署的自动化工具的新纪录片

KubeEdge 如何构建适应边缘网络的安全可信隧道

推出集成的 Backstage 和 Headlamp 体验

K8s 自定义调度器 Part1：通过 Scheduler Extender 实现自定义调度逻辑

openGemini社区新晋Committer徐业：开源如萤光聚，最终汇聚成一束束耀眼的光芒

KCL 开源社区最新动态 | 更流畅的 IDE 与工具链体验！

【公告】2025年认证考试价格即将调整

下午直播｜Fluid 引入Openkruise进行缓存Runtime扩缩容的实践

Cilium 项目旅程报告概览

eBPF 威胁模型和验证器代码审计

开启 OpenSearch 的未来

帮助我们测试 OpenTofu 1.9.0-alpha2

CNCF Weekly 24-46

CNCF 欢迎 wasmCloud 升级到孵化阶段

Keycloak 26：跨组织的可扩展认证

宣布 KubeVirt v1.4 发布

Phippy 和朋友们的新故事：Izzy 拯救了生日

宣布云原生英雄挑战的开幕赛

CNCF 宣布 cert-manager 毕业

软件供应链安全最佳实践 v2 出炉

用 Jenkins X 构建 CI/CD（LFS268）课程现已更新升级

CNCF 宣布 Dapr 毕业

从 ClickOps 到 GitOps：全新的 Flux UI

探索 OTel Profiling 进展：eBPF 代理快速上手

Minder成为OpenSSF沙箱项目｜简化开源安全工具集成与使用

快速、安全且简单：Istio 的 Ambient 模式在 v1.24 中正式推出

Kubewarden 1.18 发布，实现 SLSA 级别 3

来 KubeCon NA 2024 和 WasmEdge 交流吧

Karpenter v1.0.0 对 K8s 自动伸缩的意义

关于日本的 Kubernetes 上游培训的特别报道

KubeCon 北美倒计时｜在“养老圣地”畅谈云原生的开源未来

CNCF Weekly 24-45

KubeEdge 1.19.0版本发布！更完备的节点设备能力，全新的Dashboard体验

Karpor v0.5.0 发布 - 更加安全、易用的 K8s 数据面，感谢社区！

Envoy Gateway v 1.2.0 版本发布：新功能与改进介绍

拥抱 OTel：阿里云 Java Agent 演进实践

与 Perses 深度集成，重构 GreptimeCloud 可视化工作台

HAMi vGPU 方案原理分析 Part1：hami-device-plugin-nvidia 实现

故障排查之单点登录跳转失败(K8s Ingress 相关)

5 分钟上手 K8s：精简实用的 kubectl 命令速查宝典！

OpenTelemetry 正在扩展到 CI/CD 可观测性

CubeFS 核心能力剖析 | 自动化运维

【通知】CKA 认证考试计划于 2025 年 1 月 15 日后进行升级

Kubernetes 迎来十周年

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉