K8s 1.31：针对 Job 的 Pod 失效策略进阶至 GA

文摘 2024-10-24 09:28 中国香港

作者：Michał Woźniak^[1] (Google),Shannon Kularathna^[2] (Google)

译者：Michael Yao^[3] (DaoCloud)

这篇博文阐述在 Kubernetes 1.31 中进阶至 Stable 的 Pod 失效策略，还介绍如何在你的 Job 中使用此策略。

关于 Pod 失效策略

当你在 Kubernetes 上运行工作负载时，Pod 可能因各种原因而失效。理想情况下，像 Job 这样的工作负载应该能够忽略瞬时的、可重试的失效，并继续运行直到完成。

要允许这些瞬时的失效，Kubernetes Job 需包含 backoffLimit 字段，此字段允许你指定在 Job 执行期间你愿意容忍的 Pod 失效次数。然而，如果你为 backoffLimit 字段设置了一个较大的值，并完全依赖这个字段，你可能会发现，由于在满足 backoffLimit 条件之前 Pod 重启次数太多，导致运营成本发生不必要的增加。

在运行大规模的、包含跨数千节点且长时间运行的 Pod 的 Job 时，这个问题尤其严重。

Pod 失效策略扩展了回退限制机制，帮助你通过以下方式降低成本：

让你在出现不可重试的 Pod 失效时控制 Job 失败。
允许你忽略可重试的错误，而不增加 backoffLimit 字段。

例如，通过忽略由节点体面关闭^[4]引起的 Pod 失效，你可以使用 Pod 失效策略在更实惠的临时机器上运行你的工作负载。

此策略允许你基于失效 Pod 中的容器退出码或 Pod 状况来区分可重试和不可重试的 Pod 失效。

它是如何工作的

你在 Job 规约中指定的 Pod 失效策略是一个规则的列表。

对于每个规则，你基于以下属性之一来定义匹配条件：

容器退出码：onExitCodes 属性。
Pod 状况：onPodConditions 属性。

此外，对于每个规则，你要指定在 Pod 与此规则匹配时应采取的动作，可选动作为以下之一：

Ignore：不将失效计入 backoffLimit 或 backoffLimitPerIndex。
FailJob：让整个 Job 失败并终止所有运行的 Pod。
FailIndex：与失效 Pod 对应的索引失效。
此动作与逐索引回退限制^[5]特性一起使用。
Count：将失效计入 backoffLimit 或 backoffLimitPerIndex。这是默认行为。

当在运行的 Job 中发生 Pod 失效时，Kubernetes 按所给的顺序将失效 Pod 的状态与 Pod 失效策略规则的列表进行匹配，并根据匹配的第一个规则采取相应的动作。

请注意，在指定 Pod 失效策略时，你还必须在 Job 的 Pod 模板中设置 restartPolicy: Never。此字段可以防止在对 Pod 失效计数时在 kubelet 和 Job 控制器之间出现竞争条件。

Kubernetes 发起的 Pod 干扰

为了允许将 Pod 失效策略规则与由 Kubernetes 引发的干扰所导致的失效进行匹配，此特性引入了 DisruptionTarget Pod 状况。

Kubernetes 会将此状况添加到因可重试的干扰场景^[6]而失效的所有 Pod，无论其是否由 Job 控制器管理。其中 DisruptionTarget 状况包含与这些干扰场景对应的以下原因之一：

PreemptionByKubeScheduler：由 kube-scheduler抢占^[7]以接纳更高优先级的新 Pod。
DeletionByTaintManager - Pod 因其不容忍的 NoExecute污点^[8]而被 kube-controller-manager 删除。
EvictionByEvictionAPI - Pod 因为 API 发起的驱逐^[9]而被删除。
DeletionByPodGC - Pod 被绑定到一个不再存在的节点，并将通过Pod 垃圾收集^[10]而被删除。
TerminationByKubelet - Pod 因节点体面关闭^[11]、节点压力驱逐^[12]或被系统关键 Pod^[13]抢占

在所有其他干扰场景中，例如因超过Pod 容器限制^[14]而驱逐， Pod 不会收到 DisruptionTarget 状况，因为干扰可能是由 Pod 引起的，并且在重试时会再次发生干扰。

示例

下面的 Pod 失效策略片段演示了一种用法：

podFailurePolicy:
  rules:
  - action: Ignore
    onPodConditions:
    - type: DisruptionTarget
  - action: FailJob
    onPodConditions:
    - type: ConfigIssue
  - action: FailJob
    onExitCodes:
      operator: In
      values: [ 42 ]

在这个例子中，Pod 失效策略执行以下操作：

忽略任何具有内置 DisruptionTarget 状况的失效 Pod。这些 Pod 不计入 Job 回退限制。
如果任何失效的 Pod 具有用户自定义的、由自定义控制器或 Webhook 添加的 ConfigIssue状况，则让 Job 失败。
如果任何容器以退出码 42 退出，则让 Job 失败。
将所有其他 Pod 失效计入默认的 backoffLimit（在合适的情况下，计入 backoffLimitPerIndex）。

进一步了解

有关使用 Pod 失效策略的实践指南，参见使用 Pod 失效策略处理可重试和不可重试的 Pod 失效^[15]
阅读文档：Pod 失效策略^[16]和逐索引回退限制^[17]
阅读文档：Pod 干扰状况^[18]
阅读 KEP：Pod 失效策略^[19]

参与其中

这项工作由 Batch Working Group（批处理工作组）^[24] 发起，与 SIG Apps^[25]、SIG Node^[26]和 SIG Scheduling^[27]社区密切合作。

如果你有兴趣处理这个领域中的新特性，建议你订阅我们的Slack^[28] 频道，并参加定期的社区会议。

感谢

我想感谢在这些年里参与过这个项目的每个人。这是一段旅程，也是一个社区共同努力的见证！以下名单是我尽力记住并对此特性产生过影响的人。感谢大家！

Aldo Culquicondor^[29] 在整个过程中提供指导和审查
Jordan Liggitt^[30] 审查 KEP 和 API
David Eads^[31] 审查 API
Maciej Szulik^[32] 从 SIG Apps 角度审查 KEP
Clayton Coleman^[33] 提供指导和 SIG Node 审查
Sergey Kanzhelev^[34] 从 SIG Node 角度审查 KEP
Dawn Chen^[35] 从 SIG Node 角度审查 KEP
Daniel Smith^[36] 从 SIG API Machinery 角度进行审查
Antoine Pelisse^[37] 从 SIG API Machinery 角度进行审查
John Belamaric^[38] 审查 PRR
Filip Křepinský^[39] 从 SIG Apps 角度进行全面审查并修复 Bug
David Porter^[40] 从 SIG Node 角度进行全面审查
Jensen Lo^[41] 进行早期需求讨论、测试和报告问题
Daniel Vega-Myhre^[42] 推进 JobSet 集成并报告问题
Abdullah Gharaibeh^[43] 进行早期设计讨论和指导
Antonio Ojea^[44] 审查测试
Yuki Iwai^[45] 审查并协调相关 Job 特性的实现
Kevin Hannon^[46] 审查并协调相关 Job 特性的实现
Tim Bannister^[47] 审查文档
Shannon Kularathna^[48] 审查文档
Paola Cortés^[49] 审查文档

参考资料

[1]

Michał Woźniak: https://github.com/mimowo

[2]

Shannon Kularathna: https://github.com/shannonxtreme

[3]

Michael Yao: https://github.com/windsonsea

[4]

节点体面关闭: https://kubernetes.io/zh-cn/docs/concepts/cluster-administration/node-shutdown/#graceful-node-shutdown

[5]

逐索引回退限制: https://kubernetes.io/zh-cn/docs/concepts/workloads/controllers/job/#backoff-limit-per-index

[6]

干扰场景: https://kubernetes.io/zh-cn/docs/concepts/workloads/pods/disruptions/#pod-disruption-conditions

[7]

抢占: https://kubernetes.io/zh-cn/docs/concepts/scheduling-eviction/pod-priority-preemption

[8]

污点: https://kubernetes.io/zh-cn/docs/concepts/scheduling-eviction/taint-and-toleration/

[9]

API 发起的驱逐: https://kubernetes.io/zh-cn/docs/concepts/scheduling-eviction/api-eviction/

[10]

Pod 垃圾收集: https://kubernetes.io/zh-cn/docs/concepts/workloads/pods/pod-lifecycle/#pod-garbage-collection

[11]

节点体面关闭: https://kubernetes.io/zh-cn/docs/concepts/cluster-administration/node-shutdown/#graceful-node-shutdown

[12]

节点压力驱逐: https://kubernetes.io/zh-cn/docs/concepts/scheduling-eviction/node-pressure-eviction/

[13]

系统关键 Pod: https://kubernetes.io/zh-cn/docs/tasks/administer-cluster/guaranteed-scheduling-critical-addon-pods/

[14]

Pod 容器限制: https://kubernetes.io/zh-cn/docs/concepts/configuration/manage-resources-containers/

[15]

使用 Pod 失效策略处理可重试和不可重试的 Pod 失效: https://kubernetes.io/zh-cn/docs/tasks/job/pod-failure-policy/

[16]

Pod 失效策略: https://kubernetes.io/zh-cn/docs/concepts/workloads/controllers/job/#pod-failure-policy

[17]

逐索引回退限制: https://kubernetes.io/zh-cn/docs/concepts/workloads/controllers/job/#backoff-limit-per-index

[18]

Pod 干扰状况: https://kubernetes.io/zh-cn/docs/concepts/workloads/pods/disruptions/#pod-disruption-conditions

[19]

Pod 失效策略: https://github.com/kubernetes/enhancements/tree/master/keps/sig-apps/3329-retriable-and-non-retriable-failures

[20]

可配置的失效策略 API: https://github.com/kubernetes-sigs/jobset/issues/262

[21]

扩展 Pod 失效策略以添加更细粒度的失效原因: https://github.com/kubernetes/enhancements/issues/4443

[22]

Kubeflow Training v2: https://github.com/kubeflow/training-operator/pull/2171

[23]

受干扰的 Pod 应从端点中移除: https://docs.google.com/document/d/1t25jgO_-LRHhjRXf4KJ5xY_t8BZYdapv7MDAxVGY6R8

[24]

Batch Working Group（批处理工作组）: https://github.com/kubernetes/community/tree/master/wg-batch

[25]

SIG Apps: https://github.com/kubernetes/community/tree/master/sig-apps

[26]

SIG Node: https://github.com/kubernetes/community/tree/master/sig-node

[27]

SIG Scheduling: https://github.com/kubernetes/community/tree/master/sig-scheduling

[28]

Slack: https://kubernetes.slack.com/messages/wg-batch

[29]

Aldo Culquicondor: https://github.com/alculquicondor/

[30]

Jordan Liggitt: https://github.com/liggitt

[31]

David Eads: https://github.com/deads2k

[32]

Maciej Szulik: https://github.com/soltysh

[33]

Clayton Coleman: https://github.com/smarterclayton

[34]

Sergey Kanzhelev: https://github.com/SergeyKanzhelev

[35]

Dawn Chen: https://github.com/dchen1107

[36]

Daniel Smith: https://github.com/lavalamp

[37]

Antoine Pelisse: https://github.com/apelisse

[38]

John Belamaric: https://github.com/johnbelamaric

[39]

Filip Křepinský: https://github.com/atiratree

[40]

David Porter: https://github.com/bobbypage

[41]

Jensen Lo: https://github.com/jensentanlo

[42]

Daniel Vega-Myhre: https://github.com/danielvegamyhre

[43]

Abdullah Gharaibeh: https://github.com/ahg-g

[44]

Antonio Ojea: https://github.com/aojea

[45]

Yuki Iwai: https://github.com/tenzen-y

[46]

Kevin Hannon: https://github.com/kannon92

[47]

Tim Bannister: https://github.com/sftim

[48]

Shannon Kularathna: https://github.com/shannonxtreme

[49]

Paola Cortés: https://github.com/cortespao

点击【阅读原文】阅读网站原文。

CNCF概况（幻灯片）

扫描二维码联系我们！

CNCF (Cloud Native Computing Foundation)成立于2015年12月，隶属于Linux Foundation，是非营利性组织。

CNCF（云原生计算基金会）致力于培育和维护一个厂商中立的开源生态系统，来推广云原生技术。我们通过将最前沿的模式民主化，让这些创新为大众所用。请关注CNCF微信公众号。

http://mp.weixin.qq.com/s?__biz=MzI5ODk5ODI4Nw==&mid=2247549611&idx=2&sn=ae0395040af507cc3629a6f4ab908867

CNCF

云原生计算基金会（CNCF）致力于培育和维护一个厂商中立的开源生态系统，来推广云原生技术。我们通过将最前沿的模式民主化，让这些创新为大众所用。

最新文章

Kubernetes 迎来十周年

Kyverno-Envoy-Plugin｜基于 Kyverno 策略的 Envoy 授权插件

浅谈TiKV集群运维问题排查与修复——磁盘空间占用问题

Knative 1.16 版本发布

Argo Workflows 发布 3.6，一文解析关键新特性

TiKV Raft Store 内存管理原理与实现

宣布 Vitess 21 发布

开源 vGPU 方案 HAMi: Core&Memory 隔离测试

是否应在K8s上运行Redis？快手这样做！

CNCF Weekly 24-44

KCD明年日程出炉，大陆有两场，一起来看看吧

使用 SPDX 3.0 实施 AI 物料清单（AI BOM）

OpenCost 晋升至 CNCF 孵化阶段

CubeFS v3.4.0 发布

手把手 K8s v1.31 新特性：ImageVolume，简化制品分发

使用 Kanister 在 K8s 上进行向量数据库的备份与恢复

Sermant正式成为CNCF官方项目

加入基础设施生命周期工作组

K3K：K8s 套娃式集群管理，轻松运行多个 K3s

我在 OpenBao 作为学员的第一周！

Flatcar 将容器 Linux 引入 CNCF 孵化器

CubeFS 后台存储任务调度设计与实现

下午直播 | openGemini兼容普罗生态，云原生可观测性新势力！

超越BYOC：wasmCloud如何提供无处不在的平台

OpenTelemetry: Profiling 进展

在昇腾 910B 上部署轻量级和跨平台大模型 Agent

Linkerd 朝着可持续的服务网格迈进

K8s 负载感知调度实践（koordinator & crane）

CNCF Weekly 24-43

Kubestronaut的起源故事

1024程序员节 | LFOSSA限时特惠来袭

openGemini 10月例会议题抢先看，诚邀您参与！

案例研究：洛克希德·马丁｜1个收集器导出到不同平台

K8s 1.31：针对 Job 的 Pod 失效策略进阶至 GA

OpenBao 的首个路线图和社区方向

在云中扩展：Istio Ambient 与 Cilium

使用 Koordinator 实现资源负载感知(重)调度

2024年度 | openGemini开源之星评选结果公布！

开放协作将 AI Gateway 功能带入 Envoy 社区

更多社区领导力：Istio 技术监督委员会定期选举

Meshery 不(止)是服务网格管理器

KubeCon China 2024 透明度报告：照亮通往 AI 及更远的道路

跟上云原生和 K8s 安全，更新的 CKS 认证来了

CubeFS 大视野｜万亿级元数据路由设计与优化

openGemini社区新数据写入协议开发小组，闪亮登场！

如何限制容器的CPU使用量

CNCF Weekly 24-42

使用 Istio 和 OPA 在平台中实施七层策略

使用 Python + OTel 观测你的特斯拉！

K8s容器的定向调度与亲和性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

K8s 1.31：针对 Job 的 Pod 失效策略进阶至 GA

关于 Pod 失效策略

它是如何工作的

Kubernetes 发起的 Pod 干扰

示例

进一步了解

相关工作

参与其中

感谢