K8s容器的定向调度与亲和性

文摘 2024-10-18 09:26 中国香港

k8s集群节点CPU使用率高！内存OOM！宕机！导致大量微服务瘫痪怎么办？可能是调度策略没做好，看完这篇文章掌握提高集群稳定性的管理诀窍。

Kubernetes（k8s）是一个开源的容器编排工具，而容器调度是其非常重要的特性，所谓的调度是指将容器（Pod）分配到集群中的节点上运行的过程。为了更好地控制容器的调度，k8s提供了多种调度策略，其中包括定向调度和亲和性策略。在实际的k8s集群维护场景中，合理使用这些调度策略，对集群的稳定性至关重要。本文将通过分享实践案例，帮助你更好地理解和使用这些功能。

定向调度

定向调度通过nodeName和nodeSelector来声明Pod期望调度的目标节点，这种方式的调度是强制性的，不管节点是否存在，是否宕机，都会往声明的节点上去调度，当目标不存在或不可调度时，将会导致Pod无法运行。

nodeName
强制将Pod调度到指定主机名的节点上，这种方式简单粗暴，没有经过scheduler的调度逻辑。

示例 : 我有一个机器学习的应用，需要调度到集群中唯一的GPU节点上，可以这样做。

apiVersion: apps/v1kind: Deploymentmetadata:  name: athenaspec:  replicas: 1  selector:    matchLabels:      app: athena  template:    metadata:      labels:        app: athena    spec:      containers:      - name: athena        image: athena:2.0.0      nodeName: k8s-node-gpu-1

nodeSelector
强制将Pod调度到指定标签的节点上，这种方式通过label-selector机制实现，在Pod创建之前，会由schedule的MatchNodeSelector调度策略根据label匹配节点，再将Pod调度到目标节点上。

示例 : 我有一个机器学习的应用，需要调度到集群中带有hardware-type: gpu标签的节点上，带有该标签的节点有多台，可以这样做。

apiVersion: apps/v1kind: Deploymentmetadata:  name: athenaspec:  replicas: 1  selector:    matchLabels:      app: athena  template:    metadata:      labels:        app: athena    spec:      containers:      - name: athena        image: athena:2.0.0      nodeSelector:        hardware-type: gpu        # gpu-type: T4 (允许有多label匹配)

定向调度比较简单粗暴，那有没有相对温和、灵活点的调度策略呢？当然是有的，接下来让我们来看看亲和性调度策略。

亲和性调度

亲和性调度（Affinity）在定向调度的基础上，通过灵活的节点亲和性（nodeAffinity）、Pod亲和性（podAffinity）、Pod反亲和性（podAntiAffinity）规则，满足更多样化的调度场景。

nodeAffinity
比nodeSelector更加强大和灵活，可以让Pod满足更多样化的条件调度到指定的节点上，支持“软性调度
（PreferredDuringSchedulingIgnoreDuringExecution）”和“硬性调度
（RequiredDuringSchedulingIgnoredDuringExecution）”，硬性调度比较强硬，不满足条件则调度不成功，而软性调度相对温和，属于倾向性优先选择满足条件的节点，并不强求。让我们来看两个示例，加深理解：

示例1：我有一个机器学习的应用，必须调度到集群中带有hardware-type: gpu，

且区域kubernetes.io/zone的值为cn-shenzhen-1或cn-shenzhen-2标签的节点上。我们可以通过亲和性的硬性调度实现，具体如下：

apiVersion: apps/v1kind: Deploymentmetadata:  name: athenaspec:  replicas: 2  selector:    matchLabels:      app: athena  template:    metadata:      labels:        app: athena    spec:      containers:      - name: athena        image: athena:2.0.0      affinity:        nodeAffinity:          # 硬性调度，节点必须满足所有条件才可以调度          requiredDuringSchedulingIgnoredDuringExecution:            nodeSelectorTerms:            - matchExpressions:              - key: hardware-type                # 运算                operator: In                values:                - gpu              - key: kubernetes.io/zone                operator: In                values:                - cn-shenzhen-1                - cn-shenzhen-2

operator支持的运算符还有：

Exists(key必须存在，value可以是任意的)DoesNotExist（key不能存在）In（key的value必须在提供的值列表中）NotIn（key的value不能在提供的值列表中）Gt（key的value必须大于提供的值，仅支持整数）Lt（key的value必须小于提供的值）

示例2：我有一个机器学习的应用，倾向于调度到集群中带有hardware-type: gpu，

且区域kubernetes.io/zone的值为cn-shenzhen-1或cn-shenzhen-2标签的节点上。我们可以通过亲和性的软性调度实现，如果不能满足条件，他也会尝试去调度其他节点，具体如下：

apiVersion: apps/v1kind: Deploymentmetadata:  name: athenaspec:  replicas: 2  selector:    matchLabels:      app: athena  template:    metadata:      labels:        app: athena    spec:      containers:      - name: athena        image: athena:2.0.0      affinity:        nodeAffinity:          preferredDuringSchedulingIgnoredDuringExecution:          # 满足条件的节点会加分，值支持（1-100），分数越高，优先级越高          # 不加的话，满足条件的节点权重也为0，不能保证其优先级。          - weight: 1            preference:              matchExpressions:              - key: hardware-type                # 运算，支持的运算符跟硬性调度一致                operator: In                values:                - gpu              - key: kubernetes.io/zone                operator: In                values:                - cn-shenzhen-1                - cn-shenzhen-2

Pod亲和性（podAffinity）和反亲和性（podAntiAffinity）

顾名思义，Pod亲和性用来指定哪些Pod应该跟哪些Pod更加靠近，而Pod反亲和性通常用来打散Pod，让某些Pod不在同一节点或区域，同样也有“软性调度（PreferredDuringSchedulingIgnoreDuringExecution）”和“硬性调度

（RequiredDuringSchedulingIgnoredDuringExecution）”，接下来我将用一个示例，加深对Pod亲和性和反亲和性的理解：

示例：有两个微服务zeus和athena相互调用比较频繁，他们都有两个副本，出于提升效率和可用性考虑，我想将zeus和athena的副本打散到两个不同的可用区（zone），并让他们的副本必须部署到同一个节点上，假设zeus已经部署好了，那athena的部署可以这样实现。

apiVersion: apps/v1kind: Deploymentmetadata:  name: athenaspec:  replicas: 2  selector:    matchLabels:      app: athena  template:    metadata:      labels:        app: athena    spec:      containers:      - name: athena        image: athena:2.0.0      affinity:        # Pod亲和性        podAffinity:          requiredDuringSchedulingIgnoredDuringExecution:          - labelSelector:              matchLabels:                app: zeus            # 拓扑键，表示在相同主机上调度            topologyKey: kubernetes.io/hostname        # Pod反亲和性        podAntiAffinity:          requiredDuringSchedulingIgnoredDuringExecution:          - labelSelector:              matchLabels:                app: athena            # 拓扑键，表示在不同区域上调度            topologyKey: topology.kubernetes.io/zone

结语

在文章开头我们提到如何借助调度策略来提升k8s集群的可用性，相信看完全文的小伙伴都可以悟出其中奥妙，我们可以将高计算、高内存的Pod调度到指定的节点，避免影响关键服务运行，另外为了保障微服务的高可用性，我们通常会打散副本到不同的节点或者可用区等等，本期就介绍到这里，谢谢！

欢迎订阅我的公众号「SRE运维手记」，加交流群进公众号菜单栏

文章转载自SRE运维手记。点击这里阅读原文了解更多。

CNCF概况（幻灯片）

扫描二维码联系我们！

CNCF (Cloud Native Computing Foundation)成立于2015年12月，隶属于Linux Foundation，是非营利性组织。

CNCF（云原生计算基金会）致力于培育和维护一个厂商中立的开源生态系统，来推广云原生技术。我们通过将最前沿的模式民主化，让这些创新为大众所用。请关注CNCF微信公众号。

http://mp.weixin.qq.com/s?__biz=MzI5ODk5ODI4Nw==&mid=2247549501&idx=3&sn=2380c00a7edb1bd71ef395f89e27b081

CNCF

云原生计算基金会（CNCF）致力于培育和维护一个厂商中立的开源生态系统，来推广云原生技术。我们通过将最前沿的模式民主化，让这些创新为大众所用。

最新文章

Kubernetes 迎来十周年

Kyverno-Envoy-Plugin｜基于 Kyverno 策略的 Envoy 授权插件

浅谈TiKV集群运维问题排查与修复——磁盘空间占用问题

Knative 1.16 版本发布

Argo Workflows 发布 3.6，一文解析关键新特性

TiKV Raft Store 内存管理原理与实现

宣布 Vitess 21 发布

开源 vGPU 方案 HAMi: Core&Memory 隔离测试

是否应在K8s上运行Redis？快手这样做！

CNCF Weekly 24-44

KCD明年日程出炉，大陆有两场，一起来看看吧

使用 SPDX 3.0 实施 AI 物料清单（AI BOM）

OpenCost 晋升至 CNCF 孵化阶段

CubeFS v3.4.0 发布

手把手 K8s v1.31 新特性：ImageVolume，简化制品分发

使用 Kanister 在 K8s 上进行向量数据库的备份与恢复

Sermant正式成为CNCF官方项目

加入基础设施生命周期工作组

K3K：K8s 套娃式集群管理，轻松运行多个 K3s

我在 OpenBao 作为学员的第一周！

Flatcar 将容器 Linux 引入 CNCF 孵化器

CubeFS 后台存储任务调度设计与实现

下午直播 | openGemini兼容普罗生态，云原生可观测性新势力！

超越BYOC：wasmCloud如何提供无处不在的平台

OpenTelemetry: Profiling 进展

在昇腾 910B 上部署轻量级和跨平台大模型 Agent

Linkerd 朝着可持续的服务网格迈进

K8s 负载感知调度实践（koordinator & crane）

CNCF Weekly 24-43

Kubestronaut的起源故事

1024程序员节 | LFOSSA限时特惠来袭

openGemini 10月例会议题抢先看，诚邀您参与！

案例研究：洛克希德·马丁｜1个收集器导出到不同平台

K8s 1.31：针对 Job 的 Pod 失效策略进阶至 GA

OpenBao 的首个路线图和社区方向

在云中扩展：Istio Ambient 与 Cilium

使用 Koordinator 实现资源负载感知(重)调度

2024年度 | openGemini开源之星评选结果公布！

开放协作将 AI Gateway 功能带入 Envoy 社区

更多社区领导力：Istio 技术监督委员会定期选举

Meshery 不(止)是服务网格管理器

KubeCon China 2024 透明度报告：照亮通往 AI 及更远的道路

跟上云原生和 K8s 安全，更新的 CKS 认证来了

CubeFS 大视野｜万亿级元数据路由设计与优化

openGemini社区新数据写入协议开发小组，闪亮登场！

如何限制容器的CPU使用量

CNCF Weekly 24-42

使用 Istio 和 OPA 在平台中实施七层策略

使用 Python + OTel 观测你的特斯拉！

K8s容器的定向调度与亲和性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉