K8s 负载感知调度实践（koordinator & crane）

文摘 2024-10-28 09:29 中国香港

上篇 6 张图带你深入了解 kube-scheduler ，已经知道 kube-scheduler 的工作流程，以及如何实现自定义插件。koordinator 和 crane 都是基于Scheduler Framework 进行实现的负载感知插件。本文不再赘述，感兴趣可以看上篇文章。

背景

原生 Kubernetes 调度器仅基于资源的 Request 进行调度，在生产环境资源的真实使用率和申请率往往相差巨大，造成资源浪费的同时也会造成节点的负载不均衡。

开源方案对比 koordinator VS crane

crane-scheduler 架构

前置条件是安装了 Prometheus ，从 Prometheus 中获取数据。

koord-scheduler 架构

监控指标是从 koordlet 中获取， koordlet 是一个 daemonset 类型的插件，负责收集指标，并存储在本地 Prometheus 中

对比

	crane-scheduler	koord-scheduler
指标收集周期	依赖于外置 Prometheus 的收集周期，默认为 30s （颗粒度较粗，不容易收集到突刺）	ds 方式的 koordlet 插件收集，相当于每个 Node 节点都有一个 Prometheus，收集周期默认为 1s
数值类型	avg 、max	avg、p50、p90、p95、p99
在离线混部	不支持	支持在线 Pod(LSE/LSR/LS）和离线 Pod（BE）
hotValue 资源预估	支持	支持
使用率分母	宿主机 Total 资源（不合理）	Node allocatable (合理)

综上，选用 koord-scheduler 。

koordinator 使用实践

新增 UsageAggregatedDuration 为 18h 的时间段

kubectl -n koordinator-system edit  cm slo-controller-config

data:
  colocation-config: |
    {
      "enable": true,
      "metricAggregatePolicy": {
        "durations": [
          "5m",
          "10m",
          "30m",
          "18h"
        ]
      }
    }

修改 koordlet 中 Prometheus 的存储时间

kubectl -n koordinator-system edit ds koordlet

      containers:
      - args:
        - -addr=:9316
        - -cgroup-root-dir=/host-cgroup/
        - --logtostderr=true
        - --tsdb-retention-duration=18h

可以使用promtool 工具进入 Pod 查看数据：./promtool tsdb list /metric-data/

修改阈值触发规则，需要重启 koord-scheduler 才生效。

kubectl -n koordinator-system edit cm  koord-scheduler-config

            aggregated:
              usageThresholds:
                cpu: 55
                memory: 85
              usageAggregationType: "p99"
              scoreAggregationType: "p99"
            estimatedScalingFactors:
              cpu: 85
              memory: 70

kubectl -n koordinator-system rollout restart deployment koord-scheduler

考虑到公有云资源可能有自己的调度实现，所以只改 IDC 机房的调度器，增加 mutatingwebhook 进行拦截修改，有问题可以快速回退。

生效方式：

kubectl label ns ${NsName} koordinator-injection=enabled

回退方式：

kubectl label ns ${NsName} koordinator-injection-

源代码地址：https://github.com/koordinator-sh/koordinator

魔改代码地址：https://github.com/clay-wangzhi/koordinator

魔改代码快速部署：

git clone https://github.com/clay-wangzhi/koordinator
cd koordinator/manifests
kubectl apply -f setup/
kubectl apply -f koordlet/
kubectl apply -f koord-scheduler/
kubectl apply -f koord-manager/

测试

1）找出负载较高的 Node

kubectl top node | sort -nk 3
kubectl get nodemetrics.slo.koordinator.sh

2）给一个负载较高的 Node + 几个负载正常的 Node 打标签

kubectl label node $(NodeName) test=true

3）找到应用所在 Ns，打标，设置 SchedulerName 为 koord-scheduler 是通过 mutatingwebhook 实现的

kubectl label ns ${NsName} koordinator-injection=enabled

4）找一个应用，加上节点亲和性和 Pod 反亲和性，并把副本数设置为和打标的 Node 数相等

spec:
  replicas: 4
  template:
    spec:
      affinity:
        nodeAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            nodeSelectorTerms:
            - matchExpressions:
              - key: test
                operator: In
                values:
                - "true"
        podAntiAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
          - labelSelector:
              matchExpressions:
              - key: appid
                operator: In
                values:
                - $(AppidName)
            topologyKey: kubernetes.io/hostname

5）查看结果，当有一个 Pod 处于 Pending ，且时间 Reson 包涵如下字样，代表设置成功

参考链接：

Crane-Scheduler:真实工作负载感知的调度器设计与实现：https://cloud.tencent.com/developer/article/2296515?areaId=106005
koordinator 负载感知调度：https://koordinator.sh/zh-Hans/docs/user-manuals/load-aware-scheduling

我是 Clay，下期见 👋

欢迎订阅我的公众号「SRE运维进阶之路」或关注我的 Github https://github.com/clay-wangzhi/SreGuide 查看最新文章
欢迎加我微信sre-k8s-ai，与我讨论云原生、稳定性相关内容

文章转载自SRE运维进阶之路。点击这里阅读原文了解更多。

CNCF概况（幻灯片）

扫描二维码联系我们！

CNCF (Cloud Native Computing Foundation)成立于2015年12月，隶属于Linux Foundation，是非营利性组织。

CNCF（云原生计算基金会）致力于培育和维护一个厂商中立的开源生态系统，来推广云原生技术。我们通过将最前沿的模式民主化，让这些创新为大众所用。请关注CNCF微信公众号。

http://mp.weixin.qq.com/s?__biz=MzI5ODk5ODI4Nw==&mid=2247549648&idx=2&sn=9a5935fa56455b4602a19f738011f043

CNCF

云原生计算基金会（CNCF）致力于培育和维护一个厂商中立的开源生态系统，来推广云原生技术。我们通过将最前沿的模式民主化，让这些创新为大众所用。

最新文章

Kubernetes 迎来十周年

Kyverno-Envoy-Plugin｜基于 Kyverno 策略的 Envoy 授权插件

浅谈TiKV集群运维问题排查与修复——磁盘空间占用问题

Knative 1.16 版本发布

Argo Workflows 发布 3.6，一文解析关键新特性

TiKV Raft Store 内存管理原理与实现

宣布 Vitess 21 发布

开源 vGPU 方案 HAMi: Core&Memory 隔离测试

是否应在K8s上运行Redis？快手这样做！

CNCF Weekly 24-44

KCD明年日程出炉，大陆有两场，一起来看看吧

使用 SPDX 3.0 实施 AI 物料清单（AI BOM）

OpenCost 晋升至 CNCF 孵化阶段

CubeFS v3.4.0 发布

手把手 K8s v1.31 新特性：ImageVolume，简化制品分发

使用 Kanister 在 K8s 上进行向量数据库的备份与恢复

Sermant正式成为CNCF官方项目

加入基础设施生命周期工作组

K3K：K8s 套娃式集群管理，轻松运行多个 K3s

我在 OpenBao 作为学员的第一周！

Flatcar 将容器 Linux 引入 CNCF 孵化器

CubeFS 后台存储任务调度设计与实现

下午直播 | openGemini兼容普罗生态，云原生可观测性新势力！

超越BYOC：wasmCloud如何提供无处不在的平台

OpenTelemetry: Profiling 进展

在昇腾 910B 上部署轻量级和跨平台大模型 Agent

Linkerd 朝着可持续的服务网格迈进

K8s 负载感知调度实践（koordinator & crane）

CNCF Weekly 24-43

Kubestronaut的起源故事

1024程序员节 | LFOSSA限时特惠来袭

openGemini 10月例会议题抢先看，诚邀您参与！

案例研究：洛克希德·马丁｜1个收集器导出到不同平台

K8s 1.31：针对 Job 的 Pod 失效策略进阶至 GA

OpenBao 的首个路线图和社区方向

在云中扩展：Istio Ambient 与 Cilium

使用 Koordinator 实现资源负载感知(重)调度

2024年度 | openGemini开源之星评选结果公布！

开放协作将 AI Gateway 功能带入 Envoy 社区

更多社区领导力：Istio 技术监督委员会定期选举

Meshery 不(止)是服务网格管理器

KubeCon China 2024 透明度报告：照亮通往 AI 及更远的道路

跟上云原生和 K8s 安全，更新的 CKS 认证来了

CubeFS 大视野｜万亿级元数据路由设计与优化

openGemini社区新数据写入协议开发小组，闪亮登场！

如何限制容器的CPU使用量

CNCF Weekly 24-42

使用 Istio 和 OPA 在平台中实施七层策略

使用 Python + OTel 观测你的特斯拉！

K8s容器的定向调度与亲和性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉