K8s 负载感知调度实践（koordinator & crane）

科技 2024-11-06 11:32 四川

背景

原生 Kubernetes 调度器仅基于资源的 Request 进行调度，在生产环境资源的真实使用率和申请率往往相差巨大，造成资源浪费的同时也会造成节点的负载不均衡。

开源方案对比 koordinator VS crane

crane-scheduler 架构

前置条件是安装了 Prometheus ，从 Prometheus 中获取数据。

koord-scheduler 架构

监控指标是从 koordlet 中获取， koordlet 是一个 daemonset 类型的插件，负责收集指标，并存储在本地 Prometheus 中

对比

	crane-scheduler	koord-scheduler
指标收集周期	依赖于外置 Prometheus 的收集周期，默认为 30s （颗粒度较粗，不容易收集到突刺）	ds 方式的 koordlet 插件收集，相当于每个 Node 节点都有一个 Prometheus，收集周期默认为 1s
数值类型	avg 、max	avg、p50、p90、p95、p99
在离线混部	不支持	支持在线 Pod(LSE/LSR/LS）和离线 Pod（BE）
hotValue 资源预估	支持	支持
使用率分母	宿主机 Total 资源（不合理）	Node allocatable (合理)

综上，选用 koord-scheduler 。

koordinator 使用实践

新增 UsageAggregatedDuration 为 18h 的时间段

kubectl -n koordinator-system edit  cm slo-controller-config

data:
  colocation-config: |
    {
      "enable": true,
      "metricAggregatePolicy": {
        "durations": [
          "5m",
          "10m",
          "30m",
          "18h"
        ]
      }
    }

修改 koordlet 中 Prometheus 的存储时间

kubectl -n koordinator-system edit ds koordlet

      containers:
      - args:
        - -addr=:9316
        - -cgroup-root-dir=/host-cgroup/
        - --logtostderr=true
        - --tsdb-retention-duration=18h

可以使用promtool 工具进入 Pod 查看数据：./promtool tsdb list /metric-data/

修改阈值触发规则，需要重启 koord-scheduler 才生效。

kubectl -n koordinator-system edit cm  koord-scheduler-config

            aggregated:
              usageThresholds:
                cpu: 55
                memory: 85
              usageAggregationType: "p99"
              scoreAggregationType: "p99"
            estimatedScalingFactors:
              cpu: 85
              memory: 70

kubectl -n koordinator-system rollout restart deployment koord-scheduler

考虑到公有云资源可能有自己的调度实现，所以只改 IDC 机房的调度器，增加 mutatingwebhook 进行拦截修改，有问题可以快速回退。

生效方式：

kubectl label ns ${NsName} koordinator-injection=enabled

回退方式：

kubectl label ns ${NsName} koordinator-injection-

源代码地址：https://github.com/koordinator-sh/koordinator

魔改代码地址：https://github.com/clay-wangzhi/koordinator

魔改代码快速部署：

git clone https://github.com/clay-wangzhi/koordinator
cd koordinator/manifests
kubectl apply -f setup/
kubectl apply -f koordlet/
kubectl apply -f koord-scheduler/
kubectl apply -f koord-manager/

测试

1）找出负载较高的 Node

kubectl top node | sort -nk 3
kubectl get nodemetrics.slo.koordinator.sh

2）给一个负载较高的 Node + 几个负载正常的 Node 打标签

kubectl label node $(NodeName) test=true

3）找到应用所在 Ns，打标，设置 SchedulerName 为 koord-scheduler 是通过 mutatingwebhook 实现的

kubectl label ns ${NsName} koordinator-injection=enabled

4）找一个应用，加上节点亲和性和 Pod 反亲和性，并把副本数设置为和打标的 Node 数相等

spec:
  replicas: 4
  template:
    spec:
      affinity:
        nodeAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            nodeSelectorTerms:
            - matchExpressions:
              - key: test
                operator: In
                values:
                - "true"
        podAntiAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
          - labelSelector:
              matchExpressions:
              - key: appid
                operator: In
                values:
                - $(AppidName)
            topologyKey: kubernetes.io/hostname

5）查看结果，当有一个 Pod 处于 Pending ，且时间 Reson 包涵如下字样，代表设置成功

参考链接：

Crane-Scheduler:真实工作负载感知的调度器设计与实现：https://cloud.tencent.com/developer/article/2296515?areaId=106005
koordinator 负载感知调度：https://koordinator.sh/zh-Hans/docs/user-manuals/load-aware-scheduling

http://mp.weixin.qq.com/s?__biz=MzIyMDY2MTE3Mw==&mid=2247495477&idx=1&sn=3ba84582931cbc92f2c4271cb1072988

运维开发故事

由一群志同道合的小伙伴共同维护，有运维也有开发，内容不限于Linux运维，devops工具链，k8s容器化技术，监控，日志收集，网络安全，Python或GO开发，团队成员有乔克、wanger、冬哥、素心、华仔、郑哥、夏老师

最新文章

夜莺 v7 最终版来了，可以上车了

年薪98w！运维人的新赛道，我决定入局！

服务器又被黑了，可咋办

将 VictoriaLogs 与 Grafana 集成，是时候抛弃 Loki 了！

告警平台V1.0版本

K8s 负载感知调度实践（koordinator & crane）

6 张图带你深入了解 kube-scheduler

使用 Koordinator 实现资源负载感知(重)调度

大模型驱动的智能化运维（文末抽奖）

Prometheus 3.0 全新的 Dashboard！

使用 Higress AI 插件对接通义千问大语言模型

太牛了！华为《Linux核心笔记》火了！运维必须整一份！

HR 再问运维是干啥的，你就把这个丢给她

“ 运维天命人” 通关必看的18个技术干货

急速Boost，让数据跑得更快 -- Ceph缓存技术全解析

K8s 集群巡检

开发了一个 Copilot 用来处理运维故障

无敌了！强烈建议运维人今年拿下软考！

接口拨测 Plus 版本

牛批！阿里内部《DevOps实践手册》，运维开发必须收藏（附高清PDF免费领取）

kvm安装windows虚拟机并安装virtio驱动

基于Gitlab CI+Argo CD的Gitops实践

Kubernetes场景下基于Nvidia GPU Operator 实现图形渲染能力

LLM On Kubernetes

Kubernets的NVIDIA设备插件安装方案实践

K8s 多集群思考、实践和探索

ceph配置缓存池

Jenkins Pipeline用户权限管理新技巧：打造安全高效的流水线！

【深度解析】K8s如何助力运维、开发、测试等岗位提升核心竞争力

基于Jenkins Pipeline构建企业级CI/CD

带你搞懂Kubernetes Pod 如何获取 IP 地址

你必须知道的Docker数据卷(Volume)

CoreDNS 概述及运维实践

Kubernetes 策略管理引擎 - Kyverno

中立分析腾讯云故障相关的事件

Etcd 概述及运维实践

Kubernetes中的事件收集以及监控告警

kube on kube 实现思路分享

JVM 性能调优之通过 JProfile 和 JFR 分析系统瓶颈提升系统性能

记一次 K8s 故障处理

你可能不知道的13个Kubernetes技巧

Istio多集群实践

Zadig 版本管理与自动化发布最佳实践解析

线程池#1：什么是线程池？

恭喜了！全体程序员彻底狂欢吧！这个好消息来得太及时！

开发一个接口监控的Prometheus Exporter

运维开发故事给大家拜年：祝大家新春快乐

维持请求的透明度：如何在 Istio 中保留客户端请求的源 IP

分享 Kubernetes 日常运维工作中常用的命令

2023兜兜转转，2024持续向前

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉