Prometheus 的新战场：精准监控阿里云 AKS Serverless 集群

文摘 2025-01-14 21:50 挪威

Kaiserstuhl, Swtizerland

引言

我们紧接着上篇的 PromQL，接着往上盖大楼。这篇我们的主角是 Prometheus-Operator 的 Prometheus，它的重要性就不言而喻了。

Prometheus-Operator 是 Kubernetes 生态中广泛应用的监控组件，能够简化 Prometheus 的部署和管理。然而，随着云原生技术的发展，监控阿里云 AKS Serverless 集群成为了一个新的挑战。这些服务本质上是无服务器的，无法通过传统的节点指标采集方式进行监控。因此，我们需要对 Prometheus 自身进行调整，以更好地适配阿里云 AKS Serverless 场景。

本文将探讨如何通过重塑 Prometheus ，使其高效监控阿里云 AKS Serverless 环境。

开始

基本设计

prometheus-operator 的控制链路其实非常简单，我们只需要知道以下基本原理就行：

• PodMonitor 和 ServiceMonitor 最终是用于生成 Prometheus 配置文件中的 srape_config；
• Prometheus 可以使用一个 HTTP Post 请求 /-/reload 来在运行时重新加载配置文件使新的 scrape_config 生效；

以上文为例，prometheus-operator 的控制链路是：

Prometheus

prometheus-operator 监听 Promtheus 资源，当有 Add Event 发生时，prometheus-operator 将以 StatefulSet 的形式部署 Prometheus 实例。每一个 Prometheus Pod 里有两个容器：

• prometheus 容器：主容器，使用 /etc/prometheus/config_out/prometheus.env.yaml 作为主要的配置文件：

...
    - --config.file=/etc/prometheus/config_out/prometheus.env.yaml 
...

• prometheus-config-reloader 容器：辅助容器，用于监听上游配置文件的变化并调用主容器的 reload 接口重新加载配置；

当我们观察这个 Pod 的 volumes 时候，有两个 volume 可以重点关注：

...
volumes:
  - name: config
    secret:
      defaultMode: 420
      secretName: prom-agent-prometheus-agent
  - name: config-out
    emptyDir:
      medium: Memory
...

• config-out：EmptyDir 类型的卷，主要是用于 prometheus 容器与 prometheus-config-reloader 容器的数据共享，同时挂载于两个容器的 /etc/prometheus/config_out/ 中；
• config：底层是一个 Secret，这个 config 将被挂载为 prometheus-config-reloader 容器中的 /etc/prometheus/config/prometheus.yaml.gz 。 prometheus-config-reloader 会监听这个文件的变化，一旦有变化，将基于新的文件内容生成新的配置文件 /etc/prometheus/config_out/prometheus.env.yaml。 prometheus-config-reloader 将调用主容器的 reload API 来重新加载配置文件；

PodMonitor / ServiceMonitor

• prometheus-operator 监听 PodMonitor 和 ServiceMonitor 的变化。一旦对应资源发生了变化，prometheus-operator 将基于新的资源生成新的配置文件并将其更新到对应的 Secrets 中。由于对应 Secrets 以文件形式挂载于 prometheus-config-reloader 容器中并被监听文件变化，所以当底层 Secrets 发生了变化，kubelet 将分钟级传播变化到对应容器内部，从而触发 prometheus-config-reloader 容器内的监听逻辑。
• Secrets 内部是一个 Base64 之后的 gz 格式的 prometheus.yaml，比如我们可以用下面这种方式解码出 prometheus.yaml：

kubectl get secrets prometheus-k8s -o jsonpath="{.data.prometheus\.yaml\.gz}" | base64 -d > prometheus.yaml.gz 

gzip -d prometheus.yaml.gz

我们这些了解完成之后，对于我们后面的改进可谓是……语文不好，有点丢人，想不出来成语了。

Prometheus CRD YAML 优化

我们先从 Prometheus 的持久化数据说起：

  storage:
    volumeClaimTemplate:
      spec:
        storageClassName: alicloud-nas-subpath
        accessModes:
          - ReadWriteOnce
        resources:
          requests:
            storage: 15Gi

本地存储优化

启用 WAL 压缩

  wal_compression: true

减少数据保留时间

  retention: 7d

还有我们资源的优化，如果你的集群应用很多，资源太少，就会导致 pod 异常，这边你自己调整：

  resources:
    limits:
      cpu: "3"
      memory: 3Gi
    requests:
      cpu: 1000m
      memory: 1024Mi

完整文件

apiVersion: monitoring.coreos.com/v1
kind: Prometheus
metadata:
  labels:
    app.kubernetes.io/component: prometheus
    app.kubernetes.io/instance: k8s
    app.kubernetes.io/name: prometheus
    app.kubernetes.io/part-of: kube-prometheus
    app.kubernetes.io/version: 3.0.1
  name: k8s
  namespace: monitoring
spec:
  alerting:
    alertmanagers:
    - apiVersion: v2
      name: alertmanager-main
      namespace: monitoring
      port: web
  enableFeatures: []
  storage:
    volumeClaimTemplate:
      spec:
        storageClassName: alicloud-nas-subpath
        accessModes:
          - ReadWriteOnce
        resources:
          requests:
            storage: 15Gi
  externalLabels: {}
  image: quay.io/prometheus/prometheus:v3.0.1
  nodeSelector:
    kubernetes.io/os: linux
  podMetadata:
    labels:
      app.kubernetes.io/component: prometheus
      app.kubernetes.io/instance: k8s
      app.kubernetes.io/name: prometheus
      app.kubernetes.io/part-of: kube-prometheus
      app.kubernetes.io/version: 3.0.1
  podMonitorNamespaceSelector: {}
  #  matchExpressions:
  #    - key: kubernetes.io/metadata.name
  #      operator: In
  #      values:
  #        - monitoring
  #        - lobby
  podMonitorSelector: {}
  probeNamespaceSelector: {}
  probeSelector: {}
  replicas: 2
  resources:
    limits:
      cpu: "5"
      memory: 5Gi
    requests:
      cpu: 2000m
      memory: 2048Mi
  ruleNamespaceSelector: {}
  ruleSelector: {}
  scrapeConfigNamespaceSelector: {}
  scrapeConfigSelector: {}
  securityContext:
    fsGroup: 2000
    runAsNonRoot: true
    runAsUser: 1000
  serviceAccountName: prometheus-k8s
  serviceMonitorSelector: {}
  serviceMonitorNamespaceSelector: {}
  #  matchExpressions:
  #    - key: kubernetes.io/metadata.name
  #      operator: In
  #      values:
  #        - monitoring
  #        - lobby
  version: 3.0.1
  retention: 15d
  wal_compression: true

扩展

因为 Prometheus 这边优化的还挺多的，所以我们这一篇就先讲到这里，后面我们会更多的剖析相关内容。

• Prometheus Agent
• PrometheusRule

结语

我们 Prometheus 基础的优化和改进就结束了，相比较前几篇，这篇的东西不是很多。其实还有很多的东西都需要讲，我会把它们给分开。

云原生SRE

懂点K8S的SRE，关注云原生、DevOps、AI\x26amp;ChatGPT等技术热点

除夕快乐！！

蛇年新春，免费领红包封面啦~！

K8S容器平台巡检报告指南

北欧远程工作上岸记：告别35岁焦虑，给大龄技术人的一些分享

如何通过远离 AWS 将年服务器费用从 100 万降至 20 万

10个可以简化Kubernetes 管理的工具

探索 PrometheusRule：监控与报警的利器

Kubernetes学习周报（第17期）：了解StatefulSet的拓扑状态；实现高级Rollout策略；K8S攻击威胁矩阵

重塑 Prometheus 核心：揭开 PromQL 的面纱

Prometheus 的新战场：精准监控阿里云 AKS Serverless 集群

K8S学习路线2025

Kubernetes 监控实践：基于 Prometheus-Operator 的完整解决方案

Kubernetes学习周报（第16期）：RBAC的工作原理；K8S网络策略；探索 Istio 流量管理

从零开始：ACK Serverless 集群的监控方案设计指南

K8S手把手实战系列：启用NGINX Ingress Controller监控并接入Prometheus

突破性能瓶颈！Grafana 自动生成图表的深度优化实战

2024年终总结，结束北漂，开启北欧远程工作新模式

运维监控报表太麻烦？用 Grafana-Reporter 一键搞定！

深入 Kubernetes 的健康奥秘：探针（Probe）究竟有多强？

K8S手把手实战系列：使用CertManager和LetsEncrypt在K8S中添加免费的SSL/TLS证书

Kubernetes 为什么减少对 Docker 的依赖：容器运行时演进背后的技术考量

Kubernetes学习周报（第15期）：容器干扰检测和缓解；网络解决方案比较；Pod 资源大小调整方案；迁移Hpa到Keda

如何选择适合你的日志聚合工具：性能、压缩与成本的最佳平衡

AI周报: NVIDIA 推出最实惠AI 超级计算机;OpenAI o1模型引入API; 谷歌 Deep Research发布

Kubernetes v1.32 正式发布

OpenAI 宕机故障复盘，这次真的是 Kubernetes惹的祸

Kubernetes学习周报（第14期）：如何将节点服务无缝过渡到 K8S；OpenAI 的容器运行时和沙盒架构；存储性能比较

AI头条：OpenAI 探索广告，以加大收入来源；World Labs 一张照片生成互动3D 场景

Python + OpenTelemetry，观测你的特斯拉！

Kubernetes学习周报（第13期）K8S APIs 之CRD; PDB详解; 解决由大量IPVS规则引起的网络延迟问题

高并发下报错 "java.net.UnknownHostException" 案例分析

关于 GitOps 和数据库回滚的残酷事实

万字长文2024最全Go面经汇总

Kubernetes学习周报（第12期）何时无法在容器中终止 PID 1 进程;容器中僵尸进程解决办法; K8S中的DNS

将 VictoriaLogs 与 Grafana 集成，是时候抛弃 Loki 了！

Kubernetes学习周报（第11期）Golang在 K8S中运行的内存限制; 探索Cilium和Istio实现; 容器分层

Kubernetes学习周报（第10期）如何保持容器运行以调试; ETCD Raft 协议;Kubectl端口转发详解

6 张图带你深入了解 kube-scheduler

Prometheus 3.0 全新的 Dashboard！

Kubernetes学习周报（第9期）: CNI 和网络命名空间；网络插件基准测试；K8S备份解决方案Velero实施指南

K8s 集群巡检

Kubernetes学习周报（第8期）:K8S网络数据包管理之旅；当K8S和 Go 不能很好地协同工作时；K8S探针配置

(文末有福利)巅峰对话 | 直通未来科技前沿，与行业顶级技术专家共话数据库未来

K8s CPU Throttle 优化方案

Kubernetes学习周报（第7期）:K8S容器运行时CRI接口；Kluctl管理集群API；K8S无服务器应用监控

2024 互联网公司时薪排行榜！拼多多、小红书很顶！

Kubernetes系列（一六六）Kubernetes 的 10 大错误&如何专业地排除它们？

Kubernetes学习周报（第六期）:K8S API 实用指南；Etcd灾难恢复方案；K8S Gateway API介绍

卷不动了！去香港工作可以重启人生吗？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉