首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Prometheus优化指南：如何提升系统性能

科技 2024-09-12 07:30 广东

Prometheus 是一个强大的开源监控系统，它被广泛应用于云原生环境中，特别是在 Kubernetes 和其他容器化基础设施中。然而，随着监控数据量的增长，系统本身的性能可能会成为瓶颈。如果不进行优化，最终将影响到整体系统的可用性。

本文将从多个维度介绍如何优化 Prometheus 以提升系统性能。

一. 优化数据存储

Prometheus 使用一个本地的时序数据库（TSDB）来存储所有的监控数据。优化数据存储可以帮助减少存储的开销并提高查询效率。

1. 配置数据保留策略

Prometheus 默认会保留15天的监控数据，但并不是所有环境都需要如此长的保留时间。根据监控需求，可以适当缩短数据保留时间。

--storage.tsdb.retention.time=7d

通过将数据保留时间从15天缩短到7天，可以显著减少存储的占用。对于长期数据存储，可以考虑将数据转储到远程存储系统，如 Thanos 或 Cortex，它们能够提供更高效的数据存储和压缩机制。

2. 调整块大小

Prometheus 的时序数据库通过块（blocks）来存储数据，默认每个块持续2小时的数据。可以根据具体环境调整块的大小，以平衡查询性能和存储效率。

--storage.tsdb.min-block-duration=2h

如果块的持续时间过短，Prometheus 会频繁地创建新块，增加 CPU 和 I/O 负载。相反，如果持续时间过长，查询可能变得缓慢。通常保持默认的2小时是比较合理的选择，但可以根据具体的查询和存储需求进行调整。

二. 降低采集频率

在监控环境中，并不是所有的指标都需要高频率的采集。通过合理地调整采集频率，能够减少系统负载并降低存储开销。

1. 调整抓取间隔

抓取间隔是指 Prometheus 拉取数据的频率。默认情况下，Prometheus 每 15 秒抓取一次指标。对于不需要频繁监控的指标，可以适当增加抓取间隔。

scrape_interval: 30s

适当延长 scrape_interval 可以降低对 Prometheus 服务和被监控服务的压力。

2. 配置 job-specific 抓取策略

并非所有的服务都需要相同的抓取频率。可以为不同的 job 配置不同的抓取间隔。

scrape_configs:
  - job_name: 'service_A'
    scrape_interval: 10s
  - job_name: 'service_B'
    scrape_interval: 1m
为重要服务设置较短的抓取间隔（例如10秒），而对于较少变动的服务，可以设置较长的抓取间隔（如1分钟）。

三. 精简标签和指标

Prometheus 中的标签和指标数量对性能影响很大。过多的标签和高维度的数据可能导致指标爆炸，进而影响系统性能。

1. 控制标签数量

在配置监控时，尽量减少标签的数量。过多的标签会导致 Prometheus 需要存储更多的时序数据，增加存储和查询的负担。

2. 避免高基数标签

高基数标签（例如 user_id 或 session_id）会显著增加指标的基数。尽量避免将这些高基数的标签加入监控数据中。

例如，不要将用户ID这样的动态值直接作为标签：

request_count{user_id="12345"}  # 避免此类标签
可以使用其他方式统计用户行为，而不是直接通过标签记录每个用户的ID。

四. 优化查询性能

Prometheus 支持强大的查询语言 PromQL，用于检索和聚合时序数据。然而，复杂的查询可能会消耗大量的资源，导致 Prometheus 响应变慢。

1. 使用时间范围限制查询

Prometheus 的查询语言支持设置时间范围。为了提高查询性能，尽量避免查询无边界的时间段。明确指定查询时间范围可以减少Prometheus需要扫描的数据量。

rate(http_requests_total[5m])  # 使用指定时间范围的查询
尽量避免使用像 rate(http_requests_total) 这样的无时间范围的查询，这会导致 Prometheus 必须扫描所有数据。

2. 避免重复的子查询

PromQL 支持子查询功能，但过多或复杂的子查询可能显著影响性能。尽量简化查询逻辑，避免嵌套太深的子查询。

sum(rate(http_requests_total[1m])) by (job)
尽量使用简单的聚合函数，而不是多层的查询嵌套。

3. 使用远程查询

对于一些历史数据的查询，可以考虑使用远程存储后端，如 Thanos 或 Cortex。这些系统支持分布式查询和存储，并且能够处理大规模的查询请求，而不会过载 Prometheus 实例。

五. 分片和高可用

在大规模集群中，单个 Prometheus 实例可能无法应对所有监控需求。此时可以考虑使用分片和高可用机制来提升性能。

1. Prometheus 分片

可以通过分片的方式，将不同的监控目标分配给不同的 Prometheus 实例。这样可以有效地分担监控负载，减少单个 Prometheus 实例的压力。

sum(rate(http_requests_total[1m])) by (job)scrape_configs:
  - job_name: 'node'
    file_sd_configs:
    - files:
      - /etc/prometheus/node/*.yml
    relabel_configs:
    - source_labels: [__address__]
      modulus:       2
      target_label:  __tmp_hash
      action:        hashmod
    - source_labels: [__tmp_hash]
      regex:         ^0$
      action:        keepscrape_configs:
  - job_name: 'node'
    file_sd_configs:
    - files:
      - /etc/prometheus/node/*.yml
    relabel_configs:
    - source_labels: [__address__]
      modulus:       2
      target_label:  __tmp_hash
      action:        hashmod
    - source_labels: [__tmp_hash]
      regex:         ^0$
      action:        keep
2. 高可用 Prometheus
高可用模式下，可以运行多个 Prometheus 实例同时采集相同的数据，并通过负载均衡来分担查询压力。这不仅提升了系统的健壮性，还能分担查询负载。

六. 优化告警规则

告警模块是 Prometheus 中的关键组件，但大量复杂的告警规则也会对性能造成影响。

1. 减少告警规则的复杂性

避免过于复杂的告警表达式和不必要的告警。复杂的告警规则会导致 Prometheus 在每次评估时都要进行大量计算，影响性能。

2. 使用外部告警系统

对于大规模集群，可以考虑将告警部分外包给外部告警系统，如 Cortex、Thanos 或 Alertmanager。这样可以减少 Prometheus 自身的告警负担。

如果你想学习更多Prometheus 技术知识，欢迎订阅我的技术专栏《玩转Prometheus监控》。小册原价299元，限时优惠价79元，有需要的朋友别错过了。

扫描下方二维码查看 ↓

------------------ END ------------------

关注公众号，获取更多精彩内容

感谢阅读，如果觉得内容还行可以随手点个“赞”或者“在看”，也欢迎分享文章到朋友圈和技术群。

需要开通转载白名单的话，请联系我。

http://mp.weixin.qq.com/s?__biz=MzU2OTc4NDI2MQ==&mid=2247491129&idx=1&sn=4134b9e3c8ec8fefdf287ea28bf7a16a

DevOps实战派

DevOps、SRE和运维领域资深技术老鸟；公众号主要分享相关领域的专业知识。

最新文章

年薪98w！运维人的新赛道，我决定入局！

Prometheus如何实现Redis监控？

Kubernetes教程最新价格

太强了

搞运维有没有前途和钱途？

最后一天

三款好用的MySQL开源客户端

什么是 SRE 工程师？

Kubernetes教程涨价通知

一文搞懂redis

学会Prometheus，玩转运维监控！

B站大规模数据中心搬迁的挑战与实践

Git、GitLab和GitHub，别再傻傻分不清了

Dockerhub国内多个镜像源被禁，企业用户如何应对？

为什么运维都这么难招？

面试官：连K8s都不懂，还想拿高薪？

基于Velero的K8s集群备份恢复方案

学会 Prometheus，成为运维监控领域的专家！

云计算正在杀死运维吗？

三款免费好用的 Docker 可视化管理工具

Kubernetes的37节实战课

一款Prometheus配置管理的利器

关于运维的七个真相

Git命令使用指南

三种最常见的Prometheus高可用模式

最后一天

几个简单又好用的Linux运维命令

最后几天

k8s的负载均衡方案：MetalLB

技术教程十一特惠活动

如何在 Ubuntu 24.04 上安装 Docker

Prometheus 全新3.0 Beta 版发布

最小化k8s系统：MiniKube安装指南

面试官：当CPU使用率低但负载高时，你该如何应对？

五个最稳定的Linux发行版

Linux 系统中如何禁用用户登录？

只因把 https 改成 http，带宽减少了 70%！

Debian 12.7 强势登场

别再去服务器上捞日志了，搭个日志系统不香么？

掌握 Kubernetes：从入门到实战

一款功能强大的Kubernetes网络诊断工具

Prometheus优化指南：如何提升系统性能

k8s域名解析超时？使用NodeLocal DNSCache来解决

一个命令玩转Linux文件搜索

运维高薪指南：哪些公司最舍得花钱？

Dockerhub国内多个镜像源被禁，企业用户如何应对？

一款为Kubernetes而生的操作系统

Kubernetes的37节实战课

一个牛逼的运维团队对公司有多重要？真相让人意外

Logstash 详解：复杂日志处理的语法与方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉