如何在Prometheus告警恢复时获取实时值

科技 2024-11-22 17:43 上海

背景概述

当我们prometheus告警恢复时是拿不到当前值的，当然也有其他的方式进行拿取，感觉不是很优雅，为此看了一下prometheus源码整理一下最近的学习内容，分享一下。

告警恢复如何获取当前值

告警规则里添加promQL，需要去掉告警条件
需要修改的地方比较多，如果查询的promQL数据比较多返回比较慢。因为没有进行标签匹配，会返回所有的查询内容
自建告警中心，利用promQL进行查询
需要有编码能力，灵活性比较好。
解析promQL
这里说的解析promQL是将其解析为AST，然后去除告警条件，并附加告警标签。

解析PromQL

这里我们讲解一下如何解析PromQL，当然你可以通过接口进行解析，可以看上边的AST，我们这里使用代码的方式进行解析。

解析为AST

 
import (
	"encoding/json"
	"fmt"
	"github.com/prometheus/prometheus/model/labels"
	"log"
	"strings"

	"github.com/prometheus/prometheus/promql/parser"
)



func sanitizeList(l []string) []string {
	if l == nil {
		return []string{}
	}
	return l
}

func translateMatchers(in []*labels.Matcher) interface{} {
	out := []map[string]interface{}{}
	out = append(out, map[string]interface{}{
		"name":  "__addLabels__",
		"value": "www_kubesre_com",
		"type":  "=",
	})
	for _, m := range in {
		out = append(out, map[string]interface{}{
			"name":  m.Name,
			"value": m.Value,
			"type":  m.Type.String(),
		})
	}
	return out
}

func getStartOrEnd(startOrEnd parser.ItemType) interface{} {
	if startOrEnd == 0 {
		return nil
	}

	return startOrEnd.String()
}

func translateAST(node parser.Expr) interface{} {
	if node == nil {
		return nil
	}

	switch n := node.(type) {
	case *parser.AggregateExpr:
		fmt.Println("AggregateExpr")
		return map[string]interface{}{
			"type":     "aggregation",
			"op":       n.Op.String(),
			"expr":     translateAST(n.Expr),
			"param":    translateAST(n.Param),
			"grouping": sanitizeList(n.Grouping),
			"without":  n.Without,
		}
	case *parser.BinaryExpr:
		fmt.Println("BinaryExpr")
		var matching interface{}
		if m := n.VectorMatching; m != nil {

			matching = map[string]interface{}{
				"card":    m.Card.String(),
				"labels":  sanitizeList(m.MatchingLabels),
				"on":      m.On,
				"include": sanitizeList(m.Include),
			}
		}
		if n.Op.IsComparisonOperator() {
			return map[string]interface{}{
				"type":     "binaryExpr",
				"lhs":      translateAST(n.LHS),
				"rhs":      translateAST(n.RHS),
				"matching": matching,
				"bool":     n.ReturnBool,
			}
		}

		return map[string]interface{}{
			"type":     "binaryExpr",
			"op":       n.Op.String(),
			"lhs":      translateAST(n.LHS),
			"rhs":      translateAST(n.RHS),
			"matching": matching,
			"bool":     n.ReturnBool,
		}
	case *parser.Call:
		args := []interface{}{}
		for _, arg := range n.Args {
			args = append(args, translateAST(arg))
		}
		fmt.Println("Call")
		return map[string]interface{}{
			"type": "call",
			"func": map[string]interface{}{
				"name":       n.Func.Name,
				"argTypes":   n.Func.ArgTypes,
				"variadic":   n.Func.Variadic,
				"returnType": n.Func.ReturnType,
			},
			"args": args,
		}
	case *parser.MatrixSelector:
		vs := n.VectorSelector.(*parser.VectorSelector)
		fmt.Println("MatrixSelector")
		return map[string]interface{}{
			"type":       "matrixSelector",
			"name":       vs.Name,
			"range":      n.Range.Milliseconds(),
			"offset":     vs.OriginalOffset.Milliseconds(),
			"matchers":   translateMatchers(vs.LabelMatchers),
			"timestamp":  vs.Timestamp,
			"startOrEnd": getStartOrEnd(vs.StartOrEnd),
		}
	case *parser.SubqueryExpr:
		fmt.Println("SubqueryExpr", translateAST(n.Expr))
		return map[string]interface{}{
			"type":       "subquery",
			"expr":       translateAST(n.Expr),
			"range":      n.Range.Milliseconds(),
			"offset":     n.OriginalOffset.Milliseconds(),
			"step":       n.Step.Milliseconds(),
			"timestamp":  n.Timestamp,
			"startOrEnd": getStartOrEnd(n.StartOrEnd),
		}
	case *parser.NumberLiteral:
		fmt.Println("NumberLiteral")
		return map[string]string{
			"type": "numberLiteral",
		}
	case *parser.ParenExpr:
		fmt.Println("ParenExpr")
		return map[string]interface{}{
			"type": "parenExpr",
			"expr": translateAST(n.Expr),
		}
	case *parser.StringLiteral:
		fmt.Println("StringLiteral")
		return map[string]interface{}{
			"type": "stringLiteral",
			"val":  n.Val,
		}
	case *parser.UnaryExpr:
		fmt.Println("UnaryExpr")
		return map[string]interface{}{
			"type": "unaryExpr",
			"op":   n.Op.String(),
			"expr": translateAST(n.Expr),
		}
	case *parser.VectorSelector:
		fmt.Println("VectorSelector")
		return map[string]interface{}{
			"type":       "vectorSelector",
			"name":       n.Name,
			"offset":     n.OriginalOffset.Milliseconds(),
			"matchers":   translateMatchers(n.LabelMatchers),
			"timestamp":  n.Timestamp,
			"startOrEnd": getStartOrEnd(n.StartOrEnd),
		}
	}
	panic("unsupported node type")
}

这里我们不仅仅是将其解析为AST，并去掉了告警判断条件和添加了标签。

AST解析为PromQL

我们讲解解析为PromQL便于我们进行查询

 
func interfaceSliceToStringSlice(slice []interface{}) []string {
	result := make([]string, len(slice))
	for i, v := range slice {
		result[i] = v.(string)
	}
	return result
}

// 将解析后的AST重新组装为PromQL字符串

func assemblePromQL(node map[string]interface{}) string {
	switch node["type"] {
	case "aggregation":
		expr := assemblePromQL(node["expr"].(map[string]interface{}))
		op := node["op"].(string)
		grouping := node["grouping"].([]interface{})
		groupingStr := ""
		if len(grouping) > 0 {
			groupingStr = " by (" + strings.Join(interfaceSliceToStringSlice(grouping), ", ") + ")"
		}
		return fmt.Sprintf("%s%s(%s)", op, groupingStr, expr)

	case "binaryExpr":
		// 如果有匹配条件，可能需要检查是否是需要的子表达式
		if node["matching"] == nil && node["op"] == ">" {
			// 只返回左侧表达式
			return assemblePromQL(node["lhs"].(map[string]interface{}))
		}
		lhs := assemblePromQL(node["lhs"].(map[string]interface{}))
		rhs := assemblePromQL(node["rhs"].(map[string]interface{}))
		//op := node["op"].(string)
		return fmt.Sprintf("(%s %s )", lhs, rhs)

	case "call":
		funcName := node["func"].(map[string]interface{})["name"].(string)
		args := node["args"].([]interface{})
		argStrs := []string{}
		for _, arg := range args {
			argStrs = append(argStrs, assemblePromQL(arg.(map[string]interface{})))
		}
		return fmt.Sprintf("%s(%s)", funcName, strings.Join(argStrs, ", "))

	case "matrixSelector":
		name := node["name"].(string)
		matchers := node["matchers"].([]interface{})
		matcherStrs := []string{}
		for _, matcher := range matchers {
			m := matcher.(map[string]interface{})
			matcherStrs = append(matcherStrs, fmt.Sprintf(`%s%s"%s"`, m["name"], m["type"], m["value"]))
		}
		rangeStr := fmt.Sprintf("[%dms]", int64(node["range"].(float64)))
		return fmt.Sprintf("%s{%s}%s", name, strings.Join(matcherStrs, ", "), rangeStr)

	//case "numberLiteral":
	//	return node["val"].(string)

	case "parenExpr":
		expr := assemblePromQL(node["expr"].(map[string]interface{}))
		return fmt.Sprintf("(%s)", expr)

	case "stringLiteral":
		return fmt.Sprintf(`"%s"`, node["val"].(string))

	case "unaryExpr":
		expr := assemblePromQL(node["expr"].(map[string]interface{}))
		op := node["op"].(string)
		return fmt.Sprintf("%s%s", op, expr)

	case "vectorSelector":
		name := node["name"].(string)
		matchers := node["matchers"].([]interface{})
		matcherStrs := []string{}
		for _, matcher := range matchers {
			m := matcher.(map[string]interface{})
			matcherStrs = append(matcherStrs, fmt.Sprintf(`%s%s"%s"`, m["name"], m["type"], m["value"]))
		}
		return fmt.Sprintf("%s{%s}", name, strings.Join(matcherStrs, ", "))
	}

	return ""
}

效果展示

 
func main() {
	expr := `(sum by (cluster) (rate(kube_state_metrics_list_total{job="kube-state-metrics",result="error"}[5m])) / sum by (cluster) (rate(kube_state_metrics_list_total{job="kube-state-metrics"}[5m]))) > 0.01`
	// 使用 promql parser 解析表达式
	parsedExpr, err := parser.ParseExpr(expr)
	if err != nil {
		log.Fatalf("Error parsing expression: %v", err)
	}

	aaa := translateAST(parsedExpr)
	jsonData, _ := json.MarshalIndent(aaa, "", "  ")
	fmt.Println(string(jsonData))
	var jsonDataMap map[string]interface{}
	err = json.Unmarshal(jsonData, &jsonDataMap)
	if err != nil {
		log.Fatalf("Error parsing JSON: %v", err)
	}
	promQL := assemblePromQL(jsonDataMap)
	fmt.Println(promQL)
)

这里我们用一个稍微复杂的promQL进行测试

AST

PromQL

 
(((sum by (cluster)(rate(kube_state_metrics_list_total{__addLabels__="www_kubesre_com", job="kube-state-metrics", result="error", __name__="kube_state_metrics_list_total"}[300000ms])) sum by (cluster)(rate(kube_state_metrics_list_total{__addLa
bels__="www_kubesre_com", job="kube-state-metrics", __name__="kube_state_metrics_list_total"}[300000ms])) ))  )

总结

到此我们的本次分享就结束了，希望对大家有所帮助，当然也可以一起交流。至于如何取获取告警恢复当前值相信大家已经有思路了。

添加👇下面微信，拉你进群与大佬一起探讨云原生！

云原生运维圈

专注于Docker、Kubernetes、Prometheus、Istio、Terraform、OpenTelemetry等云原生技术分享！

最新文章

Nacos 3.0 Alpha 发布，在安全、泛用、云原生更进一步

所有运维人，明年的新方向，赢麻了！！！

一篇带你彻底了解Kubernetes，运维绝对是要收藏的！

如何找出Java进程占用CPU高的元凶

分布式锁的实现原理

一行代码都不改，Golang 应用链路指标日志全知道！

如何在Prometheus告警恢复时获取实时值

对称加密 vs 非对称加密：一分钟看懂核心区别！

记一次K8S VXLAN Overlay网络8472端口冲突问题的排查

【提效】docker镜像构建优化-提速10倍

妙哇！运维大佬内部K8S笔记曝光，运维必须收藏！（附高清PDF）

深入解析Alertmanager Gossip协议：分布式报警管理的核心

浅谈TiKV集群运维问题排查与修复——磁盘空间占用问题

实现告警可视化：Prometheus告警附带图表最佳实践

深入解析 AlertManager 告警指纹

K8s 超详细总结！这篇真绝了，建议运维都收藏！

Star 3w+，向更安全、更泛化、更云原生的 Nacos3.0 演进

漫谈两轮调度ES优化之路

vivo 全链路多版本开发测试环境落地实践

Redis集群slot迁移改造实践

牛！华为分享的《Kubernetes学习笔记》太强了，附高清免费下载！

借助 ChatGPT 解决运维问题：Nginx Location块匹配删除

十六年所思所感，聊聊这些年我所经历的 DevOps 系统

想要成为Redis高手？看看Redis自己会怎么向你传授心法！（文末赠书）

【边缘计算】KubeEdge 向左，K3S 向右

MySQL亿级数据平滑迁移实战

如何深入理解 Prometheus 监控系统的底层原理？（文末送书）

如何阅读Kubernetes源码？遵循这几点建议真的可以少走弯路！（文末赠书）

碉堡了！运维大佬内部K8s笔记曝光，这也太强了吧！（附PDF下载）

近1300页的Kubernetes神书，终于可以集齐上下两册了！（文末赠书）

基于Golang + Ansible构建Nginx管理系统

基于Golang + xtermjs构建Kubernetes多集群管理Web Terminal

基于Golang + Ansible构建作业系统

碉堡了！云原生大佬撰写的K8s学习指南，有点炸裂，建议运维都收藏！

Kubernetes场景下基于Nvidia GPU Operator 实现图形渲染能力

ZooKeeper 避坑指南： ZooKeeper 3.6.4 版本 BUG 导致的数据不一致问题

深入剖析 Kubernetes 原生 Sidecar 容器

免费赠书-大模型时代，还不懂云原生会怎么样？

数据特征采样在 MySQL 同步一致性校验中的实践

浅谈 K8s Pod IP 分配机制

使用 Node Exporter 自定义监控指标

Prometheus告警规则存储数据库思路分享

看完这篇，轻松get限流！原创

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉