OpenTelemetry 实战：从零实现应用指标监控

科技 2024-08-28 08:08 重庆

前言

在上一篇文章：OpenTelemetry 实战：从零实现分布式链路追踪讲解了链路相关的实战，本次我们继续跟进如何使用 OpenTelemetry 集成 metrics 监控。

建议对指标监控不太熟的朋友可以先查看这篇前菜文章：从 Prometheus 到 OpenTelemetry：指标监控的演进与实践

名称	作用	语言	版本
java-demo	发送 gRPC 请求的客户端	Java	opentelemetry-agent: 2.4.0/SpringBoot: 2.7.14
k8s-combat	提供 gRPC 服务的服务端	Golang	go.opentelemetry.io/otel: 1.28/ Go: 1.22
Jaeger	trace 存储的服务端以及 TraceUI 展示	Golang	jaegertracing/all-in-one:1.56
opentelemetry-collector-contrib	OpenTelemetry 的 collector 服务端，用于收集 trace/metrics/logs 然后写入到远端存储	Golang	otel/opentelemetry-collector-contrib:0.98.0
Prometheus	作为 metrics 的存储和展示组件，也可以用 VictoriaMetrics 等兼容 Prometheus 的存储替代。	Golang	quay.io/prometheus/prometheus:v2.49.1

快速开始

以上是加入 metrics 之后的流程图，在原有的基础上会新增一个 Prometheus 组件，collector 会将 metrics 指标数据通过远程的 remote write 的方式写入到 Prometheus 中。

Prometheus 为了能兼容 OpenTelemetry 写入过来的数据，需要开启相关特性才可以。

如果是 docker 启动的话需要传入相关参数：

docker run  -d -p 9292:9090 --name prometheus \
-v /prometheus/prometheus.yml:/etc/prometheus/prometheus.yml \
quay.io/prometheus/prometheus:v2.49.1 \
--config.file=/etc/prometheus/prometheus.yml \
--storage.tsdb.path=/prometheus \
--web.console.libraries=/etc/prometheus/console_libraries \
--web.console.templates=/etc/prometheus/consoles \
--enable-feature=exemplar-storage \
--enable-feature=otlp-write-receiver

--enable-feature=otlp-write-receiver 最主要的就是这个参数，用于开启接收 OTLP 格式的数据。

但使用这个 Push 特性就会丧失掉 Prometheus 的许多 Pull 特性，比如服务发现，定时抓取等，不过也还好，Push 和 Pull 可以同时使用，原本使用 Pull 抓取的组件依然不受影响。

修改 OpenTelemetry-Collector

接着我们需要修改下 Collector 的配置:

exporters:
  debug:
  otlp:
    endpoint: "jaeger:4317"
    tls:
      insecure: true
  otlphttp/prometheus:
    endpoint: http://prometheus:9292/api/v1/otlp
    tls:
      insecure: true      

processors:
  batch:

service:
  pipelines:
    traces:
      receivers:
      - otlp
      processors: [batch]
      exporters:
      - otlp
      - debug        
    metrics:
      exporters:
      - otlphttp/prometheus
      - debug
      processors:
      - batch
      receivers:
      - otlp

这里我们在 exporter 中新增了一个 otlphttp/prometheus 的节点，用于指定导出 prometheus 的 endpoint 地址。

同时我们还需要在 server.metrics.exporters 中配置相同的 key: otlphttp/prometheus。

需要注意的是这里我们一定得是配置在 metrics.exporters 这个节点下，如果配置在 traces.exporters 下时，相当于是告诉 collector 讲 trace 的数据导出到 otlphttp/prometheus.endpoint 这个 endpoint 里了。

所以重点是需要理解这里的配对关系。

运行效果

这样我们只需要将应用启动之后就可以在 Prometheus 中查询到应用上报的指标了。

java -javaagent:opentelemetry-javaagent-2.4.0-SNAPSHOT.jar \
-Dotel.traces.exporter=otlp \
-Dotel.metrics.exporter=otlp \
-Dotel.logs.exporter=none \
-Dotel.service.name=java-demo \
-Dotel.exporter.otlp.protocol=grpc \
-Dotel.propagators=tracecontext,baggage \
-Dotel.exporter.otlp.endpoint=http://127.0.0.1:5317 -jar target/demo-0.0.1-SNAPSHOT.jar

# Run go app
export OTEL_EXPORTER_OTLP_ENDPOINT=http://127.0.0.1:5317 OTEL_RESOURCE_ATTRIBUTES=service.name=k8s-combat
./k8s-combat

因为我们在 collector 中开启了 Debug 的 exporter，所以可以看到以下日志：

2024-07-22T06:34:08.060Z info MetricsExporter {"kind": "exporter", "data_type": "metrics", "name": "debug", "resource metrics": 1, "metrics": 18, "data points": 44}

此时是可以说明指标上传成功的。

然后我们打开 Prometheus 的地址：http://127.0.0.1:9292/graph便可以查询到 Java 应用和 Go 应用上报的指标。

OpenTelemetry 的 javaagent 会自动上报 JVM 相关的指标。

而在 Go 程序中我们还是需要显式的配置一些埋点：

func initMeterProvider() *sdkmetric.MeterProvider {  
    ctx := context.Background()  
  
    exporter, err := otlpmetricgrpc.New(ctx)  
    if err != nil {  
       log.Printf("new otlp metric grpc exporter failed: %v", err)  
    }  
    mp := sdkmetric.NewMeterProvider(  
       sdkmetric.WithReader(sdkmetric.NewPeriodicReader(exporter)),  
       sdkmetric.WithResource(initResource()),  
    )    otel.SetMeterProvider(mp)  
    return mp  
}

mp := initMeterProvider()
defer func() {
 if err := mp.Shutdown(context.Background()); err != nil {
  log.Printf("Error shutting down meter provider: %v", err)
 }
}()

和 Tracer 类似，我们首先也得在 main 函数中调用 initMeterProvider() 函数来初始化 Meter，此时它会返回一个 sdkmetric.MeterProvider 对象。

OpenTelemetry Go 的 SDK 中已经提供了对 go runtime 的自动埋点，我们只需要调用相关函数即可：

err := runtime.Start(runtime.WithMinimumReadMemStatsInterval(time.Second))
if err != nil {
    log.Fatal(err)
}

之后我们启动应用，在 Prometheus 中就可以看到 Go 应用上报的相关指标了。

runtime_uptime_milliseconds_total Go 的运行时指标

Prometheus 中展示指标的 UI 能力有限，通常我们都是配合 grafana 进行展示的。

手动上报指标

当然除了 SDK 自动上报的指标之外，我们也可以类似于 trace 那样手动上报一些指标；

比如我就想记录某个函数调用的次数。

var meter =  otel.Meter("test.io/k8s/combat")  
apiCounter, err = meter.Int64Counter(  
    "api.counter",  
    metric.WithDescription("Number of API calls."),  
    metric.WithUnit("{call}"),  
)  
if err != nil {  
    log.Err(err)  
}

func (s *server) SayHello(ctx context.Context, in *pb.HelloRequest) (*pb.HelloReply, error) {  
    defer apiCounter.Add(ctx, 1)  
    return &pb.HelloReply{Message: fmt.Sprintf("hostname:%s, in:%s, md:%v", name, in.Name, md)}, nil  
}

只需要创建一个 Int64Counter 类型的指标，然后在需要埋点处调用它的函数 apiCounter.Add(ctx, 1) 即可。

之后便可以在 Prometheus 中查到这个指标了。

除此之外 OpenTelemetry 中的 metrics 定义和 Prometheus 也是类似的，还有以下几种类型：

Counter：单调递增计数器，比如可以用来记录订单数、总的请求数。
UpDownCounter：与 Counter 类似，只不过它可以递减。
Gauge：用于记录随时在变化的值，比如内存使用量、CPU 使用量等。
Histogram：通常用于记录请求延迟、响应时间等。

在 Java 中也提供有类似的 API 可以完成自定义指标：

messageInCounter = meter    
        .counterBuilder(MESSAGE_IN_COUNTER)    
        .setUnit("{message}")    
        .setDescription("The total number of messages received for this topic.")    
        .buildObserver();

对于 Gauge 类型的数据用法如下，使用 buildWithCallback 回调函数上报数据，OpenTelemetry 会在框架层面每 30s 回调一次。

public static void registerObservers() {      
    Meter meter = MetricsRegistration.getMeter();      
      
    meter.gaugeBuilder("pulsar_producer_num_msg_send")      
            .setDescription("The number of messages published in the last interval")      
            .ofLongs()      
            .buildWithCallback(      
                    r -> recordProducerMetrics(r, ProducerStats::getNumMsgsSent));  
  
private static void recordProducerMetrics(ObservableLongMeasurement observableLongMeasurement, Function<ProducerStats, Long> getter) {      
    for (Producer producer : CollectionHelper.PRODUCER_COLLECTION.list()) {      
        ProducerStats stats = producer.getStats();      
        String topic = producer.getTopic();      
        if (topic.endsWith(RetryMessageUtil.RETRY_GROUP_TOPIC_SUFFIX)) {      
            continue;      
        }        observableLongMeasurement.record(getter.apply(stats),      
                Attributes.of(PRODUCER_NAME, producer.getProducerName(), TOPIC, topic));      
    }}

更多具体用法可以参考官方文档链接：https://opentelemetry.io/docs/languages/java/instrumentation/#metrics

如果我们不想将数据通过 collector 而是直接上报到 Prometheus 中，使用 OpenTelemetry 框架也是可以实现的。

我们只需要配置下环境变量:

export OTEL_METRICS_EXPORTER=prometheus

这样我们就可以访问 http://127.0.0.1:9464/metrics 获取到当前应用暴露出来的指标，此时就可以在 Prometheus 里配置好采集 job 来获取数据。

scrape_configs:
  - job_name: "k8s-combat"
    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.
    static_configs:
      - targets: ["k8s-combat:9464"]

这就是典型的 Pull 模型，而 OpenTelemetry 推荐使用的是 Push 模型，数据由 OpenTelemetry 进行采集然后推送到 Prometheus。

这两种模式各有好处：

	Pull模型	Push 模型
优点	可以在一个集中的配置里管理所有的抓取端点，也可以为每一个应用单独配置抓取频次等数据。	在 OpenTelemetry 的 collector中可以集中对指标做预处理之后再将过滤后的数据写入 Prometheus，更加的灵活。
缺点	1. 预处理指标比较麻烦，所有的数据是到了 Prometheus 后再经过relabel处理后再写入存储。 2. 需要配置服务发现	1. 额外需要维护一个类似于 collector 这样的指标网关的组件

比如我们是用和 Prometheus 兼容的 VictoriaMetrics 采集了 istio 的相关指标，但里面的指标太多了，我们需要删除掉一部分。

就需要在采集任务里编写规则：

apiVersion: operator.victoriametrics.com/v1beta1  
kind: VMPodScrape  
metadata:  
  name: isito-pod-scrape  
spec:  
  podMetricsEndpoints:  
    - scheme: http  
      scrape_interval: "30s"  
      scrapeTimeout: "30s"  
      path: /stats/prometheus  
      metricRelabelConfigs:  
        - regex: ^envoy_.*|^url\_\_\_\_.*|istio_request_bytes_sum|istio_request_bytes_count|istio_response_bytes_sum|istio_request_bytes_sum|istio_request_duration_milliseconds_sum|istio_response_bytes_count|istio_request_duration_milliseconds_count|^ostrich_apigateway.*|istio_request_messages_total|istio_response_messages_total  
          action: drop_metrics  
  namespaceSelector:  
    any: true

换成在 collector 中处理后，这些逻辑都可以全部移动到 collector 中集中处理。

总结

metrics 的使用相对于 trace 更简单一些，不需要理解复杂的 context、span 等概念，只需要搞清楚有哪几种 metrics 类型，分别应用在哪些不同的场景即可。

参考链接：

https://prometheus.io/docs/prometheus/latest/feature_flags/#otlp-receiver
https://opentelemetry.io/docs/languages/java/instrumentation/#metrics
https://opentelemetry.io/docs/languages/go/instrumentation/#metrics

最后夹带一点私活，最近做了一个知识星球，已经试运行一段时间，效果还不错（具体详情可以扫码查看）；感兴趣的朋友可以扫码领取优惠券以 49 元的价格加入（支持三天内无条件退款）。

往期推荐

OpenTelemetry 实战：从零实现分布式链路追踪

深入理解单元测试：技巧与最佳实践

Pulsar升级自动化：一键搞定集群升级与测试

Pulsar客户端消费模式揭秘：Go 语言实现 ZeroQueueConsumer

Nginx监控不再难：简化部署流程，提升监控效率

点分享

点收藏

点点赞

点在看

crossoverJie

技术、生活、观点、原创。原创公众号；主要关注 Go、JVM、并发、分布式、网络等相关技术。

最新文章

如何在平淡的工作中整理出有价值的简历

邀请函 | Pulsar Developer Day 2024 开发者大会邀您报名！

完整议程释出 | 30+全球技术大咖齐聚 StarRocks Summit Asia 2024，共论 Lakehouse 未来

如何选择可以搞钱的技术栈

永久激活GPT4.0！有效期至2296年！我上车了！！

推荐一些值得学习的开源项目和框架

StarRocks 物化视图刷新流程和原理

时隔五年 9K star 的 IM 项目发布 v2.0.0 了

线上高延迟请求排查

深入理解 StarRocks 的元数据管理

IM系统重构到 SDK 设计的最佳实践

StarRocks 开发环境搭建踩坑指北

如何为复杂的 Java 应用编写集成测试

OpenTelemetry 实战：从 0 到 1 编写一个 Instrumentation

我用我的270篇文章做了一个数字 AI 替身

OpenTelemetry在企业内部应用所需要的技术栈

邀请函 | Pulsar Meetup 北京 2024

日志与追踪的完美融合：OpenTelemetry MDC实践指南

业界首个OpenTelemetry结合eBPF的向导式可观测性平台APO正式开源

OpenTelemetry 实战：gRPC 监控的实现原理

OpenTelemetry 实战：从零实现应用指标监控

OpenTelemetry 实战：从零实现分布式链路追踪

深入理解单元测试：技巧与最佳实践

Pulsar升级自动化：一键搞定集群升级与测试

Pulsar客户端消费模式揭秘：Go 语言实现 ZeroQueueConsumer

Nginx监控不再难：简化部署流程，提升监控效率

案例实践 | 如何做好 Apache Pulsar 的运维？ASP 产品简介

载均衡技术全解析：Pulsar 分布式系统的最佳实践

我是如何从零到成为 Apache 顶级项目的 Committer

开源项目如何做集成测试

从Helm到 Operator：Kubernetes应用管理的进化

五个我最近在 Go 里学到的小技巧

如何找到并快速上手一个开源项目

OpenTelemetry 深度定制：跨服务追踪的实战技巧

Go 1.23：拥抱iter包，简化你的迭代逻辑

Rust 在许多方面都优于 Go，但为什么没有 Go 流行？

从 Prometheus 到 OpenTelemetry: 指标监控的演进与实践

从 Dapper 到 OpenTelemetry：分布式追踪的演进之旅

几个你或许并不知道 kubernetes 技巧

stack overflow 与 OpenAI 的合作引起了巨大争议

实操 OpenTelemetry：通过 Demo 掌握微服务监控的艺术

程序员如何提升个人技术影响力

OpenTelemetry 实践指南：历史、架构与基本概念

Google 如果把 Go 团队给裁了会怎么样？

OpenTelemetry agent 对 Spring Boot 应用的影响：一次 SPI 失效的调查

自动化测试在 Kubernetes Operator 开发中的应用：以 OpenTelemetry

深入剖析：如何使用Pulsar和Arthas高效排查消息队列延迟问题

Pulsar Meetup 深圳 2024 大咖推荐

日志架构演进：从集中式到分布式的Kubernetes日志策略

实战：如何编写一个 OpenTelemetry Extensions

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉