首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

线上高延迟请求排查

科技 2024-10-29 08:08 重庆

前几天排查了一个业务接口执行高延迟的问题，也挺有参考意义的，分享一下排查过程。

本文首发在我的知识星球里，感兴趣的朋友可以加入：

现象是业务反馈有一个接口业务逻辑其实很简单，但是调用一次耗时，如下图所示：

排查应用运行状态

首先第一步需要查看当时的应用运行状态，包含当时的日志、JVM 的各种监控等。

因为我们接入了 OpenTelemetry，所以 trace 和日志是可以关联起来的。

点击链路系统旁边的日志按钮可以直接跳转。

可以通过 trace_id 查询到相关日志：

通过日志可以看出耗时大约在 4s 多一点，然后结合代码发现这两段日志分别是在进入一个核心业务方法之前和方法内打印的。

而第一行日志是在一个自定义限流器中打印的，这个限流器是使用 Guava 的 RateLimiter实现的。

我的第一反应是不是这个限流器当时限流了，从而导致阻塞了；但查看了当时的 QPS 发现完全低于限流器的配置，所以基本可以排除它的嫌疑了。

JVM 监控

之后我们查询当时的 JVM 监控发现当时的 GC 频繁，而堆内存也正好发生了一次回收，初步判断是 GC 导致的本次问题。

但为啥会导致频繁的 GC 呢，还需要继续排查。

内存排查

我们在应用诊断中集成了 Pyroscope的持续剖析，可以实时查看内存的占用情况。

image.png

通过内存分析发现有大量的 JSON 序列化占用了大量的内存，同时还发现 Pod 已经被重启好几次了：

image.png

查看原因发现是 Pod OOM 导致的。

因此非常有可能是 GC 导致的，恰好那段时间发生了 GC 内存也有明显变化。

最后再通过 arthas 确认了 GC 非常频繁，可以确认目前的资源是是非常紧张的，咨询业务之后得知该应用本身占用的资源就比较大，没有太多优化空间，所以最终决定还是加配置。还是提高硬件效率最高，目前运行半个月之后 Pod 内存表现稳定，没有出现一次 OOM 的异常。

总结

虽然最后的处理的方式是简单粗暴的，但其中的过程还是有意义的，遇到不同的情况也有不同的处理方式。

比如在排查过程中发现内存消耗异常，通过内存分析发现代码可以优化，那就优化代码逻辑。

如果是堆内存占用不大，但是 Pod 还是 OOM 导致重启，那就要看看 JVM 的内存分配是否合理，应该多预留一些内存给堆外使用。

但这个过程需要有完善的可观测系统的支撑，比如日志、监控等，如果没有这些数据，再回头排查问题就会比较困难。

总之这个排查过程才是最主要的，大家还有什么排查问题的小 tips 也欢迎在评论区分享。

往期推荐

深入理解 StarRocks 的元数据管理

IM系统重构到 SDK 设计的最佳实践

StarRocks 开发环境搭建踩坑指北

如何为复杂的 Java 应用编写集成测试

OpenTelemetry 实战：从 0 到 1 编写一个 Instrumentation

点分享

点收藏

点点赞

点在看

技术、生活、观点、原创。原创公众号；主要关注 Go、JVM、并发、分布式、网络等相关技术。

最新文章

如何在平淡的工作中整理出有价值的简历

邀请函 | Pulsar Developer Day 2024 开发者大会邀您报名！

完整议程释出 | 30+全球技术大咖齐聚 StarRocks Summit Asia 2024，共论 Lakehouse 未来

如何选择可以搞钱的技术栈

永久激活GPT4.0！有效期至2296年！我上车了！！

推荐一些值得学习的开源项目和框架

StarRocks 物化视图刷新流程和原理

时隔五年 9K star 的 IM 项目发布 v2.0.0 了

线上高延迟请求排查

深入理解 StarRocks 的元数据管理

IM系统重构到 SDK 设计的最佳实践

StarRocks 开发环境搭建踩坑指北

如何为复杂的 Java 应用编写集成测试

OpenTelemetry 实战：从 0 到 1 编写一个 Instrumentation

我用我的270篇文章做了一个数字 AI 替身

OpenTelemetry在企业内部应用所需要的技术栈

邀请函 | Pulsar Meetup 北京 2024

日志与追踪的完美融合：OpenTelemetry MDC实践指南

业界首个OpenTelemetry结合eBPF的向导式可观测性平台APO正式开源

OpenTelemetry 实战：gRPC 监控的实现原理

OpenTelemetry 实战：从零实现应用指标监控

OpenTelemetry 实战：从零实现分布式链路追踪

深入理解单元测试：技巧与最佳实践

Pulsar升级自动化：一键搞定集群升级与测试

Pulsar客户端消费模式揭秘：Go 语言实现 ZeroQueueConsumer

Nginx监控不再难：简化部署流程，提升监控效率

案例实践 | 如何做好 Apache Pulsar 的运维？ASP 产品简介

载均衡技术全解析：Pulsar 分布式系统的最佳实践

我是如何从零到成为 Apache 顶级项目的 Committer

开源项目如何做集成测试

从Helm到 Operator：Kubernetes应用管理的进化

五个我最近在 Go 里学到的小技巧

如何找到并快速上手一个开源项目

OpenTelemetry 深度定制：跨服务追踪的实战技巧

Go 1.23：拥抱iter包，简化你的迭代逻辑

Rust 在许多方面都优于 Go，但为什么没有 Go 流行？

从 Prometheus 到 OpenTelemetry: 指标监控的演进与实践

从 Dapper 到 OpenTelemetry：分布式追踪的演进之旅

几个你或许并不知道 kubernetes 技巧

stack overflow 与 OpenAI 的合作引起了巨大争议

实操 OpenTelemetry：通过 Demo 掌握微服务监控的艺术

程序员如何提升个人技术影响力

OpenTelemetry 实践指南：历史、架构与基本概念

Google 如果把 Go 团队给裁了会怎么样？

OpenTelemetry agent 对 Spring Boot 应用的影响：一次 SPI 失效的调查

自动化测试在 Kubernetes Operator 开发中的应用：以 OpenTelemetry

深入剖析：如何使用Pulsar和Arthas高效排查消息队列延迟问题

Pulsar Meetup 深圳 2024 大咖推荐

日志架构演进：从集中式到分布式的Kubernetes日志策略

实战：如何编写一个 OpenTelemetry Extensions

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉