使用单一跟踪节省三个月的延迟

文摘科技 2024-09-12 00:07 山东

了解 OpenTelemetry 跟踪和 Coralogix 分析如何解决延迟问题，证明可观测性在提高系统性能和可靠性方面的作用。

译自Coralogix and OpenTelemetry on Checkly: Optimizing Latency，作者 Jan Grzesik。

可观测性的意义何在？当然，如果您编写了良好的代码，维护它，处理技术债务并正确管理其资源，它将运行良好？为什么您需要密切关注已经过测试并且运行良好的服务？在本文中，我想展示如何使用 Checkly 和 Coralogix 等工具对系统进行持续监控，可以发现无法预测或预先优化的问题。更一般地说，我们将看到可观测性识别出的微小修复如何产生重大影响。

我们使用 OpenTelemetry 监控我们的 Node 服务并将数据发送到 Coralogix 仪表板，并通过一些挖掘发现了一个问题，该问题导致我们所有任务在一个多月的时间里都存在延迟。这是一个时间投入少，收益大的胜利，也是对可观测性工具的有力论据。

第 1 部分 - 为缓慢的进程添加 OpenTelemetry 监控

我们的故事始于一个谜团：一个比预期花费更长时间的进程。涉及的进程是“清理时间：”Checkly 服务在检查完成后花费的时间。在此期间，我们将跟踪写入我们的数据存储，发送带有状态的事件等。所有需要发生的事情，以便 Checkly 服务显示来自检查的数据，并在出现问题时通知用户。

我们决定使用 OpenTelemetry 来识别我们后端代码中问题的根源。Coralogix 支持 OpenTelemetry 从我们的应用程序获取遥测数据（跟踪、日志和指标），因为请求通过其众多服务和基础设施。

驯服 OpenTelemetry Node 跟踪

OpenTelemetry 项目包含多个处于不同成熟度级别的语言项目，但所有列在主要语言项目页面上的项目都由生产中的大型团队使用。我们最初对开箱即用的 Node OpenTelemetry 项目的体验是跟踪非常嘈杂。

我们早期跟踪之一，其中包含许多微秒级的时间跨度

在 CNCF Slack 上咨询了一些聪明人后，我们发现 Node OpenTelemetry 仪器存在一些现有问题。很明显，问题是捕获了NodeJS 的文件系统，每次需要模块时都会创建一个跨度。通过修改我们的配置，我们禁用了文件系统仪器并开始获得更有趣的跟踪数据。

具有多种跨度类型和毫秒级测量，这是一个值得一看的跟踪。

有许多方法可以过滤您的 OpenTelemetry 数据，事实上，如果您对这个主题感兴趣，您可能想查看 Nica 最近在KCD 纽约：“控制来自 OpenTelemetry 收集器的 Data Overhead。”上的演讲。

第 2 部分发现红旗 - 神秘的重新身份验证

可观测性做得对的一件很棒的事情是人类操作员在最高级别调查中的作用。自动扫描对很多事情都有用，但人类滚动浏览跟踪可以立即注意到看起来不对劲的事情。

值得注意的是，如果您想确保自己的检查跟踪更易于人类阅读，请考虑在您的 Playwright 代码中添加步骤以确保其他人可以看到检查组件的目的。

在我们的跟踪情况下，我们注意到对安全凭据的请求发生不止一次。这些请求间隔足够远，以至于它们没有显示在同一页的跨度中：

当您获取安全令牌时，一次很奇怪，两次很糟糕。

了解到问题是多个对 AWS 身份验证的请求后，我们搜索了一下，找到了AWS SDK 中的具体问题。

令人高兴的是，Yurii Siedin使用他自己的跟踪工具展示了问题的明确证据：

有时跟踪只是展示问题最简单的方法。通过在 GitHub 问题中推荐的修复方法，将我们身份验证调用的结果保存在本地，避免重复请求，问题从我们的跟踪中消失了。

第 3 部分 - 微小的改变，巨大的收益

一个小小的改进可以带来巨大的改变。在本例中，我们修复的合并导致了维护任务时间的显著下降。

每次检查后运行的“维护”任务的平均执行时间下降了 40 毫秒。

将平均时间减少 40 毫秒可能看起来并不多，但这些任务是在每次检查后运行的。回想一下，即使每 2 分钟运行一次单页检查，每月也会超过 20,000 次检查。考虑到 Checkly 每月运行数亿次检查，这 40 毫秒的节省很快就会累积起来。

40 毫秒 * 2.5 亿次检查 / 每小时 3,600,000 毫秒 = 2,777 小时执行时间

这意味着在一个月的检查中，我们节省了超过 115 天的执行时间！结果是每个用户的性能略有提高，并且对我们的基础设施成本产生了重大影响，因为我们为完成相同任务而支付的计算时间更少。

结论 - 监控所有你能监控的东西，还有 OpenTelemetry 规则

可观测性是关于减少未知的未知数 - 不受欢迎的意外。这不是关于在错误发生之前捕获所有可能的错误 - 这是一个不切实际的目标。它是关于拥有可见性来理解和改进我们以前没有预料到的系统。Checkly 的愿景之一是，通过像 Checkly CLI 这样的工具，我们可以让每位工程师参与他们的监控工具。这种“监控即代码”（MaC）工作流程意味着，您可以通过让经验丰富的工程师帮助监控他们最了解的系统来减少意外事件的数量。

为什么可观测性很重要

这里的故事强调了一个基本事实：无论你的测试多么彻底，代码多么干净，都会出现不可预见的问题。SDK 在不同的条件下会有不同的行为，在受控测试环境中有效的东西并不完全等于现实世界的操作。有些问题只发生在服务器环境中（而不是本地），OTEL 是一个很好的工具，可以深入了解已部署和正在运行的应用程序内部真正发生了什么。像 OpenTelemetry 这样的可观测性工具提供了我们观察这些条件、了解其影响并有效响应的镜头。

开放标准很重要。这就是为什么我们在 Checkly 支持开源 Playwright 库来编写我们所有的站点检查，从而允许自动执行像视觉回归测试和等待元素这样的复杂站点交互。

Coralogix 用于 OpenTelemetry

与捕获有关您最重要的流程的跟踪数据一样重要，重要的是拥有一个简单的方法来查看和共享这些数据，以便在您的组织中共享。在 Checkly，我们知道如果没有一个直观的界面来浏览我们所测量的数据，我们的合成监控数据就不会那么有用。

对于您后端服务的 OpenTelemetry 数据，Coralogix 是一个很好的地方，可以将这些数据发送到那里并分析您发现的内容。

使用 Coralogix 仪表板对我们的 OpenTelemetry 数据进行排序和过滤，可以轻松地观察到这个问题。将您的遥测数据和 Coralogix相结合，可以增强您系统可观测性的能力。

小修复的影响

我们问题的解决方案 - 一个看似微不足道的优化 - 对运营效率和成本产生了深远的影响，节省了数千小时的执行时间。有时，它需要通过跟踪来寻找不“适合”的东西，并找出其他人是否也遇到了同样的问题。

展望未来：Checkly x Coralogix

OpenTelemetry 为监控数据的存储和共享带来了巨大的前景。正是通过用于发送跟踪的 OpenTelemetry 标准，Checkly 团队实装了我们的 Coralogix 集成，以便将我们的综合用户监控跟踪发送至您的 Coralogix 控制面板。欢迎查阅我们最近对新集成的公告。

最终想法

从经过良好监控的系统中获得的见解可以指导优化，通知架构决策，并且最终导致更具弹性和效率的应用程序。这就是我们支持 Monitoring as Code 工作流的原因，其中 Checkly CLI 等工具可以帮助您将监控转变为每个开发人员工作流程的一部分，直接从命令行运行和部署测试。

总之，监控您能够监控的所有内容。您将获得的见解是无价的。是的，OpenTelemetry 规则。

http://mp.weixin.qq.com/s?__biz=MzIzMzcxMTUxOQ==&mid=2247494607&idx=4&sn=b79c215d18908700efcba03796d66e5a

云云众生s

云原生践行者

最新文章

将CURSOR AI作为开发工作流程的一部分

NVIDIA AI应用平台NIM开发人员指南

机器遗忘：为什么教人工智能忘记至关重要

成为AI高级用户：AI领域的成功策略

JAVASCRIPT、PYTHON和JAVA位列语言排行榜前列

PYTHON中如何使用继承

在Python代码中使用JSON的方法

PYTHON TRY…EXCEPT的使用

用于DOCKER CI/CD的DAGGER和安全漏洞

向量数据库基础：HNSW

云应用文档质量差让你头疼？打破循环

共享服务平台是否过于限制？

两个减少DEVOPS摩擦的开源AI工具

你应该成为合同工吗？

功能标志无法阻止CrowdStrike停机

开发人员：网络安全的首道防线

KUBERNETES超越RBAC – 通过WEBHOOK自定义授权

REMOCAL开发：高效KUBERNETES工作流的未来

KUBERNETES上数据管理 (DOK)的四种解决方案

SUSE将STACKSTATE与RANCHER结合用于KUBERNETES可观测性

Cursor AI设置AI编码辅助标准的5种方式

Copilot自动修复：AI解决代码漏洞难题

AI编码助手的12个注意事项

英伟达硬件路线图及其对开发者的影响

学习LINUX？从这里开始

无处安放的代码-重读《企业应用架构模式》

GRAPHQL与OPENAPI：数据治理的优缺点

使用单一跟踪节省三个月的延迟

使用Cookie和Token处理程序保护单页应用程序

领域特定AI：AISERA对企业需求的答案

大型语言模型函数调用入门

解决POSTGRESQL逻辑复制的挑战

OPENTELEMETRY COLLECTOR简介

无需GPU运行AI的情况：一个“FARM FRESH”案例研究

JetBrains增强AI代码补全功能

大语言模型如何指引我们走向配置和编码的幸福之路

AI驱动的可观测性：从AIOPS的失败中汲取教训

与数据对话：大型语言模型正在改变AIOps

车辆互联领域的快速创新正在催生新的开发者角色

即使是数据驱动型公司也无法充分发挥数据的潜力

史蒂夫·沃兹尼亚克重聚历史悠久的家庭酿造计算机俱乐部

周五部署？暂停令无法实现令人钦佩的目标

一家公司重新思考Diff以缩短代码审查时间

使用数据库编程在POSTGRESQL上构建石头剪刀布游戏

ELASTIC意外回归开源背后的原因是什么？

GPU共享技术指南：VGPU、MIG和时间切片

使用JAVASCRIPT构建可扩展的实时应用程序

人工智能驱动的服务模型加速故障排除

Bechtle平台工程重塑软件开发

Supabase如何构建其平台工程策略

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

使用单一跟踪节省三个月的延迟

目录

第 1 部分 - 为缓慢的进程添加 OpenTelemetry 监控

驯服 OpenTelemetry Node 跟踪

第 2 部分 发现红旗 - 神秘的重新身份验证

第 3 部分 - 微小的改变，巨大的收益

结论 - 监控所有你能监控的东西，还有 OpenTelemetry 规则

为什么可观测性很重要

Coralogix 用于 OpenTelemetry

小修复的影响

展望未来：Checkly x Coralogix

最终想法

第 2 部分发现红旗 - 神秘的重新身份验证