2025年的可观测性:OpenTelemetry和AI填补空白

文摘   科技   2025-01-01 03:48   山东  


生成式AI技术的快速成熟、OpenTelemetry的更广泛使用以及削减成本的压力将塑造来年可观测性领域的发展。

译自Observability in 2025: OpenTelemetry and AI to Fill In Gaps,作者 B Cameron Gain。

可观测性,如同软件测试一样,应该是一种检测和分析供应链中或网络上任何位置的任何代码的方法。它应该能够预测即将发生的错误甚至灾难,或者预测特定项目的可行性。它还应该越来越多地自动化这些任务,例如在不良行为者访问网络、堆栈、容器等时发生安全漏洞的情况。

可观测性主要由运维工程师处理的日子已经过去了,他们以前需要解析大量的日志、指标和追踪信息来找出问题发生的时间和方式。在 2024 年,我们看到了可观测性的应用及其使用从开发人员的左移周期开始,扩展到堆栈中更强大的功能,现在也扩展到网络,并在高度分布式系统中继续扩展到边缘。

OpenTelemetry在 2024 年取得了一些巨大进步,成为我们关注焦点并带来其他好处的一种方式。我们已经在 2024 年开始看到其影响,2025 年 OpenTelemetry 的发展应该会更加令人瞩目,这要归功于最雄心勃勃且最成功的开源项目之一。

当然,AI 无处不在,是一个热门话题,但现在我们开始看清炒作的本质。至少在可观测性方面,它的革命性影响不会立即显现。由于预算缩减和云计算以及可观测性成本上升,组织不仅要求降低成本,还要求可观测性平台能够通过增加功能来兑现其承诺,而提供商则试图降低其产品的成本。

在这种情况下,2025 年对于可观测性来说应该是一个好年头,至少在增长方面是这样。根据 Gartner 的数据,预计从 2022 年到 2027 年,市场将增长 15%。Gartner 分析师Pankaj Prasad和Matt Crossley在“Gartner 的监控和可观测性炒作周期,2024 年”中写道,企业将依靠可观测性来提高生产力、促进收入增长和推动组织文化转型。

以下是关于 2025 年可观测性领域预期情况的五个预测。

OpenTelemetry 是 2024 年的成功案例,它是一种实现可观测性工具标准化的方式,涵盖指标、追踪、日志等等。

作为一项开源标准,OTel 已经为用户组织带来了巨大的好处,它提供了不同可观测性解决方案和工具之间更大程度的互换性。可观测性提供商越来越多地以事实上的标准方式提供 OpenTelemetry,从而简化并增强了跨不同提供商的使用自由度。

“Morgan McLean,思科公司旗下的 Splunk高级产品管理总监兼OpenTelemetry联合创始人告诉 The New Stack:“很明显,许多人都看到了 OTel 产品在收集可观测性数据方面的标准化优势。”“到 2025 年,OpenTelemetry 将稳固地确立其行业标准地位,各行各业的主要公司——航空公司、银行和其他企业——都将广泛使用和采用 OpenTelemetry。”

OpenTelemetry 被视为成本优化的关键组成部分。今年早些时候,OpenTelemetry的探查器被证明与指标、追踪和日志数据一样重要。McLean 在 11 月告诉 The New Stack,OTel 探查信号的普遍可用性目标定在 2025 年年中,尽管探查器在六年多前就已经在某种程度上可用。

他在给 TNS 的另一封电子邮件中说:“随着 OpenTelemetry 探查信号即将发布,各种规模的组织很快就能获得必要的工具来识别代码低效之处,而无需定制解决方案。” 随着OpenTelemetry的广泛采用,它将成为可观测性领域创新的关键驱动力,McLean表示。“这一转变将标志着可观测性成熟新时代的开始,其特点是无缝、标准化的数据收集,”他说。“这将使组织能够获得更深入的见解并简化数据管理,最终支持更有效的决策和更高的运营效率。”

2. 可观测性右移

消费和工业用途的边缘计算环境中可用设备的数量预计将迅速增加。这些设备继续提供更强大的计算和连接能力。

它们的使用增加也意味着可观测性和监控必须扩展到边缘设备。对于尚未提供此功能的可观测性公司而言,在2025年满足这一需求对于满足更多将堆栈扩展到边缘环境的客户至关重要。

更好的前端可观测性提供了直接了解用户体验的窗口。由于OpenTelemetry提供的标准化,用户应该能够受益于不仅允许更动态地调试用户面临的应用程序错误或连接的边缘设备(如传感器),而且能够在问题发生之前检测潜在问题,同时还能为改进后端性能分析提供遥测数据。

其目的是帮助提供对客户体验的实时修复和改进。对于数百万个正在使用的移动应用程序、边缘设备和部署而言,改进客户体验的需求始终存在。

现在,可观测性已经超越了对日志、跟踪和指标的简单监控——并且由于OpenTelemetry——可观测性提供商将能够比以往任何时候都更能为组织提供对用户体验的更多可见性,Enterprise Strategy Group应用现代化首席分析师Volk表示。

“OpenTelemetry提供并投入资源来构建可观测性平台,以便提供商可以比标准化和其他OpenTelemetry提供的优势更广泛地应用之前更专注于创建功能和支持前端服务,”Volk说。

3. 可观测性左移

平台工程师、运维工程师、DevOps以及所有利益相关者都意识到,可观测性在开发周期中对开发人员很有用。这对于高度分布式和互连的服务和应用程序(例如Kubernetes)尤其重要,这些应用程序也是高度分布式的。

除了测试之外,对堆栈进行非常详细级别的可观测性——以及它如何在整个开发周期中与应用程序的其余部分交互——是可观测性的另一个关键方面。这方面最终应该在2025年看到更广泛的部署。

同样,由于OpenTelemetry和分析信号,各种规模的组织很快就能获得必要的工具来识别代码低效之处,而无需定制解决方案,McLean说。

“此增强功能还将有助于改善开发人员体验,因为分析提供了对其代码影响的无与伦比的视图,从而促进了更快、更经济高效的优化,”他说。“可观测性领导者特别是因为OpenTelemetry而降低了可观测性成本。”

Gartner将这种左移趋势描述为可观测性驱动开发 (ODD) 软件成为工程实践的一部分,“通过设计可观测系统,提供对系统状态和行为的细粒度可见性和上下文,”Gartner分析师Prasad和Crossley在其先前引用的“炒作周期”报告中写道。“ODD 通过检测代码来解开系统的内部状态,并使用外部可观察的数据。作为软件开发左移方法的一部分,ODD 使在开发生命周期的早期和生产环境中更容易检测、诊断和解决意外异常。”

4. AI:仍然被炒作,但现在更相关

AI/机器学习和生成式AI当然会继续对可观测性的发展和使用产生潜在的深远影响。虽然2025年将不可避免地看到新的产品使用AI/ML来分析和处理经过良好训练的LLM的遥测数据,但我们仅仅处于其使用和采用的初期阶段。

目前,根据Gartner的Prasad和Crossley的说法,关于如何使用GenAI创建低代码可观测性工件尚不清楚。业务重点正在从对基础模型的兴奋转向能够带来投资回报率的用例。

Prasad和Crossley写道:“大多数GenAI实施目前风险较低且属于内部实施。随着生产力工具和AI治理实践的快速发展,各组织将把GenAI部署到行业垂直领域和科学发现等更关键的用例中。”“从长远来看,GenAI支持的对话界面将促进技术商业化,使AI和其他技术民主化。”

事实上,我们已经经历了AI泡沫,Honeycomb.io的Charity Majors, CTO兼联合创始人,和Phillip Carter, 首席产品经理,在他们公司博客的一篇文章中写道,但这符合常理:“是否存在AI泡沫?是的,几乎可以肯定。然而,在技术领域,泡沫的大小往往与其最终影响的程度相关。AI并非魔法,而是一种具有许多强大应用的工具。”

至少对于可观测性而言,其理念是,它将继续作为一个不太完美的副驾驶助手以及用于可观测性分析和预测结果的工具而不断改进。

Grafana的CTOTom Wilkie告诉The New Stack:“最终目标是让工程师有更多时间进行创新,而不是进行故障排除。AI/ML应该是副驾驶,而不是自动驾驶仪,它将帮助初级开发人员达到高级SRE的水平。”“2025年将使我们更接近这一现实,但我们看不到AI/ML取代人类的未来——它只是让人们更聪明。可观测性中的AI/ML是关于扩展人类智能,而不是取代它。”

Wilkie表示,在2025年,AI/ML的集成应该提供:

  • 成本优化:手动分析数百万个时间序列的使用模式是不可行的,这就是为什么我们创建了一套由AI/ML驱动的自适应遥测工具。这些解决方案会自动将未使用的和部分使用的数据(指标、日志和跟踪)聚合到其自身较低基数的版本中,以降低成本。

  • 降低运营负担,并具有预测能力:在Grafana的一项研究中,异常检测是受访者最需要的功能。“我们相信在这个领域有很多节省时间的潜力,这就是为什么我们正在大力投资它。AI可以自动化传统上会占用工程师时间的例行任务,”Wilkie说。“工程师无需手动筛选日志和指标,就可以利用AI/ML快速发现异常——以及潜在的根本原因。”

数据湖是可观测性领域的一项新兴技术,由于GenAI的出现,预计到2025年将得到广泛采用。为了充分利用数据湖,需要一个能够观察基于LLM的应用程序的平台。借助数据湖,可观测性平台可以用来分析数据,而无需客户放弃数据主权和安全性,从而确保对数据存储位置的控制,并确保符合法规。

单个数据湖还可以无限扩展,同时持续训练LLM以改进AI辅助数据分析。随着LLM和生成式AI的兴起,数据湖对于对这些模型进行故障排除变得至关重要。更多组织可能会在2025年寻求利用这些优势。

Kloudfuse的联合创始人兼首席执行官Krishna Yadappanavar告诉The New Stack:“生成式AI和LLM正在兴起,但监控它们需要实时处理大量数据,这对于[软件即服务]可观测性供应商来说可能成本高昂。”“在客户的私有云基础设施上部署可观测性提供了一种更经济高效且可扩展的解决方案。”

Yadappanavar说,这些模型还依赖于多步骤推理,从各种LLM、数据库、向量嵌入、函数调用等中获取数据。为了有效地分析和排除LLM链中的性能问题,Yadappanavar说,统一的数据可观测性平台至关重要。它必须整合和分析分布式跟踪、日志、指标和事件,并具有广泛的数据源集成和开放式架构,以从所有来源获取数据。

5. 可观测性成本应下降

过去几年里,开发和运维团队对高价值数据馈送或遥测数据馈送的需求一直在反复变化。然而,这些可观察性馈送是有成本的。一些大型客户每年在可观察性解决方案上花费数千万美元并非闻所未闻。在某些情况下,这些成本包括安全覆盖,具体取决于可观察性提供商。

这种按需付费模式越来越受到首席财务官和其他财务决策者的严格审查,他们正承受着削减支出的压力。因此,DevOps 团队被要求更精心地选择他们付费的遥测数据,专注于可观察性和服务分析。到 2025 年,随着客户和组织对更高级功能的需求增加,他们肯定不希望支付更多费用。相反,他们会寻找可观察性提供商如何通过更好的工具或实践帮助他们降低成本的方法。

Wilkie 说:“用户有权要求不仅以他们支付的价格获得更多功能,而且要求数据馈送能够区分代价高昂的浪费和账单以及他们真正需要的指标和其他遥测数据。”

       

云云众生s
关注云原生时代的普通人 - 云原生 | 平台工程 | AI
 最新文章