基于 AI 的服务建模可以更快地进行根本原因分析,持续优化和持续合规,从而更快地解决问题。
译自AI-Powered Service Models Speed Troubleshooting,作者 Mary Chen。
如果您管理着现代化的分布式 IT 环境,那么上下文对于故障排除和分析生产问题对业务的影响至关重要。但获取这些上下文可能很困难。
您可能拥有不同的团队和可观察性解决方案来管理为业务服务做出贡献的不同层级,或者不同的工具生成有用的遥测数据,例如指标、事件、日志、跟踪和拓扑,但它们在孤岛中运行。也许您没有环境中连接的模型。或者,所有关于因果关系、行动和后果的知识都没有记录,而是被锁定在某人的机构记忆中。
为了在复杂的环境中准确快速地查明服务问题的根本原因,您需要深入了解应用程序、API 和网络层之间的关键路径和依赖关系级别。
高性能图数据库、动态服务建模功能和因果 AI 可以帮助您理解和建模不同应用程序、API 以及网络和基础设施层之间的因果关系。对您的服务进行建模——构建服务可视化以及各种系统和基础设施组件之间的关系——为故障排除提供了关键的上下文。定义明确的服务为您提供了端到端的视图,可以快速识别受影响的节点,从而更快地进行根本原因分析。
服务建模的工作原理
假设您拥有 IT 环境的动态和协调图数据库,其中所有类型的摄取数据(指标、事件、日志、跟踪、拓扑)都已标准化,对您的服务进行建模涉及以下步骤:
识别您要建模的最终用户服务,并将服务详细信息作为输入添加到服务建模工具中。应用程序性能监控 (APM) 工具可以提供有关软件组件及其跨云、主机和容器拓扑关系的特定于应用程序的详细信息。基础设施和网络监控工具以及扫描工具可以详细说明基础设施与底层虚拟和物理设备(例如服务器、数据库、交换机、路由器、防火墙和负载均衡器)的连接。
使用蓝图动态遍历所有层,以自动将应用程序拓扑连接到主机和网络设备。发现和监控工具可以提供服务蓝图,以简化动态服务模型的创建和维护。这些服务模型支持微服务、Kubernetes、云服务、应用程序性能跟踪和主机等现代技术,以准确跟踪所有 IT 资源和关系。蓝图使表达识别服务所有元素的简单规则变得容易。您只需定义一次规则,然后将其应用于所需的所有服务。
计算服务的健康评分。了解服务基于服务模型组件中的指标、异常和事件的当前和历史健康状况,可以帮助您识别健康影响或服务性能下降的根本原因。机器学习 (ML) 算法可以计算健康评分,因此您可以快速了解问题的范围。
如何将 AI 整合到更快的故障排除中
因果 AI 和生成式 AI (GenAI) 等 AI 技术可以通过将原因与结果联系起来并翻译根本原因洞察力来帮助加速故障排除过程。真正的AIOps需要一个完整的系统,该系统旨在通过最终用户和业务影响的视角来收集和建模数据。使用上述过程进行的服务建模使您可以自信地使用 AI 生成可靠的洞察力。
因果 AI 整合了知识图谱和基于转换器的 AI 技术,以理解和建模遥测数据变量之间的关系。因果 AI 可以使用拓扑数据来推断因果关系或模式。基于知识图谱的因果分析分析因果关系如何根据变量相互影响的方式而变化。
在生产故障排除中使用因果 AI:
通过提供事件相关联方式以及如何识别根本原因的可视化表示,帮助您理解和解释问题。
通过自动识别之前是否发生过类似情况,加速故障排除。如果您已经看到并解决了问题,则无需再次经历整个发现过程。因果 AI 会对重复出现的情况进行指纹识别,以便将来识别,从而帮助加快平均恢复时间 (MTTR) 并减少事件噪音。
GenAI 在故障排除过程中也发挥着重要作用。它可用于生成:
纯文本摘要,与解码一系列输出错误代码相比,可以更快、更简单地了解问题。
解决问题的最佳行动建议。
对故障排除期间常见问题的解答。
为了让 AI 算法提供您信任的结果,数据的质量至关重要。使用定义明确的服务模型建立正确的基础至关重要。
真实世界应用
服务建模已经在服务管理方面产生了重大影响。它减少了调查时间,帮助您在问题影响业务之前看到并响应问题。
以下是如何使用服务建模来实现更快地根本原因分析、持续优化和持续合规性的示例。
根本原因分析:通过将服务依赖关系建模为协调的拓扑结构,您可以隔离问题的根本原因,无论它是:
应用程序软件组件:不影响基础设施。
网络:影响基础设施和应用程序。
大型机数据库:影响分布式应用程序。
容量优化:通过分析服务之间的交互,服务建模可以提供有关如何根据不断变化的业务需求调整 IT 资源规模和对其进行对齐的见解。当与 AI 一起使用来分析瓶颈并推荐最小化风险和成本的领域时,您可以持续优化 IT 环境的性能。
持续合规性:收集和建模 IT 资产、服务和关系提供最新信息和流程,以满足安全和监管合规性要求。与其追逐各个开发人员来记录正在运行的内容及其位置,不如通过自动发现和服务建模来领先于不断增长的风险和复杂性。
毫无疑问,AI 将继续在可观察性中发挥重要作用。它可以利用正确的情境数据极大地加速故障排除工作流程并提高效率。