微软研究院开源 AIOpsLab:一个 AI 驱动的云运维框架

科技   2025-01-20 19:31   辽宁  

作者 | Robert Krzaczyński
译者 | 明知山
策划 | 丁晓昀

微软研究院推出 AIOpsLab 开源框架,旨在推进云运维中 AI 智能体的开发和评估。该工具提供了一个标准化且可扩展的平台,应对复杂的云环境中所面临的故障诊断、事件缓解和系统可靠性等方面的挑战。

随着微服务和无服务器架构在企业 IT 中成为标准,其复杂性带来了新的运维挑战。停机可能会影响关键业务运营,这凸显了维护系统可用性工具的重要性。许多现有的解决方案依赖专有服务或临时的手段,可能缺乏灵活性和一致性。AIOpsLab 提供了一个标准化的框架来评估和增强不同云环境中的 AIOps 智能体,有效解决了这些问题。

AIOpsLab 引入了几个关键组件来实现其目标。该框架的核心是 Agent-Cloud Interface(ACI),它通过一个协调器将 AI 智能体与应用服务分离。这个协调器负责定义任务、验证操作,并与 API 交互执行问题解决策略。任务还通过动态工作负载和故障生成器得到进一步增强,能够模拟资源耗尽、级联故障等真实运维场景。

来源:微软博客

这一接口概念引发了社区的广泛关注。雀巢解决方案架构师 Marco Casula分享了他的看法:

这是一个有趣的想法。我们也提倡使用一个协调层来处理用户和机器人之间的状态。同样,我十分赞同为所有智能体预定义接口的想法,这使得管理基础设施版本变得容易得多(我们称之为 GenAI 虚拟智能体规范)。我会进一步深入研究。我很想知道他们是如何处理领域外(out-of-domain)、主题外(out-of-topic)和所需操作等问题的。

AIOpsLab 支持包括事件检测、根本原因分析和缓解在内的一系列运维任务,既是一个基准测试工具,也是一个训练环境。研究人员可以利用它在可复现的条件下评估 AIOps 智能体的性能,同时利用其模块化设计将框架扩展到新的应用场景中。

AIOpsLab 还整合了 React、Autogen 和 TaskWeaver 等流行的智能体框架,让广泛的开发者社区更易于访问。其故障注入功能能够详细测试系统间的依赖关系,提高云服务的弹性。

此外,AIOpsLab 遵循微软的安全标准和负责任的 AI 原则。未来计划与生成式 AI 团队合作,将 AIOpsLab 纳入评估前沿模型的基准体系。

AIOpsLab 已在 GitHub 上开源,基于 MIT 许可。

查看英文原文

https://www.infoq.com/news/2025/01/microsoft-reasearch-aiopslab/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

今日好文推荐
突发!TikTok恢复在美服务,被困12小时后重获新生
这群 00 后“杀疯”了!没靠资本、大学刚毕业狂赚 7 千万,TikTok 助攻 AI 爆款应用出世
刚刚!谷歌宣布重大调整:没 JavaScript 将无法启动搜索!网友怒斥“技术霸权”!
中国软件重塑的关键一年:这 11 大领域迎来了自己的“ChatGPT时刻”

InfoQ
为一线互联网公司核心技术人员提供优质内容。科技圈的观察者,前沿技术的传播者。
 最新文章