必看!大模型驱动IT运维智能化升级,7家头部企业率先落地

文摘   科技   2024-11-15 07:30   浙江  

作者|沙丘智库研究团队

来源|沙丘社区(www.shaqiu.cn)

随着数字技术的更新,信息系统的重要性突显,系统稳定性面临着新的挑战。企业为了提升数字能力、满足用户需求而不断扩大系统规模,引入敏捷开发流程,导致信息系统复杂性提升,稳定性风险业不断增加。同时,企业运维理念也随技术需求的变化而不断演进,从手工运维到自动化运维,再到研发和运维同步的DevOps阶段,现在已经进入智能运维阶段。
过去几年,头部企业大多已在智能运维领域进行持续探索,大模型的出现进一步推动智能智能运维领域的发展,不仅提高了运维的效率和准确性,还促进了运维工作的自动化和智能化,为未来的运维无人化变革奠定了基础。
以国泰君安为例,早在2018年,国泰君安就已经搭建一体化运维平台,正式开启智能运维。随后,通过引入日志异常检测算法、指标异常检测算法、建立可观测体系、建立智慧安全运营体系等持续深化智能运维。随着大模型技术的兴起,2023年,国泰君安尝试探索大模型在运维脚本自动化、辅助排障及智能问答等方向的应用。
在《大模型应用跟踪月报(2024年10月)》中,沙丘智库观察到,从应用场景上看,大模型在智能运维领域正在加速渗透,基于大模型强大的泛化学习能力,很多企业正在利用大模型进行故障分析与异常检测,从而缩短故障响应时间、节省运维人力。
沙丘智库长期跟踪调研大模型技术的发展,旨在帮助企业快速了解大模型最新、最全面的落地情况。一些技术领先企业正在积极探索大模型在智能运维领域的应用,沙丘智库选取了其中7家典型企业(包括华为云、阿里云、中国银行、中国邮储银行、蚂蚁集团、字节跳动、西门子)的实践案例,为其他企业探索“大模型+智能运维”提供参考。

案例1:华为云智能运维大模型实践

华为云建设智能运维大模型,应用于问答式运维信息检索、运维知识查询、故障信息总结生成、故障预案推荐以及事件解决方案自动生成等场景,旨在利用大模型改进运维领域的业务价值和重塑流程。

在智能运维大模型实践中,使用大模型只是手段,为了降低模型应用的复杂度,需要结合知识语料、大小模型算法、编排框架、端到端copilot stack、产品集成应用、数据化运营端到端构建等才能使大模型在场景应用发挥效果。

完整内容华为云智能运维大模型实践

案例2:阿里云基于LLM Agent的智能诊断机器人实践

阿里云利用基于LLM Agent的智能诊断机器人来应对操作系统运维中的挑战。通过智能化的运维工具,结合AIOps技术,实现了从人工诊断到自动化和预测性维护的转变,提高了运维效率和问题解决速度。

完整内容:阿里云基于LLM Agent的智能诊断机器人实践

案例3:中国银行构建多模型融合AGI运维框架

中国银行提出并构建了一种AGI(Artificial General Intelligence)运维框架,并基于企业级公共资源,如通用和领域大模型库、AGI运维场景库、问题/事件知识库、算法库、用户管控系统等,实现了运维信息统一获取、系统应用全链路追踪、故障智能诊断与分析、变更实施自动控制、实时决策运维等能力,通过统一的服务台为用户提供了更高效的运维服务体验。

案例选自:沙丘智库《2024生成式AI案例研究简报(7月)》

案例4:中国邮储银行网络运维大模型

随着网络规模扩展和分布式应用的普及,网络领域面临诸多挑战,特别是多厂商设备在使用、管理和运维上存在差异,导致网络优化割裂,加之工具多样、数据繁多,对网络工程师提出了更高要求。

邮储银行探索具有邮储特色的网络大模型,利用大模型的泛化学习能力,结合行内规范、手册和应急经验,实现故障影响分析与处置建议推荐等交互式运维场景;

同时,基于网络大模型构建智能体,具备智能故障诊断、自动化修复及网络容量规划等能力,逐步构建高度自主、智能的运维平台。

案例选自:沙丘智库《大模型应用跟踪报告(2024年10月)》

案例5:蚂蚁可观测Mpilot智能助手实践

蚂蚁将大模型用于可观测平台,重点选取与产品深度融合且高频使用的场景,建设了可观测Mpilot智能助手,通过三个助手Agent提供服务,分别为时序助手、日志助手和告警助手。

• 时序助手:时序助手重点用于监控指标分析,进行业务指标探索,通过定制化SQL模型的方式,允许用户以自然语言的方式快速检索监控内部的数据源;

• 日志助手:日志助手用于解读应用错误日志,并对应用报告给出分析性建设和解决方案;

• 告警助手:告警助手主要用于告警应急处理,以及告警之后的辅助故障面计算、关联告警查询、初步根因定位、应急处置流程查询等场景。

完整内容:蚂蚁可观测Mpilot智能助手实践

案例6:字节跳动智能运维场景AI Agent实践

字节跳动在智能运维场景中实践AI Agent,通过对话方式利用大模型的规划、反思和工具使用能力,实现复杂任务的自治完成。

落地实践中,AI Agent在故障排查和运维知识问答方面展现出高效性,通过固定流程和并发反思提升排查效率和自学习能力。未来,AI Agent和大模型的持续增强将推动更智能的运维自动化。

完整内容:字节跳动智能运维场景AI Agent实践

案例7:西门子IT服务机器人实现7*24小时IT服务支持与监控

西门子整合IT领域常见问题知识库,创建能够迅速响应用户问题的IT服务机器人,当机器人无法准确回答问题时,用户可以选择转交给人工客服。同时,西门子利用大语言模型构建了“鹰眼系统”,利用AI小禹自动监测系统日志,检测到批处理脚本停止运行时自动拨打支持电话,无需人工值守,大幅减轻了工作负担,同时也确保了问题的及时发现与处理。

案例选自:沙丘智库《大模型应用跟踪报告(2024年10月)》


*更多生成式AI研究可前往“沙丘智库”小程序查阅

*有任何需求可咨询客服微信:zimu738




沙丘社区
数字化研究与服务机构
 最新文章