在很多公司里,IT的运维和安全是相对独立的组织。他们使用不同的工具,不同的方法,完成各自的目标,共同确保IT系统的正常运行。运维着眼于系统的可用性,安全则重点处理防攻击。
大模型出现后,IT运维和安全在技术上开始有归一的趋势。
一说到运维,他们用的系统叫网管系统,一般的主要功能包括配置管理,故障管理,事件管理,性能管理这些内容。
以故障管理为例,其主要流程是数据采集,数据分析,故障判断,根因分析,恢复和优化。
这是Gartner关于AIOps的定义,在监测阶段,数据来源包括历史数据和实时数据,重点是事件管理和度量的技术。在IT服务管理(ITSM)阶段,则非常依赖知识管理和分析能力。最后的行动阶段,主要包括各种自动化。
与安全运营非常相似:数据分析是核心能力,分析技术从原始的关联匹配,发展到AI小模型,最近也走到大模型上。
下图是一个基于大模型作故障分析的流程,数据预处理,异常检测,根因分析,自动修复,看看是不是和安全运营很象?
如果把这个过程再抽象的概括一下,AIOps就是三个关键点:
简单说,就是借助工具和数据,观察系统,借助人类经验和技能,形成行动,解决问题。
各公司的安全大模型,基本的方法都是选择某一个基模型,如Llama,千问,智谱等,再做微调,形成具备安全能力的大模型,下图是AIOps的模型使用方法(来自论文),可以说,安全与AIOps对模型的处理方法基本一致。
下图是一个应用场景的例子,和安全基本一致,其实不仅是安全,很多大模型的应用场景都差不多。
既然AIOps和安全运营在技术上一致,那产品上向同一个方向进化也成为可能。Crowdstrike的Falcon for IT,开始统一安全与IT。
它把IT和安全对大模型的应用统一为三个动作:
按此思路,确实是闭环的。
无论是运维和安全,其对能力的核心诉求都是两个:一个是数据获取及分析能力,二是专家经验。
IT系统的发展过程,出现了越来越细的分工,包括运维和安全的分工。出现这些分工,核心是因为人的技能及专家能力是受限的,人很难在多个领域快速成长。
传统技术上,运维和安全的目标不同,需要的技能不同,这种分工很合理。
但到了大模型时代,对大模型来说,运维的经验,安全的经验,合到一起完全不是负担。那么,让一个模型具备两种能力,是否可以把两个系统合到一起?再往前看,是否两个部门,两类岗位,也可以合到一起?
大模型未来会给我们带来很多变化,这可能只是开始。
END
附论文链接:
大型语言模型时代故障管理的 AIOps 调查
https://arxiv.org/html/2406.11213v1
这篇论文是北大的