都用AI了,IT的有些分工是不是可以合并?

2024-12-16 08:00   澳大利亚  

在很多公司里,IT的运维和安全是相对独立的组织。他们使用不同的工具,不同的方法,完成各自的目标,共同确保IT系统的正常运行。运维着眼于系统的可用性,安全则重点处理防攻击。

大模型出现后,IT运维和安全在技术上开始有归一的趋势。

AIOps

一说到运维,他们用的系统叫网管系统,一般的主要功能包括配置管理,故障管理,事件管理,性能管理这些内容。

以故障管理为例,其主要流程是数据采集,数据分析,故障判断,根因分析,恢复和优化。

这是Gartner关于AIOps的定义,在监测阶段,数据来源包括历史数据和实时数据,重点是事件管理和度量的技术。在IT服务管理(ITSM)阶段,则非常依赖知识管理和分析能力。最后的行动阶段,主要包括各种自动化。

与安全运营非常相似:数据分析是核心能力,分析技术从原始的关联匹配,发展到AI小模型,最近也走到大模型上。

下图是一个基于大模型作故障分析的流程,数据预处理,异常检测,根因分析,自动修复,看看是不是和安全运营很象?

如果把这个过程再抽象的概括一下,AIOps就是三个关键点:

简单说,就是借助工具和数据,观察系统,借助人类经验和技能,形成行动,解决问题。

模型处理

各公司的安全大模型,基本的方法都是选择某一个基模型,如Llama,千问,智谱等,再做微调,形成具备安全能力的大模型,下图是AIOps的模型使用方法(来自论文),可以说,安全与AIOps对模型的处理方法基本一致。

下图是一个应用场景的例子,和安全基本一致,其实不仅是安全,很多大模型的应用场景都差不多。

Crowdstrike的动作

既然AIOps和安全运营在技术上一致,那产品上向同一个方向进化也成为可能。Crowdstrike的Falcon for IT开始统一安全与IT

它把IT和安全对大模型的应用统一为三个动作:

按此思路,确实是闭环的。

总结

无论是运维和安全,其对能力的核心诉求都是两个:一个是数据获取及分析能力,二是专家经验。

IT系统的发展过程,出现了越来越细的分工,包括运维和安全的分工。出现这些分工,核心是因为人的技能及专家能力是受限的,人很难在多个领域快速成长。

传统技术上,运维和安全的目标不同,需要的技能不同,这种分工很合理。

但到了大模型时代,对大模型来说,运维的经验,安全的经验,合到一起完全不是负担。那么,让一个模型具备两种能力,是否可以把两个系统合到一起?再往前看,是否两个部门,两类岗位,也可以合到一起?

大模型未来会给我们带来很多变化,这可能只是开始。

END



附论文链接:

大型语言模型时代故障管理的 AIOps 调查
https://arxiv.org/html/2406.11213v1

这篇论文是北大的

AI与安全
理清逻辑,找到规律,看清趋势。作者前华为云高级安全专家,现为独立顾问。
 最新文章