gala-anteater ：基于 AI 的操作系统异常检测平台

文摘 2024-08-22 18:07 中国香港

在操作系统中，系统故障会导致各种问题，例如系统崩溃、数据损坏、服务停止等。这些问题会严重影响用户的使用体验，甚至会导致业务中断，从而对企业的生产和经济效益造成巨大损失。故障类型包括但不限于网络 I/O（丢包、时延等）、磁盘 I/O（带宽、时延等）、内存（泄漏、OOM 等）。这些故障是产生系统级故障的主要原因之一，发现操作系统内的系统故障可以有效提升应用的可靠性与性能。

基于 OpenAtom openEuler(简称“openEuler”) 构建的 gala-anteater 搭建了基于 AI 的操作系统异常检测平台，其集成了多种异常检测算法，针对不同场景和应用，实现实时的系统级故障发现。本篇文章将介绍 gala-anteater 基于多维时序数据的异常检测实践。

时序异常检测现状

在运维领域，运维人员通过对各种软硬件系统的监测指标进行异常检测，这是发现故障或风险的关键技术。根据应用场景和需求的不同，指标异常检测方法主要可分为单指标异常检测与多维指标异常检测两类。单指标异常检测关注指标级别的异常状况（指标的突增、突降、抖动等）；而多维指标异常检测关注实体（例如服务器、系统）级别的异常。

表征操作系统正常运行的指标通常有成百上千个，如内存使用率、磁盘 I/O、CPU使用率、网络吞吐率等等。一旦操作系统运行异常，如内存泄漏、磁盘故障、CPU超载、网卡故障等故障发生，操作系统中的一个或多个指标都会不同程度地偏离正常模式。相较于对每一个单指标时间序列进行异常检测，将多维指标时间序列作为整体进行异常检测具有如下优势：

运维工程师关心操作系统整体是否异常而非其某个指标的瞬时异常。
分布式系统由众多操作系统结合起来完成特定功能，每一个操作系统上监控指标多样，对每个指标时间序列进行异常检测模型的训练和维护需要耗费大量的人力物力资源。
通常一个异常事件会引起多个指标出现异常，对于每一个指标进行异常检测容易产生大量冗余报警。
多维指标异常检测能通过分析指标间复杂的关联关系，挖掘出单指标异常检测不能发现的潜在异常，减少漏报。

因此，通过针对操作系统的多维指标时间序列整体建模，来实现对操作系统故障的高效、实时、自动化检测。

问题与挑战

在操作系统场景下，有时业务性能的下降相对不够明显，现有的方法难以识别出微小的异常；此外，现有方法仅仅是在检测时预测可能的正常数据模式，还需要通过重构误差将真实数据和预测数据的差异展现出来，但是如果仅仅凭借重构误差的变化趋势来判断是否故障的话，会有很大的滞后性，因此需要一个自动的阈值选择方案来及时地发现异常。最后，上述基于深度学习的异常检测方法的核心是通过学习训练集正常的指标模式来发现检测时与正常情况下的异常指标模式，但是当训练集混入故障时的数据时，上述方法的异常检测效果将难以保证。

综上所述，在操作系统场景下系统故障发现主要面临以下挑战：

挑战一：现有的方法对多维指标的微小程度的异常不敏感。
挑战二：多维指标的异常分数阈值难以准确、灵活地确定。
挑战三：多维指标数据中异常数据时模型检测效果不稳定。

技术方案

如图1所示，操作系统灰度故障发现分为离线训练（实线箭头）和在线检测（虚线箭头）两个阶段。

离线训练阶段，该模块首先会对数据进行预处理，例如对缺失值进行插入补充，分别对各个指标进行平滑平均减少噪声和抖动干扰，将指标的取值范围裁剪到均值周围，控制对异常分数的贡献程度，之后根据均值和方差对训练集数据进行标准化；在数据预处理之后，采用基于压缩感知的离群点过滤技术找出多维指标中的离群点并使用其附近的正常值进行替换；然后基于过滤之后的训练集，采用设计好的多指标重构模型对训练集的数据进行学习和重构，通过计算重构值和真实之间的误差得到所有指标的异常分数；最后采用 SPOT 模型对训练集的异常分数进行拟合，SPOT 输出的阈值可以在线更新，来适应多维时序指标的变化。

在线检测阶段，首先利用训练集计算保存的均值和方差对测试数据进行相应的预处理操作，接着将预处理后的数据输入到多指标重构模型得到重构误差（异常分数），最后该异常分数由离线阶段训练好的 SPOT 模型判断是否超出一定的异常阈值，如果异常分数超出阈值则输出故障告警和各个指标的故障程度。

图1 操作系统灰度故障发现模块示意图

实验结果

操作系统观测工具（包括CPU、网络、I/O、内存等）采集反映操作系统性能的各类指标，如：CPU利用率相关指标、内存使用相关指标、网卡性能相关指标、磁盘 I/O 相关指标、TCP 传输性能相关指标、ext4 文件系统相关指标、进程相关指标等。

其中部分指标如图2所示，cpu 指标基本没有变化，磁盘指标有冲高，确定不是故障时间范围，tcp 传输性能指标显示周期性上升。tcp 传输性能指标可能能表现出当前系统有异常。

图2 cpu、磁盘、tcp指标图

在实验室环境下通过故障注入测试验证持续两周多时间，约370000+个采样数据点，其中近340000个正常业务数据采样点，约30000+个故障注入数据采样点，其中，检测结果如表1所示，网络 IO 类任务962个，检测准确率 F1-score 91%，磁盘 IO 类任务645个，检测准确率 F1-score84%，总体任务1607个，检测准确率 F1-score86%。

实验总体准确率较高，可以辅助运维人员发现系统故障，单个任务的检测耗时75s, 基本满足线上异常检测任务的需求。

表1 网络磁盘检测精度

场景	任务个数	平均耗时(s)	Precision	Recall	F1-score
All	1607	75	0.94	0.80	0.86
网络IO	962	73	0.96	0.87	0.91
磁盘IO	645	78	0.94	0.76	0.84

加入我们

文中所述的 gala-anteater 项目的相关源码均已在 openEuler 社区开源。如果您对相关技术感兴趣，可以访问源码仓https://gitee.com/openeuler/gala-anteater，欢迎您的围观和加入。

http://mp.weixin.qq.com/s?__biz=MzkyMjYzNjU0Ng==&mid=2247511078&idx=1&sn=fc71b7847014f4935de07a21b647a8af

OpenAtom openEuler

openEuler是由开放原子开源基金会（OpenAtom Foundation）孵化及运营的开源项目。 openEuler 面向数字基础设施的操作系统。

最新文章

【活动报名】openEuler SDS Meetup北京站

关注∣2024年度openEuler领先商业实践单位遴选征集工作正式启动

openEuler 社区 2024 年 9 月运作报告

openEuler与Linaro携手参加OSSUMMIT 2024

etmem：更灵活，更强大的内存分级扩展技术

【创新项目探索】openAMDC一种高性能的分布式缓存软件

开源公告 | 备份软件open-eBackup正式开源

2024年第五届CID参会报名开启！

openEuler Summit 2024 | 诚挚的邀请您提交议题、申报SIG会议、成为共建单位……

openEuler人才认证正式发布

开放原子生态大会--openEuler生态分论坛圆满结束

直播通道开启!开放原子开源生态大会openEuler分论坛邀你来看~

【活动报名】开放原子开源生态大会，一起来探索openEuler吧！

华为全联接大会2024︱openEuler 分论坛成功举办

openEuler 亮相全球顶级开源盛会 OSSUMMIT 2024，持续推动智能化未来的实现

9月26日开放原子开源生态大会openEuler分论坛报名开启！

【活动回顾】openEuler Embedded Meetup广州站：携手共筑工业技术创新之路

2024开放原子开源生态大会 | openEuler引领开源生态创新，成就区域发展与全球影响力

HongOU PI PICO搭载openEuler，openHarmony和Ebaina OS正式发布！

9.16-9.19，openEuler与您相约欧洲开源大会 2024

【活动回顾】openEuler DPU Meetup 苏州站

本周四，openEuler Embedded Meetup 广州见！

openEuler 社区 2024 年 8 月运作报告

开源创新，合作共赢，超聚变成功举办openEuler技术委员会会议

多操作系统跨社区生态融合发展的探索与实践

RISC-V 中国峰会 | OERV 虚拟化和安全容器生态建设路线图发布，异构虚拟化测试方案完成

RISC-V 中国峰会 | openEuler RISC-V 运行时生态建设进展

议题亮点抢先看！一起倾听DPU技术高能分享！

学生专访｜openEuler 郑航：这一刻，兴趣和热爱化作产出具像化了

【活动报名】openEuler Embedded Meetup广州站

2024年度Hackathon软件难题挑战赛来啦！

校源行"开源技术培训系列专题课" | openEuler RISC-V入门课上线了

关于征集openEuler系服务器端操作系统金融应用案例的通知

2024 RISC-V 中国峰会 ·「openEuler RISC-V SIG 开发者日与杭州 Meetup 」成功举办

2024 RISC-V 中国峰会 · 「openEuler RISC-V 精彩亮相」

【活动报名】openEuler DPU Meetup 苏州站

2024年度Hackathon软件难题挑战赛来啦！

gala-anteater ：基于 AI 的操作系统异常检测平台

为openEuler注入灵魂：与开发者共话“协作、挑战与生态”

Linaro参加 openEuler SIG Gathering 2024

速报名！RISC-V 中国峰会同期活动

电信天翼云深度参与openEuler SIG Gathering 2024

oebuild 使用指导来啦，帮你快速上手 openEuler Embedded！

openEuler 社区 2024 年 7 月运作报告

openEuler容器镜像正式获得Docker Hub开源软件(OSS)认证

openEuler SIG Gathering 2024 | Compiler SIG 精彩回顾

openEuler 社区 2024 年 7 月运作报告

OpenAtom openEuler 亮相中非数字合作论坛，与非洲企业共建数智时代领先的基础设施，共建中非数字未来

探讨前沿技术，共创开源未来！麒麟软件深度参与openEuler SIG Gathering 2024

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉