前言
Cloud Native
随着智算时代的到来,人工智能与大模型的发展正引领着一场前所未有的技术变革,AI 工具的广泛应用更可谓是推动了各行各业的创新与发展。
为了能够让 K8s(Kubernetes) 用户借助 AI 快速上手和自动化、智能化地解决运维难题,2023 年云栖大会上,阿里云容器服务团队正式发布 ACK AI 助手。在过去的近一年中,AI 助手持续在线上稳定运行,并累计为上万用户提供服务。2024 年 11 月,阿里云容器服务团队进一步深度融合现有的运维可观测体系,在场景上覆盖了 K8s 用户的全生命周期,正式推出升级版 AI 助手 2.0,旨在更好地为用户使用和运维 K8s 保驾护航。
AI 之于 K8s 的意义所在
Cloud Native
在正式介绍 ACK AI 助手之前,我们将结合 K8s 用户的痛点及其所需的平台能力谈谈 AI 之于 K8s 的意义,也是我们发布并持续迭代 ACK AI 助手的意义之所在。
K8s 已然是业界主流
较原有观测能力,AI 助手“革命性”地缩减平均问题解决时间(MTTR)
可见阿里云容器服务 AI 助手只需要点击发起异常诊断,即可获得异常根因结论。AI 助手会自动查询相关实体的异常观测数据,如应用的状态、指标、事件等,结合专家诊断经验与 LLM 判断力快速给出问题结论和分析过程,以及最后会给出该问题的 SOP 解决方案。MTTR 缩短为一步,真正做到在 1 分钟内发现问题、5 分钟内定位问题并给出解决方案、最终让异常问题在 10 分钟内解决并闭环。
阿里云容器服务
AI 助手:新一代容器智能运维能力
Cloud Native
阿里云容器服务 AI 助手是我们容器服务团队于 2023 年推出的一款容器智能运维产品,旨在精准高效地帮助用户解决 K8s 使用和运维相关的问题。经过我们的不懈努力与迭代,最新的 ACK AI 助手 2.0 版在问题诊出率(是否针对问题给出正确的结论)和问题采纳率(AI 助手给出的答案是否被用户采纳)两大关键指标上已取得重大突破,诊断成功率超过 80%,根因定位率达到 70% 以上;应答文档采纳率超过 50%,内容采纳率超过 40%。接下来我们将详细介绍 ACK AI 助手的能力及其为用户带来的便利。
AI 助手 1.0
智能快速诊断
智能问答
AI 助手 2.0
Day 0 - 规划与设计
Day 1 - 部署与初始化配置
Day 2 - 持续维护与优化
稳定性
① 集群智能体检
② 智能诊断
API 调用诊断:控制台调用云产品 API 如果发生错误,会有弹窗提示,对此 AI 助手提供了针对相关错误的诊断能力并在错误弹窗上提供入口,告知用户问题产生的原因以及对应优化的建议。
集群日志分析:对于集群存在异常的日志,AI 助手提供了对日志进行一键分析的能力。
管控任务的诊断:ACK 目前提供的运维操作更多的是基于任务维度的,因此我们也针对失败的任务提供了智能诊断的相关能力。
集群报警诊断:结合用户收到告警后会前往告警历史列表查看的使用习惯,我们在告警页面提供了相应的智能诊断入口。
组件诊断:对于安装、升级、变配失败的组件,我们同样提供了智能诊断能力及入口。
安全性
AI 助手通过大模型驱动的安全分析,为客户提供详尽的自然语言安全报告,同时提供一键跳转的解决方案,帮助客户快速发现集群安全风险并快速实施修复操作。
成本
资源配置优化:通过集成资源画像功能,帮助用户找到更合适的资源请求(request)和限制(limit)配置,以实现更合理的资源分配策略。
闲置资源检测:检查包括 ECS、SLB 和 EIP 在内的各种资源的占用情况,分析后提供闲置资源清单,以帮助用户减少不必要的开支。
借助 AI 助手,客户能够快速识别并解决成本浪费问题,提升整体运营效率。
展望
Cloud Native