K8S容器平台巡检报告指南

文摘   2025-01-25 21:37   挪威  

欢迎点击下方👇关注我,记得星标哟~

文末会有重磅福利赠送


总结下基于K8S构建的容器平台巡检报告要点,涵盖了巡检计划、巡检对象、总结、明细以及问题与跟进等内容,有需要的同学可以借鉴下。



一、巡检内容


1.1 Kubernetes巡


  • 组件健康状态

    • 检查各组件是否正常运行,包括API Server、Controller Manager、Scheduler、Kubelet、Kube-Proxy、Docker、ETCD、CoreDNS、CNI组件、Ingress、Prometheus等。

    • 检查组件是否有异常重启,若有则提供重启原因及优化方案。

  • 资源使用

    • 检查CPU、内存等资源使用情况,判断是否正常。

    • 检查是否配置了相关监控告警。

    • 提供资源使用趋势分析报告,分析是否存在隐患,若有则提供解决方案和优化建议。

  • 日志检查

    • 对各组件错误日志进行分类统计,提供统计结果数据。

    • 检查是否对错误日志进行了持久化采集和告警配置。

    • 针对相关错误日志,提供对应的解决方案和优化建议


1.2 节点巡检


  • 具体指标

    • 包括CPU、内存、网络、磁盘、I/O、线程数、连接数、打开文件数等。


1.3 应用业务巡检


  • 异常巡检项目

    • 针对异常的巡检项目,提供原因、负责人及解决方案。

  • 配置与应用问题

    • 检查是否有生产或灰度的容器项目告警规则未配置。

    • 检查是否有Endpoints为空的无效Service。

    • 检查是否有重名且Path路径一样的Ingress,需要整改。

    • 检查是否有后端没有Pod的报错日志。

    • 检查是否有PV/PVC配置异常。

    • 检查是否有release状态的PV。

    • 检查是否有项目有部署应用,但Pod已经减为0。

    • 检查是否有异常的Pod或者Job。

    • 检查是否有项目副本数为1。

    • 检查是否有项目没有配置健康检查。

    • 检查是否有项目没有配置Resource Quota。

    • 检查是否有项目日志落盘。

    • 检查是否有项目CPU使用率大于80%。

    • 检查是否有项目内存使用率大于90%。

    • 检查是否有应用Pod重启次数达10+次,状态为Error、crashloopbackoff等。

    • 检查是否有命名空间没有项目。

    • 检查是否有命名空间没有配额。

    • 检查是否有命名空间命名不规范。

    • 检查是否有命名空间Quota使用量大于90%。

    • 检查是否有命名空间里无应用,且命名空间创建时间已超过3个月。


1.4 Harbor巡检


1.5 Rancher Server


  • 组件巡检

    • 所有相关组件的监控信息



二、巡检对象

  • 生产环境下游集群

    • IDC集群:

    • 云上集群:azure-eu-prod-01/aws-us-prod-public

  • Rancher Server

    • 所有相关组件的巡检。

  • Harbor 虚拟机


  • 业务容器项目

    • 多个生产容器项目


三、巡检总结

1)Local管理集群巡检

  • 运行状态

    • 集群运行正常,资源使用率情况正常。

  • 问题

    • 集群备份恢复失败

  • 问题修复


2)下游集群巡检

  • 资源使用率

    • 使用正常。

3)核心集群巡检

  • 集群资源使用率

    • 均低于75%,集群组件运行状态正常。

    • azure-eu-prod-public01:正常。

    • aws-us-prod-public01:正常。


4)容器应用巡检

  • 问题

    • 无致命性问题。

    • 无异常运行的应用。

    • 存在若干不规范的命名的项目、Ingress配置重复

    • 存在若干内存使用率较高的应用,已联系应用负责人,将根据应用负责人的反馈推进扩容整改。


四、问题与跟进


问题跟进

  • 容器应用问题跟进明细

    • 依据情况而定
  • 容器平台及集群问题跟进明细

    • 依据情况而定




加入知识星球,共同探索云原生学习之旅!

更多云架构、K8S学习资料以及SRE学习手册,加入星球免费领取哦!

感兴趣的朋友们可以加我微信:sre_k8s,备注:云原生交流



云原生SRE
懂点K8S的SRE,关注云原生、DevOps、AI\x26amp;ChatGPT等技术热点
 最新文章