欢迎点击下方👇关注我,记得星标哟~
文末会有重磅福利赠送
总结下基于K8S构建的容器平台巡检报告要点,涵盖了巡检计划、巡检对象、总结、明细以及问题与跟进等内容,有需要的同学可以借鉴下。
一、巡检内容
1.1 Kubernetes巡检
组件健康状态
检查各组件是否正常运行,包括API Server、Controller Manager、Scheduler、Kubelet、Kube-Proxy、Docker、ETCD、CoreDNS、CNI组件、Ingress、Prometheus等。
检查组件是否有异常重启,若有则提供重启原因及优化方案。
资源使用
检查CPU、内存等资源使用情况,判断是否正常。
检查是否配置了相关监控告警。
提供资源使用趋势分析报告,分析是否存在隐患,若有则提供解决方案和优化建议。
日志检查
对各组件错误日志进行分类统计,提供统计结果数据。
检查是否对错误日志进行了持久化采集和告警配置。
针对相关错误日志,提供对应的解决方案和优化建议
1.2 节点巡检
具体指标
包括CPU、内存、网络、磁盘、I/O、线程数、连接数、打开文件数等。
1.3 应用业务巡检
异常巡检项目
针对异常的巡检项目,提供原因、负责人及解决方案。
配置与应用问题
检查是否有生产或灰度的容器项目告警规则未配置。
检查是否有Endpoints为空的无效Service。
检查是否有重名且Path路径一样的Ingress,需要整改。
检查是否有后端没有Pod的报错日志。
检查是否有PV/PVC配置异常。
检查是否有release状态的PV。
检查是否有项目有部署应用,但Pod已经减为0。
检查是否有异常的Pod或者Job。
检查是否有项目副本数为1。
检查是否有项目没有配置健康检查。
检查是否有项目没有配置Resource Quota。
检查是否有项目日志落盘。
检查是否有项目CPU使用率大于80%。
检查是否有项目内存使用率大于90%。
检查是否有应用Pod重启次数达10+次,状态为Error、crashloopbackoff等。
检查是否有命名空间没有项目。
检查是否有命名空间没有配额。
检查是否有命名空间命名不规范。
检查是否有命名空间Quota使用量大于90%。
检查是否有命名空间里无应用,且命名空间创建时间已超过3个月。
1.4 Harbor巡检
1.5 Rancher Server
组件巡检
所有相关组件的监控信息
二、巡检对象
生产环境下游集群
IDC集群:
云上集群:azure-eu-prod-01/aws-us-prod-public
Rancher Server
所有相关组件的巡检。
Harbor 虚拟机
业务容器项目
多个生产容器项目
三、巡检总结
1)Local管理集群巡检
运行状态
集群运行正常,资源使用率情况正常。
问题
集群备份恢复失败
问题修复
2)下游集群巡检
资源使用率
使用正常。
3)核心集群巡检
集群资源使用率
均低于75%,集群组件运行状态正常。
azure-eu-prod-public01:正常。
aws-us-prod-public01:正常。
4)容器应用巡检
问题
无致命性问题。
无异常运行的应用。
存在若干不规范的命名的项目、Ingress配置重复
存在若干内存使用率较高的应用,已联系应用负责人,将根据应用负责人的反馈推进扩容整改。
四、问题与跟进
问题跟进
容器应用问题跟进明细
依据情况而定 容器平台及集群问题跟进明细
依据情况而定
更多云架构、K8S学习资料以及SRE学习手册,加入星球免费领取哦!
感兴趣的朋友们可以加我微信:sre_k8s,备注:云原生交流