首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

K8S容器平台巡检报告指南

文摘 2025-01-25 21:37 挪威

欢迎点击下方👇关注我，记得星标哟~

文末会有重磅福利赠送

总结下基于K8S构建的容器平台巡检报告要点，涵盖了巡检计划、巡检对象、总结、明细以及问题与跟进等内容，有需要的同学可以借鉴下。

一、巡检内容

1.1 Kubernetes巡检

组件健康状态

检查各组件是否正常运行，包括API Server、Controller Manager、Scheduler、Kubelet、Kube-Proxy、Docker、ETCD、CoreDNS、CNI组件、Ingress、Prometheus等。
检查组件是否有异常重启，若有则提供重启原因及优化方案。

资源使用

检查CPU、内存等资源使用情况，判断是否正常。
检查是否配置了相关监控告警。
提供资源使用趋势分析报告，分析是否存在隐患，若有则提供解决方案和优化建议。

日志检查

对各组件错误日志进行分类统计，提供统计结果数据。
检查是否对错误日志进行了持久化采集和告警配置。
针对相关错误日志，提供对应的解决方案和优化建议

1.2 节点巡检

具体指标

包括CPU、内存、网络、磁盘、I/O、线程数、连接数、打开文件数等。

1.3 应用业务巡检

异常巡检项目

针对异常的巡检项目，提供原因、负责人及解决方案。

配置与应用问题

检查是否有生产或灰度的容器项目告警规则未配置。

检查是否有Endpoints为空的无效Service。

检查是否有重名且Path路径一样的Ingress，需要整改。
检查是否有后端没有Pod的报错日志。

检查是否有PV/PVC配置异常。
检查是否有release状态的PV。

检查是否有项目有部署应用，但Pod已经减为0。
检查是否有异常的Pod或者Job。
检查是否有项目副本数为1。
检查是否有项目没有配置健康检查。
检查是否有项目没有配置Resource Quota。
检查是否有项目日志落盘。
检查是否有项目CPU使用率大于80%。
检查是否有项目内存使用率大于90%。

检查是否有应用Pod重启次数达10+次，状态为Error、crashloopbackoff等。

检查是否有命名空间没有项目。
检查是否有命名空间没有配额。
检查是否有命名空间命名不规范。
检查是否有命名空间Quota使用量大于90%。
检查是否有命名空间里无应用，且命名空间创建时间已超过3个月。

1.4 Harbor巡检

1.5 Rancher Server

组件巡检

所有相关组件的监控信息

二、巡检对象

生产环境下游集群

IDC集群：
云上集群：azure-eu-prod-01/aws-us-prod-public

Rancher Server

所有相关组件的巡检。

Harbor 虚拟机
业务容器项目

多个生产容器项目

三、巡检总结

1）Local管理集群巡检

运行状态

集群运行正常，资源使用率情况正常。

问题

集群备份恢复失败

问题修复

2）下游集群巡检

资源使用率

使用正常。

3）核心集群巡检

集群资源使用率

均低于75%，集群组件运行状态正常。
azure-eu-prod-public01：正常。
aws-us-prod-public01：正常。

4）容器应用巡检

问题

无致命性问题。
无异常运行的应用。
存在若干不规范的命名的项目、Ingress配置重复
存在若干内存使用率较高的应用，已联系应用负责人，将根据应用负责人的反馈推进扩容整改。

四、问题与跟进

问题跟进

容器应用问题跟进明细

依据情况而定

容器平台及集群问题跟进明细

依据情况而定

加入知识星球，共同探索云原生学习之旅！

更多云架构、K8S学习资料以及SRE学习手册，加入星球免费领取哦！

感兴趣的朋友们可以加我微信：sre_k8s，备注：云原生交流

懂点K8S的SRE，关注云原生、DevOps、AI\x26amp;ChatGPT等技术热点

最新文章

K8S学习周报（第18期）：GitOps Secrets与Argo CD；使用HPA自动扩缩资源；容器以root运行引发的问题

除夕快乐！！

蛇年新春，免费领红包封面啦~！

K8S容器平台巡检报告指南

北欧远程工作上岸记：告别35岁焦虑，给大龄技术人的一些分享

如何通过远离 AWS 将年服务器费用从 100 万降至 20 万

10个可以简化Kubernetes 管理的工具

探索 PrometheusRule：监控与报警的利器

Kubernetes学习周报（第17期）：了解StatefulSet的拓扑状态；实现高级Rollout策略；K8S攻击威胁矩阵

重塑 Prometheus 核心：揭开 PromQL 的面纱

Prometheus 的新战场：精准监控阿里云 AKS Serverless 集群

K8S学习路线2025

Kubernetes 监控实践：基于 Prometheus-Operator 的完整解决方案

Kubernetes学习周报（第16期）：RBAC的工作原理；K8S网络策略；探索 Istio 流量管理

从零开始：ACK Serverless 集群的监控方案设计指南

K8S手把手实战系列：启用NGINX Ingress Controller监控并接入Prometheus

突破性能瓶颈！Grafana 自动生成图表的深度优化实战

2024年终总结，结束北漂，开启北欧远程工作新模式

运维监控报表太麻烦？用 Grafana-Reporter 一键搞定！

深入 Kubernetes 的健康奥秘：探针（Probe）究竟有多强？

K8S手把手实战系列：使用CertManager和LetsEncrypt在K8S中添加免费的SSL/TLS证书

Kubernetes 为什么减少对 Docker 的依赖：容器运行时演进背后的技术考量

Kubernetes学习周报（第15期）：容器干扰检测和缓解；网络解决方案比较；Pod 资源大小调整方案；迁移Hpa到Keda

如何选择适合你的日志聚合工具：性能、压缩与成本的最佳平衡

AI周报: NVIDIA 推出最实惠AI 超级计算机;OpenAI o1模型引入API; 谷歌 Deep Research发布

Kubernetes v1.32 正式发布

OpenAI 宕机故障复盘，这次真的是 Kubernetes惹的祸

Kubernetes学习周报（第14期）：如何将节点服务无缝过渡到 K8S；OpenAI 的容器运行时和沙盒架构；存储性能比较

AI头条：OpenAI 探索广告，以加大收入来源；World Labs 一张照片生成互动3D 场景

Python + OpenTelemetry，观测你的特斯拉！

Kubernetes学习周报（第13期）K8S APIs 之CRD; PDB详解; 解决由大量IPVS规则引起的网络延迟问题

高并发下报错 "java.net.UnknownHostException" 案例分析

关于 GitOps 和数据库回滚的残酷事实

万字长文2024最全Go面经汇总

Kubernetes学习周报（第12期）何时无法在容器中终止 PID 1 进程;容器中僵尸进程解决办法; K8S中的DNS

将 VictoriaLogs 与 Grafana 集成，是时候抛弃 Loki 了！

Kubernetes学习周报（第11期）Golang在 K8S中运行的内存限制; 探索Cilium和Istio实现; 容器分层

Kubernetes学习周报（第10期）如何保持容器运行以调试; ETCD Raft 协议;Kubectl端口转发详解

6 张图带你深入了解 kube-scheduler

Prometheus 3.0 全新的 Dashboard！

Kubernetes学习周报（第9期）: CNI 和网络命名空间；网络插件基准测试；K8S备份解决方案Velero实施指南

K8s 集群巡检

Kubernetes学习周报（第8期）:K8S网络数据包管理之旅；当K8S和 Go 不能很好地协同工作时；K8S探针配置

(文末有福利)巅峰对话 | 直通未来科技前沿，与行业顶级技术专家共话数据库未来

K8s CPU Throttle 优化方案

Kubernetes学习周报（第7期）:K8S容器运行时CRI接口；Kluctl管理集群API；K8S无服务器应用监控

2024 互联网公司时薪排行榜！拼多多、小红书很顶！

Kubernetes系列（一六六）Kubernetes 的 10 大错误&如何专业地排除它们？

Kubernetes学习周报（第六期）:K8S API 实用指南；Etcd灾难恢复方案；K8S Gateway API介绍

卷不动了！去香港工作可以重启人生吗？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉