Kubernetes / OpenShift 日常巡检（非常详细）

科技科技 2024-11-13 07:35 海南

【导读】本文对kubernetes日常巡检工作进行了整理，提供排查方法和排查思路、典型案例，帮助大家学会尽快发现问题，排查问题，解决问题。

【作者】曹如熙，高级运维leader，具有超过十年的互联网运维及五年以上团队管理经验，多年容器云的运维，尤其在docker和kubernetes领域非常精通。

Kubernetes集群主要通过kubectl命令行进行运维，OpenShift中使用oc命令行进行运维。两个命令行的参是相同的（OpenShift集群也提供kubectl命令行，但建议使用oc命令行）。

1 检查master

主要通过以下命令检查。

1.1 kubectl/oc 检查master状态

kubectl/oc get cs

通过以上方法，查看kube-scheduler, kube-controller-manager, etcd是否正常。在上图status列，Healthy表示健康，unhealthy表示有问题需要更详细的信息，可以使用kubectl/oc describe cs，输出更详细的信息。

systemctl status calico.service

检查calico网络是否正常

systemctl status kube-apiserver.service

检查kube-apiserver 是否都是active状态

Active: active (running)

如果状态不正常，需要systemctl restart kube-apiserver

如果起不来，需要journalctl -xe查日志看下具体问题

1.2 kubectl/oc logs 检查master日志

kubectl/oc logs --tail 100 -f kube-apiserver -n kube-system

kubectl/oc logs --tail 100 -f kube-controllers -n kube-system

kubectl/oc logs --tail 100 -f kube-scheduler -n kube-system

kubectl/oc logs --tail 100 -f coredns -n kube-system

检查master服务日志是否正常

kubectl/oc logs --tail 100 -f calico-kube-controllers -n kube-system

检查calico是否正常

2 检查node

2.1 kubectl/oc检查node状态

kubectl/oc get node -n namespace

查看Node节点状态， STATUS Ready表示正常，NotReady不正常

注意version必须保持一致

如有NotReady问题，需要重启节点kubectl/oc，或者重启docker

如不能解决，需要reset节点后，k8s重新join该node(注意先执行kubectl/oc drain node --delete-lo-cal-data 驱离node)

systemctl status kubelet.service

systemctl status kube-proxy.service

检查状态是否是Active: active (running)

如果不正常，需要systemctl restart

如果起不来，需要journalctl -xe查日志看下具体问题

2.2 kubectl/oc logs检查node日志

kubectl/oc logs --tail 100 -f kube-proxy -n kube-system

kubectl/oc logs --tail 100 -f kebelet -n kube-system

检查node服务日志是否正常

kubectl/oc logs --tail 100 -f calico-node -n kube-system

检查calico节点是否正常

3 检查service

kubectl/oc get svc -o wide

查看k8s集群service信息

kubectl/oc get svc --all-namespaces -o wide

查看k8s所有service信息

TYPE是NodePort的service， k8s集群外部可以通过port访问

Service的TYPE包括 NodePort, ClusterIP, Loadbalance和ExternalName

4 检查pod

4.1 kubectl/oc检查pod状态

kubectl/oc get pods -n namespace -o wide

查看STATUS状态是否正常

以下是status list：

Running，Succeeded，Waiting，ContainerCreating，Failed，Pending，Terminating，unknown，CrashLoopBackOff，ErrImagePull，ImagePullBackOff

status定义说明：

如出现异常状态，可查看pod日志内容

kubectl/oc describe pod 容器名 -n namespace

查看Conditions状态

True 表示成功，False表示失败

Initialized pod 容器初始化完毕

Ready pod 可正常提供服务

ContainersReady 容器可正常提供服务

PodScheduled pod 正在调度中，有合适的节点就会绑定，并更新到etcd

Unschedulable pod 不能调度，没有找到合适的节点

如有False状态显示

查看Events信息

Reason显示Unhealthy异常，仔细查看后面的报错信息，有针对性修复

kubectl/oc get pods -n namespace -o wide

查看RESTARTS的次数是否为0

如果不是0，说明pod重启过，需要去日志检查原因

4.2 kubectl/oc logs 检查pod日志

kubectl/oc logs --tail 100 -f pod -n namespace

检查日志中有无异常

或者进入日志目录 /var/log/pods，找到容器id-json.log日志文件

也可以检查日志有无异常

5 pod health健康检测

针对pod容器增加health check健康检测，pod.yaml中增加以下参数

livenessProbe是检测容器是否存活，running状态，如果不健康kubelet会kill pod，根据重启策略RestartPolicy执行重启pod。

ReadinessProbe判断容器是否处于Ready状态，ready状态表示pod可以接受请求，如果不健康，从service的后端endpoint列表中把pod驱离出去。

initialDelaySeconds 120表示pod初始化启动之后延迟120秒再开始检测等待pod内应用启动时间

timeoutSeconds表示超时时间

periodSeconds表示轮询时间

scheme连接使用的schema，默认HTTP,也支持TCP

successThreshold探测失败后，最少连续探测成功多少次被认定为成功。默认是1。对于liveness必须是1，最小值是1。

failureThreshold：探测成功后，最少连续探测失败多少次被认定为失败。默认是3，最小值是1。

超过failureThreshold的次数，pod重启多次后，pod STATUS状态会变更为不健康

6 通过dashborad检查

K8s支持dashboard管理方式

通过kubernetes-dashboard.yaml配置dashboard

通过firefox浏览器访问，https://k8sip:30443/#!/login

通过令牌方式访问，令牌查找方式，在master执行以下

kubectl/oc describe secret admin-token-xxxx -n kube-system

进入dashboard后，可以查看k8s所有资源状况

选择节点，可以查看node状态

可以查看node节点是否就绪状态，节点的CPU，内存资源使用状况

选择容器组，可以查看pod的状态信息

可以看到pod容器的状态

Dashboard也可以查看deployment，stateful, service，VP的状态信息

Dashboard的权限很高，可以创建容器，容器组，可以删除容器和容器组；

可以伸缩部署和副本集；可以创建，删除secret

7 通过kube-promtheus监控k8s

K8s监控需要考虑以下几方面

Kubernetes节点的监控：node节点的cpu、负载、内存、硬盘等指标

内部系统组件的状态：kube-scheduler、kube-controller-manager、kubedns/coredns等组件的运行状态

metrics：Deployment的状态、资源请求、调度和API延迟等数据指标

Kube-prom的组成如下

7.1 node-export监控

我们使用prometheus来监控k8s node状态和性能，采集节点的监控指标，可以通过node_exporter获取，node_exporter就是抓取用于采集服务器节点的各种运行指标，目，比如cpu、distats、loadavg、meminfo、netstat等。

使用DeamonSet控制器来部署该pod，这样每一个节点都会运行一个Pod，如果我们从集群中删除或添加节点后，也会进行自动扩展，

node-exporter.yaml样例如下：

执行kubectl get pod -n monitoring -o wide 或oc get pods -n openshift-monitoring -o wide（关于OpenShift命令行，本小节不再赘述）

可以查到node-exporter的pod状态在k8s节点上， curl 127.0.0.1:9100/metrics,可以获取到数据，说明成功收集

配置node-exporter-service.yaml

输入kubectl get svc -n monitoring -o wide |grep node

输出以下

表示service配置完成

7.2 kube-state-metrics

kube-state-metrics本质上是不断轮询api-server，kube-state-metrics关注于获取k8s各种资源的最新状态，如deployment或者daemonset，而kube-state-metrics是将k8s的运行状况在内存中做了个快照，并且获取新的指标。

配置kube-state-metrics-deployment.yaml样式

配置 kube-state-metrics-service.yaml

查看pod和svc

kubectl get pod -n monitoring -o wide |grep state

kubectl get svc -n monitoring -o wide |grep state

检查状态是否正常

7.3 grafana监控

我们使用grafana展示kube-prom的信息状态监控

grafana-deployment.yaml样式如下：

grafana-service.yaml样式如下：

查看grafana service pod

kubectl get pod,svc -n monitoring -o wide |grep grafana

访问grafana后台，浏览器访问http://ip:23000/login

（可以去grafana官网搜寻需要监控的模板）

可以查看k8s容器的内存，CPU等资源的使用率

可以查看有问题的容器副本

在alert里面可以配置报警规则

可以配置pod宕机发送报警

8 kubernetes日志收集

1. 原生方式：使用kubectl/oc logs直接查看本地保留的日志，或者通过docker engine的 log driver把日志重定向到文件、syslog、fluentd等系统中。

2. DaemonSet方式：在K8S的每个node上部署日志agent，由agent采集所有容器的日志到服务端。

3. Sidecar方式：一个POD中运行一个sidecar的日志agent容器，用于采集该POD主容器产生的日志。

Sidecar和DaemonSet是被动采集方式，主动采集方式有原生方式DockerEngine 推主动送方式（也可以通过SDK进行业务日志直写，本文不介绍）

8.1 原生方式log

DockerEngine本身具有LogDriver功能，可通过配置不同的LogDriver将容器的stdout通过DockerEngine写入到远端存储，以此达到日志采集的目的。这种方式的可定制化、灵活性、资源隔离性都很低，一般不建议在生产环境中使用。

K8s的容器提供标准输出和文件两种方式。在容器中，标准输出将日志直接输出到stdout或stderr，而DockerEngine接管stdout和stderr文件描述符，将日志接收后按照DockerEngine配置的LogDriver规则进行处理；日志打印到文件的方式和虚拟机/物理机基本类似，只是日志可以使用不同的存储方式，例如默认存储、EmptyDir、HostVolume、NFS等。

8.2 daemonset方式--Node上部署log agent

DaemonSet方式在每个node节点上只运行一个日志agent，采集这个节点上所有的日志。DaemonSet相对资源占用要小很多，但扩展性、租户隔离性受限，比较适用于功能单一或业务不是很多的集群。

通过部署Elasticsearch集群，Fluentd过滤、Elasticsearch存储、Kibana展示，来收集node agent的日志。（本文介绍较为简单的Filebeat方式）

yaml配置样式如下

日志输出到文件，hostPath方式挂载，agent通过deamonset方式部署

8.3 sidecar方式：通过sidecar容器收集日志

在k8s里，可以为pod添加一个sidecar进行pod日志收集，可以使用filebeat。每个pod都需要一个独立的sidecar，以下是为nginx添加sidecar

yaml配置样式如下：

点击阅读原文，可下载该文档，本文首发于2021年
觉得本文有用，请转发、点赞或点击“在看”，让更多同行看到

资料/文章推荐：

欢迎关注社区 "容器云"技术主题 ，将会不断更新优质资料、文章。地址：

https://www.talkwithtrend.com/Topic/98447

下载 twt 社区客户端 APP

长按识别二维码即可下载

或到应用商店搜索“twt”

长按二维码关注公众号

*本公众号所发布内容仅代表作者观点，不代表社区立场

http://mp.weixin.qq.com/s?__biz=MjM5NTk0MTM1Mw==&mid=2650701267&idx=2&sn=97b57b94bd3e8a971f0d9c0606bbd901

twt企业IT社区

talkwithtrend.com社区（即twt社区）官方公众号，持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群，让您时刻和国内企业IT同行保持信息同步。

最新文章

金融行业国产数据库容灾建设五大难点及解决方案（多位专家观点可供参考）

Kubernetes / OpenShift 日常巡检（非常详细）

一文读懂虚拟 GPU（vGPU）技术

中小城商行如何选择合适的“小云”来适应一云多芯？

金融行业关键系统信创数据库备份选型需要关注的难点问题（同行交流共识）

信创（麒麟）操作系统选型适配、运维实施难点及应对方案

详解Kubernetes控制器

金融行业云原生应用趋势及建设优化合集（2024年度）【联盟专属资料放送】

星期五招聘日 | 北京上海福州顺德等6市20余岗，中国银联、中信建投证券、顺德农商银行、福建海峡银行、兴业银行信用卡中心等招聘

某银行开发测试准生产机房基于虚拟卷技术实现“信创数据库+信创虚拟化+信创SAN存储”实践分享

金融企业数据湖建设难点和解决思路（同行交流共识）

从办公管理系统信创应用改造看运维体系的变化

信创异构环境下审视云原生二层和三层容器网络

某银行权益类系统基于“业务容器化+数据库多租户”架构实现Oracle信创替换并建设同城双活实践分享

金融行业系统可观测性建设思路和难点

开源生态是一把双刃剑，风险挑战怎样应对？

金融行业私有云上业务系统混合部署的五个关键难题（同行交流共识）

DBA 定制自动化巡检工具（附参考脚本）

存储 IO 性能优化方案与瓶颈分析（15图干货）

金融行业VMware虚拟化替换策略及实践经验合集【联盟专属资料放送】

星期五招聘日 | 北京上海海口苏州等6市20岗，交通银行招聘高层次人才，苏州银行、海南农商银行、成方金信等企业急聘

金融行业信创运维体系建设

金融企业如何进行大数据平台信创整体规划实现平稳迁移与架构优化？| 11月9日·杭州站，报名中

大模型技术在金融领域数据挖掘场景中的运用【大模型行业应用实践系列】

信创数据库环境下如何确保备份解决方案的合规性？（同行交流共识）

某银行日志平台 Elasticsearch 运维（动态配置篇）：集群、索引GC等方面

金融企业为什么有建设数据湖的必要性？价值如何体现？（同行共识总结）

（麒麟、统信）信创操作系统与非信创操作系统稳定性、性能、故障率以及运维难度对比差异（同行交流共识）

结合大语言模型与 Zabbix API 实现 Zabbix 模板自动化翻译

“PostgreSQL技术路线+集中式存储”平滑替换Oracle后，如何开展IT架构高效运维？

某银行基于全闪NAS双活统一高性能文件共享存储实践分享

某金融企业生产环境下信创数据库运维管理规范

存储架构技术发展演变30年：从原始时期到 SAN & NAS 共存阶段；从SDS兴起、百花齐放，到沉淀并分类聚焦的时代

制造行业VMware虚拟化替换策略探讨合集【联盟专属资料放送】

星期五招聘日 | 深圳上海郑州沈阳等城市岗位，中信银行信用卡中心、兴业银行上海分行、河南农商联合银行等企业招聘

向量数据库的性能、数据安全和隐私保护机制（同行交流共识）

如何评估可观测性建设的成效？有哪些关键指标？

信创虚拟化资源池支撑银行重要交易类系统多类信创数据库稳定运行实践分享

十年历程：某三甲医院网络系统的三次改造

企业Centos操作系统迁至（麒麟、统信）信创操作系统迁移成本对比及如何控制（同行交流共识）

《中小银行行业重要及关键系统信创数据库备份软件选型参考共识》（来自中小银行行业群体投票及建议，可下载）

数据库平替的不同场景下，如何选择计算与存储平台的组合？

算力未来，GPU or CPU ？

基于三层模型构建自研存储自动化（实践干货分享）

详解“三保一评”：分保、等保、关保、密评之间的联系与区别

企业信创操作系统落地实践经验合集（下）【联盟专属资料放送】

星期五招聘日 | 上海沈阳柳州江阴东莞精选十余岗，中国工商银行辽宁分行、江阴农商银行、柳州银行、东莞农商银行、华富基金招聘

PB级数据量下的MPP数仓+Hadoop的传统大数据平台向信创环境迁移，有哪些难点？

如何设计智能投研系统，从海量、多源、非结构化的数据中自动提取价值线索，生成投资分析报告？（同行交流共识）

以系统工程思想构建 DevOps 体系

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉