记一次 K8s 故障处理

文摘 2024-03-29 08:39 北京

Calico 异常重启问题复盘

集群内网络架构为，基于Calico BGP 的路由模式，直接与交互机建联。

影响范围和故障时间线

影响范围

线下环境 node-xx 物理机上 Pod 网络不可用

影响时间线（2023-07-23 22:09 ~ 22:14）

[22:13] 收到网工反馈 Peer Down

[22:14] Calico 故障自愈（自动重启）

故障发生原因

故障现象

1）查看 calico 事件信息：kubectl -n kube-system describe pod calico-node-xx

ok , 从上面事件日志可得找到以下关键信息：

Readiness probe failed、Liveness probe failed 就绪探针、存活探针探测失败 → 查看探测方式，是使用 exec 进行探测（fork 新命令方式）→ 具体错误信息 Resource temporarily unavailable

2）查看 kubelet 系统日志 journalctl -u kubelet.service --since "2023-07-23 22:00:00"

从上面日志可以得到以下关键信息：runtime: failed to create new OS thread (have 5 already; errno=11) runtime: may need to increase max user processes (ulimit -u) fatal error: newosproc

3）查看 Node-exporter 监控大盘，Processes 相关监控

从监控大盘可以分析出来：

从22点开始出现了大量的 Processes Forks，没收集到 PIDs Number 和 Threads Number

4）有没有可能是 PID 跑满了，由于没有收集到 PIDs Number 和 Threads Number，所以换个思路，看看容器 cadvisor 是否有收集 Processes 相关信息，是不是容器捣的鬼，使用 promql 查询 node-xx 容器线程趋势 sum(container_threads{node="node-xx"})

查询到 22点多容器总线程量达到 46k

根因分析

总结一下，上述现象的有用信息

calico-node 使用 exec 进行监控探测，探测失败，Resource temporarily unavailable
kubelet 无法初始化线程，需要增加所处运行用户的进程限制，大致意思就是需要调整ulimit -u
22 点有大量的 process forks，node-xx 容器总线程 突增到 46k，无法确定当时宿主机的总线程数，可以通过如下命令实时计算 ps -eLf | wc -l

继续分析，登录服务查看 ulimit -u 的限制数 204k ，46k 比 204k 还差得远

因为ulimit是针对于每用户而言的，具体还要验证每个用户的limit的配置，如下

根据以下配置判断，并没有超出设定的范围，最后的取值是会取 /etc/security/limits.d/20-nofile.conf 里面的值（优先级高），还是 204k

-→ 继续找 Google Resource temporarily unavailable 错误，翻阅linux内核文档，搜索PID相关字段，其中找到如下相关的PID参数 kernel.pid_max

https://www.kernel.org/doc/html/latest/admin-guide/sysctl/kernel.html#pid-max

参数大致意思是，kernel允许当前系统分配的最大PID identify，如果kernel 在fork时hit到这个值时，kernel会wrap back到内核定义的minimum PID identify，意思就是不能分配大于该参数设定的值+1，该参数边界范围是全局的，属于系统全局边界

同理，还有threads-max 参数

OK，安排，确认当前的 PID 限制，检查全局 PID 最大限制: cat /proc/sys/kernel/pid_max 49k，没错，应该就是它了，49k = 46k（容器总线程） + 非容器线程数

也检查下线程数限制：cat /proc/sys/kernel/threads-max 1545k

结论：全局 PID（/proc/sys/kernel/pid_max ）达到上限，导入 calico 无法 fork 进程，进而监控检查失败，存活探针自动重启

等等，还没完，到底是谁把 PID 耗尽了呢，还要找出真凶，容器总线程突增，说明是某个容器造成的，安排promql 查，container_threads{node="node-xx"}

至此，结案了，联系开发改代码，有线程泄露。

Why 分析

1）导致问题的直接原因是什么？

Xxx 应用线程泄露，导致全局 PID 耗尽，进而导致 calico 监控检查失败，自动重启。

2）K8s Pod 中没有限制 PID 数吗？

默认 K8s Pod 是不对 PID 数进行限制的。

3）为何排查问题耗时较长？

未收集物理机 Processes 的相关监控指标，也未设置 PID 使用百分比触发器

4）全局PID限制，为何比用户PID限制要小？

参数设置不合理，未进行调优

后续 TODO

1）调整 pid_max 参数

2）开启 Node-exporter Process 监控并补全告警

node-exporter 启动参数中新增 --collector.processes，并添加告警规则 (node_processes_threads / on(instance) min by(instance) (node_processes_max_processes or node_processes_max_threads) > 0.8)

3）评估业务是否需要开始 Pod PID 限制：https://kubernetes.io/zh-cn/docs/concepts/policy/pid-limiting/

我是 Clay，下期见 👋

http://mp.weixin.qq.com/s?__biz=MzkxNzAyMzA3Nw==&mid=2247484952&idx=1&sn=b3c432f531a3a238c578cb580264fca2

云原生SRE

懂点K8S的SRE，关注云原生、DevOps、AI&ChatGPT等技术热点

将 VictoriaLogs 与 Grafana 集成，是时候抛弃 Loki 了！

Kubernetes学习周报（第11期）Golang在 K8S中运行的内存限制; 探索Cilium和Istio实现; 容器分层

Kubernetes学习周报（第10期）如何保持容器运行以调试; ETCD Raft 协议;Kubectl端口转发详解

6 张图带你深入了解 kube-scheduler

Prometheus 3.0 全新的 Dashboard！

Kubernetes学习周报（第9期）: CNI 和网络命名空间；网络插件基准测试；K8S备份解决方案Velero实施指南

K8s 集群巡检

Kubernetes学习周报（第8期）:K8S网络数据包管理之旅；当K8S和 Go 不能很好地协同工作时；K8S探针配置

(文末有福利)巅峰对话 | 直通未来科技前沿，与行业顶级技术专家共话数据库未来

K8s CPU Throttle 优化方案

Kubernetes学习周报（第7期）:K8S容器运行时CRI接口；Kluctl管理集群API；K8S无服务器应用监控

2024 互联网公司时薪排行榜！拼多多、小红书很顶！

Kubernetes系列（一六六）Kubernetes 的 10 大错误&如何专业地排除它们？

Kubernetes学习周报（第六期）:K8S API 实用指南；Etcd灾难恢复方案；K8S Gateway API介绍

卷不动了！去香港工作可以重启人生吗？

Kubernetes学习周报（第五期）: K8S隐藏的“OOM 终止”问题；一个K8S命令引发的悲剧；Cilium的BGP功能

LLM On Kubernetes

大厂边缘组VS小厂核心组，你怎么选？

Kubernetes学习周报（第四期）: K8S中使用 Wireshark；K8S安全清单；如何缩小Docker镜像

什么，这次的项目决定不用K8S了？那该如何上线一个容器服务？

突发，OpenAI API 惨遭封杀：被区别对待了。。

快速搭建自己的多平台镜像站

加入知识星球，共同探索云原生学习之旅！

Kubernetes学习周报（第三期）: Kubernetes 健康检查，如何使用 runc 生成容器

大厂边缘组VS小厂核心组，你怎么选？

Go项目实战之docker开发环境部署

从0开始装一套 KubeVirt 1.2.1

Kubernetes学习周报 : 一周好文推荐，K8s 网络请求分析，多集群 Kubernetes 的 7 个注意事项

Envoy Gateway 概述：使用 Gateway API 的现代 Kubernetes 入口

K8s 多集群编排平台 Karmada 入门

Kubernetes学习周报 : 一周好文推荐

数据库面试题共性问题+参考答案

某某云又挂了？删库跑路？保命的容灾恢复计划就该这么制定！！

eBPF + LLM：实现可观测性智能体的基础设施

深夜炸场，GPT-4o 震撼发布，免费试用！！

克服 Prometheus 单值数据模型的局限性：GreptimeDB 的新路径

加入知识星球，共同探索云原生学习之旅！

Rancher使用实践 - 集群管理

Rancher使用实践 - 用户管理

CoreDNS 概述及运维实践

深入解读 CNI：容器网络接口

深入解读 CNCF 推出的云原生 AI 白皮书

Kubernetes 策略管理引擎 - Kyverno

Etcd 概述及运维实践

奇安信的年终奖，出乎了所有人意料！

借助Rancher平台工具，给你的K8S集群加点安全的料

SCDS in Rancher Manager 2.7 认证，附学习笔记思维导图

记一次 K8s 故障处理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉