K8s 一个不为人知的功能，可能会杀掉Pod（附k8s学习资料）

文摘 2024-10-29 16:03 河南

老版本的kubernetes集群，容器运行时使用的是docker，经常会出现集群运行很久后节点的硬盘快跑满了，大文件主要集中在:/var/lib/dokcer/ovlery2,该目录下文件有块70G，/var/log/或者/var/log/journal下也有大日志文件占用空间。此时需要及时清理，不然会导致集群异常。

1、磁盘爆满

容器运行时使用的目录所在磁盘爆满

如果容器运行时使用的目录所在空间爆满，极有可能导致容器运行时无响应，例如docker相关命令会hang住，kubelet 日志也将看到 PLEG unhealthy，而 CRI 调用 timeout 也将导致容器无法创建或销毁，外在现象通常表现为 Pod 一直 ContainerCreating 或一直 Terminating。

docker 默认使用的目录

/var/run/docker：用于存储容器运行状态，通过 dockerd 的--exec-root 参数指定。
/var/lib/docker：用于持久化容器相关的数据。例如，容器镜像、容器可写层数据、容器标准日志输出及通过 docker 创建的 volume 等。

故障现象

Pod 在启动过程中，可能会出现以下类似事件


#pod启动过程事件Warning  FailedCreatePodSandBox 53m kubelet, 172.22.0.44  Failed create pod sandbox: rpc error: code = DeadlineExceeded desc = context deadline exceededWarning  FailedCreatePodSandBox  2m (x4307 over 16h)  kubelet, 10.179.80.31  (combined from similar events): Failed create pod sandbox: rpc error: code = Unknown desc = failed to create a sandbox for pod "apigateway-6dc48bf8b6-l8xrw": Error response from daemon: mkdir  /var/lib/docker/aufs/mnt/1f09d6c1c9f24e8daaea5bf33a4230de7dbc758e3b22785e8ee21e3e3d921214-init: no space left on deviceWarning  Failed   5m1s (x3397 over 17h)  kubelet, ip-10-0-151-35.us-west-2.compute.internal  (combined from similar events): Error: container create failed: container_linux.go:336: starting container process caused "process_linux.go:399: container init caused \"rootfs_linux.go:58: mounting \\\"/sys\\\" to rootfs \\\"/var/lib/dockerd/storage/overlay/051e985771cc69f3f699895a1dada9ef6483e912b46a99e004af7bb4852183eb/merged\\\" at \\\"/var/lib/dockerd/storage/overlay/051e985771cc69f3f699895a1dada9ef6483e912b46a99e004af7bb4852183eb/merged/sys\\\" caused \\\"no space left on device\\\"\""#pod删除过程事件Normal  Killing  39s (x735 over 15h)  kubelet, 10.179.80.31  Killing container with id docker://apigateway:Need to kill Pod

2、kubelet使用的目录爆满

默认的kubelet的目录为/var/lib/kubelet，通过 kubelet 的 --root-dir 参数指定，用于存储插件信息、Pod 相关的状态以及挂载的 volume。

故障现象

Kubelet 使用的目录所在磁盘空间爆满（通常是系统盘），新建 Pod 时无法成功进行 mkdir，导致 Sandbox 也无法创建成功，Pod 通常会出现以下类似事件：


Warning  UnexpectedAdmissionError  44m kubelet, 172.22.0.44  Update plugin resources failed due to failed to write checkpoint file "kubelet_internal_checkpoint": write /var/lib/kubelet/device-plugins/.728425055: no space left on device, which is unexpected.

解决办法

当容器运行时为 docker 时发生磁盘爆满问题，dockerd 也会因此无法正常响应，在停止时会卡住，从而导致无法直接重启 dockerd 来释放空间。需要先手动清理部分文件腾出空间以确保 dockerd 能够停止并重启。恢复步骤如下：

手动删除 docker 的部分 log 文件或可写层文件。通常删除 log 文件，示例如下：


$ cd /var/lib/docker/containers$ du -sh * # 找到比较大的目录$ cd dda02c9a7491fa797ab730c1568ba06cba74cecd4e4a82e9d90d00fa11de743c$ cat /dev/null > dda02c9a7491fa797ab730c1568ba06cba74cecd4e4a82e9d90d00fa11de743c-json.log.9 # 删除log文件

说明：

删除文件时，建议使用cat /dev/null > 方式进行删除，不建议使用rm。使用rm 方式删除的文件，不能够被 docker 进程释放掉，该文件所占用的空间也就不会被释放。
log 的后缀数字越大表示时间越久远，建议优先删除旧日志。

2. 执行以下命令，将该 Node 标记为不可调度，并将其已有的 Pod 驱逐到其它节点。


kubectl drain <node-name>

该步骤可以确保 dockerd 重启时将原节点上 Pod 对应的容器删掉，同时确保容器相关的日志（标准输出）与容器内产生的数据文件（未挂载 volume 及可写层）也会被清理。

3. 重启docker


systemctl restart dockerd# or systemctl restart docker

4. 等待 dockerd 重启恢复，Pod 调度到其它节点后，排查磁盘爆满原因并进行数据清理和规避操作。

5. 执行以下命令，取消节点不可调度标记。

3、清理docker镜像

在日常运维工作中，为了规避磁盘爆满的情况，需要及时清理docker镜像来时放磁盘空间。

以下是docker原生命令来清理镜像：


journalctl --vacuum-size=20M #设置journal 日志最大为20M不保留不必要日志。docker image prune -a --filter "until=24h"   # 清除超过创建时间超过24小时的镜像docker container prune --filter "until=24h"  #清除掉所有停掉的容器，但24内创建的除外docker volume prune --filter "label!=keep"  #除lable=keep外的volume外都清理掉(没有引用的volume)docker system prune  #清理everything：images ，containers，networks一次性清理操作可以通过docker system prune来搞定

4、k8s垃圾回收机制

Kubelet 垃圾回收（kubelet-garbage-collection）负责自动清理节点上的无用镜像和容器。

镜像回收

Kubernetes 对节点上的所有镜像提供生命周期管理服务，这里的所有镜像是真正意义上的所有镜像，不仅仅是通过 Kubelet 拉取的镜像。

当磁盘使用率超过设定上限 HighThresholdPercent 时，Kubelet 就会按照 LRU 清除策略逐个清理掉那些没有被任何 Pod 容器（包括已经死亡的容器）所使用的镜像，直到磁盘使用率降到设定下限 LowThresholdPercent 或没有空闲镜像可以清理。

此外，在进行镜像清理时，会考虑镜像的生存年龄，对于年龄没有达到最短生存年龄 MinAge 要求的镜像，暂不予以清理。

影响垃圾回收的关键参数


--image-gc-high-threshold：磁盘使用率上限，有效范围 [0-100]，默认 85--image-gc-low-threshold：磁盘使用率下限，有效范围 [0-100]，默认 80--minimum-image-ttl-duration：镜像最短应该生存的年龄，默认 2 分钟

配置举例

k8s版本1.24，主要是更改node节点的kubelet参数。


vim /etc/kubernetes kubelet.env

增加启动参数，然后重启kubelet。


systemctl restart kubeletsystemctl status kubelet -fl

确认参数配置上去。

容器回收

容器在停止运行（比如出错退出或者正常结束）后会残留一系列的垃圾文件，一方面会占据磁盘空间，另一方面也会影响系统运行速度。

此时，就需要 Kubelet 容器回收了。要特别注意的是，Kubelet 回收的容器是指那些由其管理的的容器（也就是 Pod 容器），用户手动运行的容器不会被 Kubelet 进行垃圾回收。

容器回收主要针对三个目标资源：普通容器、sandbox 容器以及容器日志目录。

MaxPerPodContainer 与 MaxContainers 的设置，按照 LRU 策略，从 Pod 的死亡容器列表删除一定数量的容器，直到满足配置需求；对于 sandbox 容器，按照每个 Pod 保留一个的原则清理多余的死亡 sandbox；对于日志目录，只要没有 Pod 与之关联了就将其删除。

Kubelet 的容器垃圾回收只针对 Pod 容器，非 Kubelet Pod 容器（比如通过 docker run 启动的容器）不会被主动清理。

影响容器垃圾回收的相关控制参数主要有三个：


--minimum-container-ttl-duration：从容器停止运行时起经过设置时间后，该容器标记为已过期将来可以被回收（只是标记，不是回收），默认值为1m0s # 1.22.5 不支持--maximum-dead-containers-per-container：每个 pod 上可以留下运行结束之后的容器的个数，默认值为 2--maximum-dead-containers：节点可保留的死亡容器的最大数量，默认值是 -1，这意味着节点没有限制死亡容器数量

来源：https://blog.51cto.com/u_11555417/5680563

再给大家分享一份来自阿里内部的《Kubernetes学习指南》和《4天实战轻松玩转Docker》，另外再分享一份《Jenkins持续集成从入门到精通》，图文并茂，含金量很高，更偏实战。

【领取方式看这里】

扫描下方二维码~

备注：阿里实战笔记

100%免费领取

阿里Kubernetes学习指南

这份文档分为理论篇和实践篇两大部分，全文127页，内容丰富全面，图文并茂，可读性强，基于大厂实际生产环境的真实项目，实用性强。特别适合对K8S感兴趣的朋友们学习参考。

4天实战轻松玩转Docker

这份文档一共包含4大部分，实战总结一步到位，图文并茂，又想学习Docker和提升的朋友可以拿来学习参考。

Jenkins从入门到精通

这份文档共有131页7个章节，从基础到入门十分详细，内含大量彩图注释，更偏向于实践指导，很适合学习参考。

资料源于网络，侵删

阿里爆款实战笔记

【配套PDF版资料】

免费领取，仅限前 100 名

扫描上方二维码~

备注：阿里实战笔记

http://mp.weixin.qq.com/s?__biz=MzI1OTAwMTIzMg==&mid=2247531943&idx=2&sn=06255efed7423204a1bc08574510758a

程序员面试吧

面试不求人，一起Get大厂面试技巧。

最新文章

113页Nginx 学习笔记，入门到精通一条龙，看完终于明白了！

要说系统怎么整漂亮，还得是 Linux！

自己工资14K，找到月薪28K工作后，开心地提交辞呈，租了新房子！入职前一天HR说：原来岗位的人不走了，你offer被取消了

为什么猝死的大多是程序员，基本上见不到产品经理？

支付宝宕机事件全解析，你关心的都在这里

看完这40页MySQL面试题，你也能进BAT！

Linus 大佬展现恐怖业务实力：只改动 21 行代码，Linux 性能狂升 2.6%

全球第二大成人网站、“Web世界的最后捍卫者”：OnlyFans一年赚66亿美金，远超Pornhub、比AI创业公司都挣得多

阿里、腾讯、小米、京东薪资待遇一览（2025最新版）

Docker和k8s核心概念(理解友好版)

为什么现在几乎没人自己编译 Linux 内核了？

牛批！阿里内部《Ansible运维自动化手册》，运维开发必须收藏（附高清PDF免费领取）

双十一支付宝崩了，有人被扣款22次！

K8s故障排查手册，运维必备，建议收藏！

太厉害了，终于有人能把Ansible讲的明明白白了~

运维总监怒怼开发：你真的需要 K8s 吗？

Nginx 限流详解，应对流量突发和恶意攻击

12 款适合网络工程师的杀手级（免费）工具！

被遗忘的 10 个Linux命令，很实用！

100个必备网络基础知识

致 Linux 运维：这些高频命令，你真的需要熟记！

年薪直冲30万都求不到人才，这个行业到底有多缺人

双十一倒计时3天！大奖云集，100%中奖，没有空奖！

揭开 Linux 的七大误解真相：它其实比 Windows 还友好！

微服务容器云学习大礼包，k8s+Docker+Ceph+Envoy

Win11 大更新先让用户“集体崩溃”：蓝屏死机、鼠标光标没了，9GB 缓存还删不掉！

240多道！Go开发岗位面试题合集（含答案）

【双11狂欢盛典】全线课程最高可省5000元！2024版SRE、安全、云原生-微服务、Go开发架构师、Python工程师……

深入剖析：如何在CentOS上进入单用户和救援模式实现系统故障排查

从零开始，一步步教你玩转Jenkins（保姆级教程）！

面试数十家运维工程师，最新总结1000+面试题！看完轻松拿Offer

Docker深度解析：从基础到进阶，打造高效容器化应用部署体系

干到高级运维，必须狠练这8个技能

未来可能消失的编程语言

这7本书都没有，还学什么Web安全？（附全套PDF）

Linux 内核“清洗”俄开发者？Linus 大佬亲自下场回复：水军别费力气了，我绝不撤回决定

分享：Linux 的 6 个实际和现实应用

干货 | 网络安全学习路线指南

高效运维工具箱：精选10款Linux运维神器

运维必会的10个网络抓包/调试工具

Docker实战教程：全套学习笔记+项目实践，一站式掌握！

K8s 一个不为人知的功能，可能会杀掉Pod（附k8s学习资料）

Kali Linux 正式停止 i386 支持：32 位时代的告别

Shell脚本新手？200+实用Shell脚本，一文掌握所有技巧！

Prometheus高手进阶：244页实战教程，解锁监控领域新技能！

四款最佳替代 CentOS 的操作系统

8个少走弯路 Prometheus 实践总结，全掌握算我输？

有了这款Linux服务器的安全审计工具，方便多了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉