K8s Pod 故障排查，一个不为人知的技巧！

科技 2024-10-11 09:21 福建

ChatGPT 4.0 国内直接使用，不限次数使用 !

2 万字系统总结，带你实现 Linux 命令自由

如果您在 Kubernetes 上运行软件，您会想要在某些时候去调试您所部署的软件的一些方面。对于习惯于使用虚拟机 (VMs) 的人来说能自然使用的一种简单的调试方法，就是连接到一个正在运行的 pod，然后进行解译:

kubectl exec -it podname -c containername -- bash

这通常行之有效，而且非常管用。然而，至少有两种 Kubernetes "最佳实践 "限制了 exec 的实用性:

不以 root 用户身份运行。容器尽可能以最少的特权运行，甚至可能使用随机的用户标识符 (UID) 运行。
最小化镜像。镜像尽可能小，你甚至可以将二进制文件写入到 distroless image。

当应用这些最佳实践时，使用 kubectl exec连接到您的容器要么不可行，要么进入到不适合进行调试的环境。

kubectl exec 指令不允许指定用户标志或能力以启动进程，而是会从目标容器的主指令中复制这些设置。

调试容器

在解决运行容器问题时，Kubernetes 提供了一种原生化调试策略，即使用 kubectl debug。调试指令会在运行中的 pod 中启动一个新的容器。这个新容器能够以不同的用户身份以及从您选择的任何镜像去运行。由于调试容器与目标容器位于同一个 pod 中运行(因此在同一个节点上)，两者之间不需要绝对的隔离。调试容器可以与同一 pod 中运行的其他容器共享系统资源。

考虑去检查在 pod postpod 中的容器 postcont 里运行的 PostgreSQL 数据库的 CPU 使用情况。这个 pod 并不以 root 用户身份运行，并且 Postgres 镜像没有安装类似 top 或 htop 的工具，也就是说，kubectl exec 指令几乎没有作用。您可以按照以下的指令去运行:

kubectl debug -it \  --container=debug-container \  --image=alpine \  --target=postcont \  postpod

您将以 root 身份登录(这是 Alpine 镜像的默认设置)，并可以轻松安装您最喜欢的交互式进程查看器 htop (apt add htop)。您与 postcont 容器共享同一个进程命名空间，可以查看并甚至终止在此运行的所有进程！当您退出进程时，临时容器也会终止。

如果希望调试容器与 postcont 共享相同的进程命名空间，即使 postcont 是在 postpod 中运行的唯一容器，指定 --target 是不具备选择性的 (non-optional)。
您可以按 CTRL+P CTRL+D 断开与临时容器/bash 会话 (session) 的连接，而无需退出 (终止) 它。再使用 kubectl attach 即可重新连接。
kubectl debug 提供的功能比这里概述的更多，比如使用一个修改后的启动指令复制 pods，或通过访问节点文件系统的启动一个 "节点 (node) " pod。

原理解释

以上的 kubectl debug 指令是通过创建临时容器 (ephemeral container) 来实现。这些容器应在现有 pod 中临时运行，以支持故障排除等操作。“普通”容器和临时容器之间的区别很小。而查看 Kubernetes 在创立之初所做的基础架构选择最能让我们理解使用临时容器的原因:

Pod 应该是一次性的、可替换的，并且 Pod 规范也是不可改变的。

当 Kubernetes 主要用于部署无状态工作负载时，这一点更加合理——因为此时 pod 本身会被认为是临时的。在这个 Kubernetes 中它可能会受到限制。Pod 规范保持不变，但 Kubernetes 会将临时容器作为 Pod 的子资源建模。与“普通”容器不同，临时容器不属于 Pod 规范的一部分。

挂载卷 (volumes)

内置指令 kubectl debug 非常有用。它允许您在运行的 pod 中添加一个临时容器，并可选择与运行中的容器共享进程命名空间。不过，如果您希望使用 kubectl debug 来检查或修改运行中容器文件系统的某个部分，那就不走运了——因为调试 pod 的文件系统与您将其连接到的容器的文件系统是分离的。幸运的是，我们可以做的更好。原理很简单:

读取正在运行的目标容器的规范。
将一个临时容器填充到 pod 中。将其配置成与目标容器共享相同的进程命名空间，并包含相同的卷挂载。

因为没有用于创建临时容器的 kubectl 命令，所以我们需要构建一个 PATCH 请求到 K8s API 来创建它。kubectl proxy 指令允许访问 K8s API。这一过程对用户来说并不太友好，因此将这一过程封装到脚本或 kubectl 插件中是合理的。您可以在这里找到这样一个脚本实现示例:

https://github.com/JonMerlevede/kubectl-superdebug

需要注意的是，这种方法和脚本可以很容易地扩展到从目标容器中复制环境变量的规范。如果您将此脚本保存为 kubectl-superdebug，并将其放在您的路径上，就可以在任何地方以 kubectl superdebug 的形式运行，如下所示:

还可以尝试扩展此脚本，将目标容器的其他方面复制到调试容器中，例如环境变量引用。微信搜索公众号：架构师指南，回复：架构师领取资料。

至此，Kubernetes 本机调试运行中的容器的方法概述就完成了，应该能满足大多数人的需求。

非 Kubernetes 原生方法

Kubernetes 不提供以 root 身份连接到正在运行的容器的方法（除非主进程以 root 身份运行），也不提供从另一个容器访问容器根文件系统的方法。但这并不意味着这些事情不可能做到。毕竟， Kubernetes 只是一个位于容器化引擎之上的容器编排器。如果出于某种原因，确实有必要的话，您通常可以通过移除抽象层来做任何您想做的事。

如果您使用的是 Docker 引擎，并且可以直接从节点或通过节点上运行的特权容器访问您的引擎，那么您就可以运行 docker exec --user，并以您选择的用户身份执行一个进程。

kubectl ssh 和 kubectl exec-user 等插件实现了这种方法。但遗憾的是，containerd 和 CRI-O 等现代引擎不再提供 --user 这样标志功能，这意味着这些插件无法在当下的 Kubernetes 安装上运行。

不过，即使是这些现代引擎，通常也只是与 Linux 命名空间接口。通过输入相应的 Linux 命名空间集，您可以在任何您想要的“容器”中运行指令。kpexec 工具实现了这种方法。它在与目标容器相同的节点上启动一个有权限的 pod，然后确定要针对哪些 (Linux) 命名空间，在这些 (Linux) 命名空间中执行命令，最后将其输出流式传输到您的终端。作为额外的收获，它还能在目标容器的文件系统之上叠加一套用于调试的工具。

与 kubectl exec 不同，kpexec 可以使用不同的 uid/gid 运行指令，甚至可以使用与容器主进程不同的功能。它与 containerd 和 cri-o 兼容。只是 kpexec 采用的方法有些笨重和脆弱，可能与集群的安全配置不兼容。但如果 kubectl (super) 调试无法满足您的需求，则值得考虑它。

需要注意，kpexec 使用 nsenter 是直接在命名空间中执行指令的。它与无处不在的容器运行时 runc 兼容，但与 Kata Containers 等运行时不兼容。

借助 Appilot 对话式诊断 K8s

Appilot 是一款面向 DevOps 场景的开源 AI 助手，它可以充分利用 AI 大语言模型的能力让用户直接输入自然语言进一步简化应用部署与管理体验。用户可以根据自身的需求和使用习惯，将 Appilot 集成到任意平台，进而实现通过输入自然语言即可调用后端平台的能力，轻松完成 Kubernetes debug 工作。

Appilot 项目地址 https://github.com/seal-io/appilot

原文链接：https://blog.51cto.com/u_15682575/8768364

（版权归原作者所有，侵删）

---END---

关注公众号 Linux开源社区

后台回复 Linux 获取Linux学习资料

http://mp.weixin.qq.com/s?__biz=Mzg2MDQzMjY4NQ==&mid=2247494523&idx=1&sn=5e35cb90201164a48f92991f1a092fc2

HarmonyOS科技

HarmonyOS 纯血鸿蒙是华为开发的国产智能终端操作系统，专注于分享鸿蒙学习教程、鸿蒙资讯、鸿蒙实战开发！

最新文章

首款搭载 HarmonyOS NEXT 操作系统的华为耳机

“能超越Mate的只有Mate” 一图看懂华为Mate 70 系列首发亮点

鸿蒙新目标：10万个应用，冲刺未来鸿蒙生态

微信输入法登陆华为鸿蒙 HarmonyOS NEXT

华为 MatePad Pro 系列鸿蒙更新：跨系统互联新体验

鸿蒙系统5.0升级指南：让你的华为设备变得不一般

华为纯血鸿蒙首迎“微信”：打造生态新高度

华为推送鸿蒙 HarmonyOS NEXT 5.0.0.107 更新

华为史上最强Mate确认！首发搭载 HarmonyOS NEXT 5.0

纯血鸿蒙版 QQ /微信放量尝鲜下载

HarmonyOS 全新上线 HarmonyOS SDK

来了！HarmonyOS NEXT Beta 版开启招募！

华为鸿蒙 HarmonyOS NEXT 推送补丁包，修复优化多项功能

华为 HarmonyOS NEXT 版微信内测来了！

HarmonyOS NEXT 版 QQ「大量」内测

纯血鸿蒙harmonyOS5.0来了｜全球第三大移动操作系统

HarmonyOS NEXT 互联升级：全新分享 “碰一碰”

2024 鸿蒙开发必备资源包，绝了！

鸿蒙 HarmonyOS 5.0 牛逼，更多机型加入公测

华为推送鸿蒙 HarmonyOS NEXT 5.0.0.102 更新

鸿蒙系统 HarmonyOS ，值得学习吗？

华为鸿蒙 HarmonyOS 5.0来袭！最新手机适配名单

为什么要学习鸿蒙开发？HarmonyOS 不只是操作系统

HarmonyOS 应用开发学习指南

从 “1+8+N” 中读懂 HarmonyOS 的万物互联

目前 HarmonyOS 鸿蒙开发现状

鸿蒙生态崛起，开发者要抓住这波红利

HarmonyOS NEXT 开发者文档使用技巧

华为原生鸿蒙系统 HarmoryOS Next 5.0发布

HarmonyOS 新手学习资料无套路分享

历史性一刻！华为手机开机动画变了，跟安卓再无半点儿关系

纯血鸿蒙正式登场！继iOS和安卓后，全球第三大移动操作系统来了

回调函数(callback)是什么？一文理解回调函数(callback)

零长度数组没有意义？那是你不懂！看Linux内核中怎么高级玩它？

20个Linux命令贴与技巧，效率瞬间翻倍

linux 内核启动流程分析

深入理解并发和并行

网络性能测试利器——iperf3

一文剖析 Linux 内核的内存管理

Linux系统中的高级内核模块调试方法汇总结

MQTT 的用途是什么？

深入理解linux惊群效应（超详细）

一个 TCP 发送缓冲区问题的解析

分享几款免费的电路设计软件

如何查看Linux服务器磁盘IO性能

大厂的堡垒机到底是啥？

K8s Pod 故障排查，一个不为人知的技巧！

运维必知的20个网络安全知识点

手把手教你将程序部署到服务器！

一文掌握中间件技术基础

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉