Docker 容器日常巡检关键点总结

科技 2024-11-20 07:35 海南

【导读】本文对Docker容器日常巡检工作进行了整理，提供排查方法和排查思路，帮助大家学会尽快发现问题，解决问题。《Kubernetes 日常巡检》可点击标题阅读。

【作者】曹如熙，高级运维leader，具有超过十年的互联网运维及五年以上团队管理经验，多年容器云的运维。

1 docker/podman ps查看容器状态

Docker/podman ps -a 查看容器状态STATUS：

Exited(0)：表示容器正常退出

Exited(其他数字)：容器异常退出，需要通过log 查看原因

Up：容器在运行状态

Up(Paused)：容器暂停

Up(healthy)：容器监听健康

Up(unhealthy)：容器监听异常

2 健康检查—HealthCheck

一些参数需要docker 17.05以上支持

2.1 通过docker run或者dockerfile添加健康检查

例如：

docker run --name=nginx --health-cmd="curl --silent --fail localhost/ || exit 1" --health-inter-val=30s --health-retries=3 --health-timeout=10s --start-period=60s nginx:latest

--interval:两次健康检查的间隔，默认为 30 秒

--timeout: 健康检查超时时间，，默认 30 秒

--retries: 连续失败次数，默认 3 次。

--start-period: 启动的初始化时间，默认 0 秒

--health-cmd: shell和exec 格式，取命令的返回值结果

0表示成功，1表示失败

STATUS， healthy表示健康

unhealthy表示不健康

reserved保留值，不适用

2.2 输出健康检查状态

docker/podman inspect --format '{{json .State.Health}}' 容器名| python -m json.tool

输出healthy表示健康，用户可以编写脚本监控容器状态做报警

3 docker stats查看容器状态

可以通过docker stats查看容器的cpu, 内存，网络，IO的使用情况

4 通过第三方工具监听容器

这里主要介绍prometheus+grafana+cadvisor

4.1 prometheus介绍

prometheus通过node-exporter收集node主机的信息

可以看到up状态和unhealthy状态的node节点主机

Unhealthy表示node节点node-exporter异常

Prometheus是一款强大的第三方工具，除了docker容器监控，还支持mysq，数据仓库，Hadoop，k8s 等开源系统

4.2 cadvisor介绍

Google的开源cadvisor,帮助收集，监听容器的status和数据，主要是CPU, 内存，FS，网络等usage

4.3 grafana介绍

Grafana作为展示prometheus和cadvisor的数据，也可以实现自定义规则报警。（可以去grafana官网搜寻需要监控的模板）

可以通过dashboard展示node主机上的所有容器

通过panel，metrics自定义需要收集的容器数据

通过自定义规则统计需要收集的容器数据，也可以统计宕机状态的容器

Grafana支持自定义报警功能

如果是大量的容器监控报警，建议使用alertmanager做报警

5 docker容器的日志检查

Docker的日志分为两类，一类是 Docker引擎日志；另一类是容器日志。引擎日志一般都交给了系统日志。容器日志可以理解是运行在容器内部的应用输出的日志。

默认情况下，docker logs显示当前运行的容器的日志信息，内容包含 STOUT(标准输出) 和 STDERR(标准错误输出)。日志都会以 json-file的格式存储于 /var/lib/docker/containers/<容器id>/<容器id>-json.log

CRIO的日志，存放在/var/log/containers/

通过docker/podman logs命令查看容器的日志

查看最近1小时日志

docker/podman logs --since 60m容器名

查看某时间段日志

docker/podman logs -t --since="" --until "" 容器名

建议：docker/podman run时候，日志文件-v到宿主机上，

docker/podman run -d --name xxx -v /opt/log:/log xxx:latest

通过elk去抓取宿主机上的日志，尽量不要通过docker logs去检查容器日志。

除了docker容器，本文也向大家介绍kubernetes的日常巡检。

由社区同行“曹如熙”分享（首发于2021年）
觉得本文有用，请转发、点赞或点击“在看”，让更多同行看到

资料/文章推荐：

欢迎关注社区 "容器云"技术主题 ，将会不断更新优质资料、文章。地址：

https://www.talkwithtrend.com/Topic/98447

下载 twt 社区客户端 APP

长按识别二维码即可下载

或到应用商店搜索“twt”

长按二维码关注公众号

*本公众号所发布内容仅代表作者观点，不代表社区立场

http://mp.weixin.qq.com/s?__biz=MjM5NTk0MTM1Mw==&mid=2650701394&idx=2&sn=c9c0c9c8c3e41f0d4ffb081477f57e2d

twt企业IT社区

talkwithtrend.com社区（即twt社区）官方公众号，持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群，让您时刻和国内企业IT同行保持信息同步。

最新文章

银行信创云环境下的典型存储应用场景和产品选型

实现跨越IDC容灾，银行交易系统信创数据库如何结合数据库层和存储层容灾技术设计容灾方案？

存算分离or存算一体？架构师激辩：金融行业信创数据库存储方案如何选择？

企业网络安全工作自查总结

金融同行交流共识：可观测性建设的目标、场景及成效

基于知识图谱增强RAG应用和构建RAG知识库

裸机GPU vs 虚拟GPU，该如何选？

银行重要交易系统信创分布式数据库备份系统实施策略如何设计？

中小银行VMware虚拟化信创：替换策略、选型方法、统一管理

Linux 服务器性能参数指标中的蛛丝马迹

大模型落地系列：认知之旅、实践探索、战略高峰与哲学思考【联盟专属资料放送】

六十个网络基础知识点（图解）

星期五招聘日 | 架构设计师、数据模型岗、安全工程师等热门岗位，深圳郑州西宁等5城，青海农商、招行普惠金融部等多家企业招聘

AI趋势下，金融企业运维平台方案的选型思考及策略

城商行手机银行等互联网渠道敏态类应用如何由VMware虚拟化平稳过渡至信创IaaS云？｜线上探讨，报名中

金融行业大模型的运维挑战及应对方法【大模型行业应用实践系列】

数据库信创选型的基本原则和关键因素

中小银行关键系统信创数据库如何实现自动化备份和恢复？（同行交流共识）

Docker 容器日常巡检关键点总结

AI Agents：从概念到实践的探索与应用入门

从法律风险到运维成熟度：开源软件对企业的五大挑战与应对之道

金融行业交易系统数据库信创备份系统设计及备份架构技术路线选型 | 线上探讨

金融行业私有云上平台的建设与运维实践难点（同行交流共识）

“大模型应用落地之规划AI数据中心”——《迈向YB数据时代》第9期精彩内容一览

数字孪生应用趋势下，高端装备制造企业如何利用HPC提升仿真系统运行效率与稳定性？| 11月24日 • 苏州站

从GPU虚拟化到池化

信创（麒麟、统信）操作系统与非信创操作系统运维差异对比合集【联盟专属资料放送】

星期五招聘日 | 基础平台架构师、数据安全岗、敏捷专家等16岗，北京上海郑州等7城，郑州银行、贵州农信、兴业数金等企业招聘

某证券重要交易系统多数据库混存环境下备份信创策略与一体化备份架构设计实践分享

金融企业如何设计重要交易系统信创数据库备份系统保障数据快速恢复和备份效率？| 11月23日 • 成都站

中小银行关键应用信创虚拟化平替路线高可用及容灾实践难点（同行交流共识）

金融行业国产数据库容灾建设五大难点及解决方案（多位专家观点可供参考）

Kubernetes / OpenShift 日常巡检（非常详细）

一文读懂虚拟 GPU（vGPU）技术

中小城商行如何选择合适的“小云”来适应一云多芯？

金融行业关键系统信创数据库备份选型需要关注的难点问题（同行交流共识）

信创（麒麟）操作系统选型适配、运维实施难点及应对方案

详解Kubernetes控制器

金融行业云原生应用趋势及建设优化合集（2024年度）【联盟专属资料放送】

星期五招聘日 | 北京上海福州顺德等6市20余岗，中国银联、中信建投证券、顺德农商银行、福建海峡银行、兴业银行信用卡中心等招聘

某银行开发测试准生产机房基于虚拟卷技术实现“信创数据库+信创虚拟化+信创SAN存储”实践分享

金融企业数据湖建设难点和解决思路（同行交流共识）

从办公管理系统信创应用改造看运维体系的变化

信创异构环境下审视云原生二层和三层容器网络

某银行权益类系统基于“业务容器化+数据库多租户”架构实现Oracle信创替换并建设同城双活实践分享

金融行业系统可观测性建设思路和难点

开源生态是一把双刃剑，风险挑战怎样应对？

金融行业私有云上业务系统混合部署的五个关键难题（同行交流共识）

DBA 定制自动化巡检工具（附参考脚本）

存储 IO 性能优化方案与瓶颈分析（15图干货）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉