ZooKeeper 避坑指南： ZooKeeper 3.6.4 版本 BUG 导致的数据不一致问题

科技 2024-07-19 09:47 上海

背景

Cloud Native

ZooKeeper 作为分布式系统的元数据中心，对外服务的数据一致性需要得到很好的保证，但是一些老版本的 ZooKeeper 在一些情况下可能无法保证数据的一致性，导致依赖 ZooKeeper 的系统出现异常。

某用户使用 3.4.6 版本 ZooKeeper 做任务调度，ZooKeeper 实例的 tps 和 qps 都比较高，事务日志产生的速率很快，即使此用户配置了自动清理的参数，但是自动清理的最小间隔还是赶不上数据产生的速度，导致磁盘爆满。

在此用户清理了旧日志之后，重启节点，部分业务机器就报出 NodeExist，NoNode 的异常，并且报错只集中在部分机器，此次异常导致用户任务调度系统出现任务重复调度以及任务丢失问题，产生重大损失。

原因分析

Cloud Native

仔细检查了这些客户端发现这些客户端都连接在同一台 ZooKeeper 节点上，通过 zkCli 手动排查节点上的数据，对比其他未清理磁盘的 ZooKeeper 节点，清理了磁盘的 ZooKeeper 节点中的数据和其他节点具有差异，此时确定此节点由于一些原因出现了数据不一致问题，导致连接到此节点的客户端读到了脏数据。

但是排查日志，没有发现异常日志。由于此节点之前清理过日志，并且重启过，磁盘上的数据被重新加载过，因此怀疑是 ZooKeeper 在启动加载数据的过程中出现了一些异常情况。通过分析 ZooKeeper 启动中加载数据的代码，继续排查具体原因。


public long restore(DataTree dt, Map<Long, Integer> sessions,            PlayBackListener listener) throws IOException {        snapLog.deserialize(dt, sessions);        FileTxnLog txnLog = new FileTxnLog(dataDir);        TxnIterator itr = txnLog.read(dt.lastProcessedZxid+1);        long highestZxid = dt.lastProcessedZxid;        TxnHeader hdr;        try {            while (true) {        ...                try {                    processTransaction(hdr,dt,sessions, itr.getTxn());                } catch(KeeperException.NoNodeException e) {                   throw new IOException("Failed to process transaction type: " +                         hdr.getType() + " error: " + e.getMessage(), e);                ...        return highestZxid;    }

此处是 ZooKeeper 加载磁盘数据的代码，此方法的主要作用是，首先将磁盘中的 snapshot 文件加载进内存，初始化 ZooKeeper 内存中的数据结构，之后将加载事务日志应用日志中对数据的修改，最终还原磁盘中数据的状态。

但是在 3.4.6 版本的代码中 snapLog.deserialize(dt, sessions);这行加载 snapshot 文件的代码有一个返回值，此处没有进行返回值校验，导致在 ZooKeeper 本身找不到有效的 snapshot 文件的情况下还是会继续加载事务日志，从而导致 ZooKeeper 在空数据的状态下直接应用事务日志，最终导致此节点的数据和其他节点的数据不一致。

此问题已经在 ZooKeeper 社区有对应的 issue，在加载 snapshot 的文件列表为空的情况下，此问题已经得到了修复，但是由于磁盘爆满导致的 snapshot 文件不完整的其他的一些特殊情况下，此问题依然存在。解决此问题还需要从磁盘使用的角度解决。

issue：
https://issues.apache.org/jira/browse/ZOOKEEPER-2325

解决方案

Cloud Native

为了避免 ZooKeeper 节点的磁盘被快速打满，可以增加磁盘的容量，配合 ZooKeeper 本身的清理机制，可以在一定范围内的 tps 下避免磁盘被写满的情景，但是增大磁盘容量会带来显著的使用成本的提高，并且即使磁盘容量提高了，也可能因为 ZooKeeper 本身清理机制不及时清理，导致磁盘被打满，最终需要通过人工的方式进行磁盘清理，运维起来很复杂，耗费人力物力，并且集群稳定性得不到显著提升。

MSE ZooKeeper 提供 ZooKeeper 实例的全托管，MSE ZooKeeper 实例的磁盘使用对用户完全透明，用户无需担心磁盘爆满问题，以及磁盘使用过程中的复杂运维。MSE ZooKeeper 通过定时清理，触发使用阈值清理等手段保证 ZooKeeper 实例在使用过程中磁盘始终处于安全水位，避免由于磁盘问题导致的数据不一致，实例不可用等问题。

MSE ZooKeeper 默认集成 Promethus 监控，提供丰富的指标信息，并且针对写多的场景，MSE ZooKeeper 提供 TopN 大盘，能够快速看到业务热点数据，以及高 tps 的客户端情况，能够通过这些统计数据快速定位业务使用过程中的问题。

添加👇下面微信，拉你进群与大佬一起探讨云原生！

云原生运维圈

专注于Docker、Kubernetes、Prometheus、Istio、Terraform、OpenTelemetry等云原生技术分享！

最新文章

Nacos 3.0 Alpha 发布，在安全、泛用、云原生更进一步

所有运维人，明年的新方向，赢麻了！！！

一篇带你彻底了解Kubernetes，运维绝对是要收藏的！

如何找出Java进程占用CPU高的元凶

分布式锁的实现原理

一行代码都不改，Golang 应用链路指标日志全知道！

如何在Prometheus告警恢复时获取实时值

对称加密 vs 非对称加密：一分钟看懂核心区别！

记一次K8S VXLAN Overlay网络8472端口冲突问题的排查

【提效】docker镜像构建优化-提速10倍

妙哇！运维大佬内部K8S笔记曝光，运维必须收藏！（附高清PDF）

深入解析Alertmanager Gossip协议：分布式报警管理的核心

浅谈TiKV集群运维问题排查与修复——磁盘空间占用问题

实现告警可视化：Prometheus告警附带图表最佳实践

深入解析 AlertManager 告警指纹

K8s 超详细总结！这篇真绝了，建议运维都收藏！

Star 3w+，向更安全、更泛化、更云原生的 Nacos3.0 演进

漫谈两轮调度ES优化之路

vivo 全链路多版本开发测试环境落地实践

Redis集群slot迁移改造实践

牛！华为分享的《Kubernetes学习笔记》太强了，附高清免费下载！

借助 ChatGPT 解决运维问题：Nginx Location块匹配删除

十六年所思所感，聊聊这些年我所经历的 DevOps 系统

想要成为Redis高手？看看Redis自己会怎么向你传授心法！（文末赠书）

【边缘计算】KubeEdge 向左，K3S 向右

MySQL亿级数据平滑迁移实战

如何深入理解 Prometheus 监控系统的底层原理？（文末送书）

如何阅读Kubernetes源码？遵循这几点建议真的可以少走弯路！（文末赠书）

碉堡了！运维大佬内部K8s笔记曝光，这也太强了吧！（附PDF下载）

近1300页的Kubernetes神书，终于可以集齐上下两册了！（文末赠书）

基于Golang + Ansible构建Nginx管理系统

基于Golang + xtermjs构建Kubernetes多集群管理Web Terminal

基于Golang + Ansible构建作业系统

碉堡了！云原生大佬撰写的K8s学习指南，有点炸裂，建议运维都收藏！

Kubernetes场景下基于Nvidia GPU Operator 实现图形渲染能力

ZooKeeper 避坑指南： ZooKeeper 3.6.4 版本 BUG 导致的数据不一致问题

深入剖析 Kubernetes 原生 Sidecar 容器

免费赠书-大模型时代，还不懂云原生会怎么样？

数据特征采样在 MySQL 同步一致性校验中的实践

浅谈 K8s Pod IP 分配机制

使用 Node Exporter 自定义监控指标

Prometheus告警规则存储数据库思路分享

看完这篇，轻松get限流！原创

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉