MySQL 8.0/8.4执行DDL会丢数据？是，但影响有限

科技 2024-12-23 11:33 广东

问题是有，但好在规避办法也比较简单，影响也有限。

先说解决办法，从简单到麻烦：

执行 ALTER TABLE 时，显式指定ALGORITHM=INSTANT/COPY，反正不要使用 INPLACE。
适当调大 innodb_ddl_buffer_size 参数值，其默认值1MB，例如调大到100MB就可以应对大部分业务表的DDL操作场景。
利用 pt-osc 或 gh-ost 等工具进行 Online DDL 操作。
在业务低谷时段执行DDL操作，有条件的话甚至可以在业务维护期间再执行DDL操作。
升级版本到已修复的 Percona 分支版本（下文会提到）。

问题来源

在 MySQL 8.0.27 版本中新增并行DDL功能后才“引入”了这个问题。目前在最新的 8.1.x/8.3.x/8.3.x/8.4.x/9.0.x/9.1.x 等版本中依然存在，预计到 MySQL 8.0.41 新版本会修复。

For online DDL operations, storage is usually the bottleneck. To address this issue, CPU utilization and index building has been improved. Indexes can now be built simultaneously instead of serially. Memory management has also been tightened to respect memory configuration limits set by the user.
详见：https://dev.mysql.com/doc/relnotes/mysql/8.0/en/news-8-0-27.html

触发原因：在INPLACE模式的DDL操作中重建主键索引时，因错误处理会略过部分记录，导致数据丢失。

触发条件：只影响INPLACE模式的DDL操作，不影响COPY和INSTANT模式的DDL操作。以下是几种常见的可能触发问题的DDL操作场景：

场景1：ALTER TABLE ENGINE=INNODB 重整表空间操作，需要重建主键索引。
场景2：ALTER TABLE ADD NEW-COL ...，ALGORITHM=INPLACE，新增列操作，因指定了INPLACE模式，需要重建主键索引。

其他例如INSTANT模式加新字段，增删索引则不会触发该问题。

关于该问题的详细解读详见几篇文章：

八怪老师推文 https://www.jianshu.com/p/c66fe0349345?v=1734349439280 。
Rex老师推文 MySQL 8.4-LTS DDL会导致数据丢失。
丁奇老师推文丢数据风险 @ MySQL官方最新版。
Percona 推文 Who Ate My MySQL Table Rows?。

涉及到2个MySQL bug：

DDL 丢数风险：https://bugs.mysql.com/bug.php?id=115608
DDL 重复行报错：https://bugs.mysql.com/bug.php?id=115511

该问题核心就存在于如果涉及到需要用INPLACE算法重建主键索引的DDL操作，就需要在 innodb_ddl_buffer_size 用满后直接插入到 #sql-ibXXX 数据文件中，这个时候可能正在page的中间的某个位置，插入的时候会暂时放弃page上的mutex，并且保存游标到持久游标，然后插入数据，插入完成后再从持久游标恢复游标。这样做的目的可能是为了提高page修改的并发，但是这里保存和恢复持久游标却出了问题，主要是page中的数据可能出现修改，这种修改对应了前面的2个BUG：

Purge线程，清理del flag。
其他线程INSERT了数据。

具体游标的保存和恢复出现的问题，可以参考Rex老师的文章 MySQL 8.4-LTS DDL会导致数据丢失。

问题影响

目前该问题已知影响的版本列表如下：

MySQL 8.0.x 系列版本中，所有 >= 8.0.27 的 MySQL 8.0.x 版本；
所有 8.4.x 系列 LTS 版本；
Percona Server for MySQL 中从 8.0.27-18 至 8.0.37-29，以及 8.4.0-1 版本。
Percona XtraDB Cluster 中从 8.0.27-18.1 至 8.0.37-29，以及 8.4.0-1 版本。

未受影响或已修复的版本列表如下：

所有早于 MySQL 8.0 的版本，及 MySQL 5.6、5.7 等版本，以及 Percona 5.6、5.7 版本；
Percona 8.0 系列中 8.0.39-30 及更高版本；
Percona 8.4 系列中 8.4.2-2 及更高版本；
Percona XtraDB Cluster 8.0 系列中 8.0.39-30 及更高版本。

目前所有活跃的 MySQL 版本均未修复，已安排在MySQL 8.0.41版本修复该问题。GreatSQL也会在下一个新版本中修复该问题。

问题复现/模拟

模拟测例1

经过测试，该问题触发概率和 update/delete 并发负载有关，结合 MySQL bug #113812 提供的案例，我进行了简化和改造，测试用例如下：

#/bin/sh
# bugtest.sh，测例1
# 需要先安装 mysql_random_data_load 测试工具
# 通过socket方式连接MySQL时用root密码并且是空密码
MYSQL="mysql -N -s -uroot -S/data/MySQL/mysql.sock"
HOST=127.0.0.1
PORT=3306
USER="yejr"
PWD="yejr"

echo "1. Prepare work"

read -r -d '' bugSQL <<-EOSQL || true
CREATE DATABASE IF NOT EXISTS test;
USE test;
DROP TABLE IF EXISTS t1;
CREATE TABLE IF NOT EXISTS t1(
 id int not null,
 c1 varchar(20) not null,
 c2 varchar(30) not null,
 c3 datetime not null,
 c4 varchar(30) not null,
 PRIMARY KEY (id),
 KEY idx_c3 (c3)
) ENGINE=InnoDB;

CREATE USER IF NOT EXISTS '${USER}'@'%';
ALTER USER '${USER}'@'%' IDENTIFIED BY '${PWD}';
GRANT ALL PRIVILEGES ON test.t1 TO '${USER}'@'%';
EOSQL

${MYSQL} -f -e "${bugSQL}"

echo "2. Starting run test"

${MYSQL} -e "truncate table test.t1;"

for i in {1..1000}
do
 mysql_random_data_load -u${USER} -p${PWD} -h${HOST} -P${PORT} --max-threads=2 test t1 1000 > /dev/null 2>&1
 c_before_del=`${MYSQL} -e "select count(*) from test.t1;"`
 c_delete=`${MYSQL} -e "select count(*) from test.t1 where c3 < curdate() - interval 7 day;"`
 ${MYSQL} -e "delete from test.t1 where c3 < curdate() - interval 7 day;"
 c_before_alter=`${MYSQL} -e "select count(*) from test.t1;"`
 ${MYSQL} -e "alter table test.t1 engine=innodb;"
 c_after_alter=`${MYSQL} -e "select count(*) from test.t1;"`
 if [ ${c_before_alter} -ne ${c_after_alter} ] ; then
  echo "run ${i} times, delete: ${c_delete}, before alter: ${c_before_alter}, after alter: ${c_after_alter}"
  exit
 fi
 if [ `expr ${i} % 10` -eq 0 ] ; then
  echo "run ${i} times"
 fi
done

执行该测试用例脚本，当发现有问题时，结果显式如下：

$ sh ./bugtest.sh
1. Prepare work
2. Starting run test
run 10 times
run 20 times
run 30 times
...
run 175 times, delete: 979, before alter: 3436, after alter: 3435

这就表示执行到第175次后触发问题，发现丢了一条记录。在这个测例中，如果加大 innodb_ddl_buffer_size 参数值到10MB，则不再触发问题。

模拟测例2

对上面的测试用例再进行调整后，改成下面这个测例，在执行完1000次后仍未触发问题（可见并不总是会触发问题，只有个别情况下会踩雷）：

#!/bin/sh
# bugtest.sh，测例2
# 需要先安装 mysql_random_data_load 测试工具
# 通过socket方式连接MySQL时用root密码并且是空密码
MYSQL="mysql -N -s -uroot -S/nvme/GreatSQL/mysql.sock"
HOST=127.0.0.1
PORT=3306
USER="yejr"
PWD="yejr"

echo "1. Prepare work"

read -r -d '' bugSQL <<-EOSQL || true
CREATE DATABASE IF NOT EXISTS test;
USE test;
DROP TABLE IF EXISTS t1;
CREATE TABLE IF NOT EXISTS t1(
 id int not null,
 c1 varchar(20) not null,
 c2 varchar(30) not null,
 c3 int not null,
 c4 varchar(30) not null,
 PRIMARY KEY (id),
 KEY idx_c3 (c3)
) ENGINE=InnoDB;

CREATE USER IF NOT EXISTS '${USER}'@'%';
ALTER USER '${USER}'@'%' IDENTIFIED BY '${PWD}';
GRANT ALL PRIVILEGES ON test.t1 TO '${USER}'@'%';
EOSQL

${MYSQL} -f -e "${bugSQL}"

echo "2. Starting run test"

${MYSQL} -e "truncate table test.t1;"

for i in {1..300}
do
 mysql_random_data_load -u${USER} -p${PWD} -h${HOST} -P${PORT} --max-threads=2 test t1 1000 > /dev/null 2>&1
 c_before_del=`${MYSQL} -e "select count(*) from test.t1;"`
 ${MYSQL} -e "delete from test.t1 LIMIT 980;"
 c_before_alter=`${MYSQL} -e "select count(*) from test.t1;"`
 ${MYSQL} -e "alter table test.t1 engine=innodb;"
 c_after_alter=`${MYSQL} -e "select count(*) from test.t1;"`
 if [ ${c_before_alter} -ne ${c_after_alter} ] ; then
  echo "run ${i} times, before alter: ${c_before_alter}, after alter: ${c_after_alter}"
  exit
 fi
 if [ `expr ${i} % 10` -eq 0 ] ; then
  echo "run ${i} times"
 fi
done

从多次反复测试的结果来看，大致的规律是当执行 ALTER TABLE 操作特别频繁时，就可能会在表重建时遇到被 Purge 的记录还没来得及被抹掉，这就比较容易触发问题。试着把上面的测例1做些微调，把 ALTER TABLE 这部分的处理逻辑修改成下面这样：

...
 47  if [ `expr ${i} % 20` -eq 0 ] ; then
 48   sleep 2
 49   ${MYSQL} -e "alter table test.t1 engine=innodb;"
 50  fi
...

即每完成20轮测试后再执行 ALTER TABLE 操作，并且在此之前还要先休眠等待2秒。改用新逻辑后，就没再触发问题。

模拟测例3

提示：该测例需要改成MySQL debug版本运行（平时使用的是release二进制包，是无法复现的）。

准备测试数据

CREATE TABLE t1 (pk CHAR(5) PRIMARY KEY);
INSERT INTO t1 VALUES ('aaaaa'), ('bbbbb'), ('bbbcc'), ('ccccc'), ('ddddd'), ('eeeee');

测试方法

S1	S2
这一步的目的是2行数据key buffer就满
SET DEBUG='+d,ddl_buf_add_two';
	set global innodb_purge_stop_now=ON;
	DELETE FROM t1 WHERE pk = 'bbbcc';
进行DDL，并且来到ddl0par-scan.cc:238 行
ALTER TABLE t1 ENGINE=InnoDB, ALGORITHM=INPLACE
	SET GLOBAL innodb_purge_run_now=ON;
DDL继续进程(丢数据)

测试结果

写在后面

在线上生产环境中，除了必要的增删字段、增删索引、修改字段定义外，直接执行 ALTER TABLE ... ENGINE=InnoDB 或 OPTIMIZE TABLE 重建整个表空间的行为还是比较少的，尤其是操作大表时，也基本上都习惯了用类似 gt-osc 之类的第三方辅助工具来完成。

此外，调大 innodb_ddl_buffer_size 参数值也可以应对大部分业务表的DDL操作需求，在我的测试中，调大到10MB就可以保证上述测试表有几十万行数据时不出问题，调大到100MB则可以保证上述测试表有千万行数据时不出问题。如果是更大、更宽的表就需要进一步测试验证了。

总的来看，这个问题在线上生产环境中并不是百分百会触发，只是存在一定较低的几率，在文章一开始也提到了几个可以规避的方法，所以说其影响其实也是有限的，不必过于紧张。先采用紧急办法规避问题，后面再择机升级版本就好。

OSC开源社区

开源中国，只关注开源圈、技术圈的硬核内容，与嬉笑怒骂。

本周六，源创会老友们，珠海见！

前端年度大事件盘点：尤雨溪成立公司、ECMAScript 2024发布，以及各大框架重磅更新……

这么多年排序白学了，原来每次排序都在使用世界上最快的排序算法 TimSort

开源日报|2024系统编程语言调查报告；M4 MBA明年发布；IBM为开源项目提供永久免费服务器；智能代理RAG与传统RAG区别

程序员身边都有这样的队友

小猪骑大象：PG内核与扩展包管理神器

开源日报|华硕电脑圣诞节彩蛋“翻车”；只有GPT 3.5称得上突破；curl放弃支持Hyper；OpenAI发布推理模型o3

华硕电脑的圣诞节彩蛋整了个烂活——不仅看上去像感染病毒、还导致内存泄漏

中国基础软件和世界优秀软件的差距在哪？

MySQL 8.0/8.4执行DDL会丢数据？是，但影响有限

GitHub Star数量两天破万——Home Assistant的米家官方集成有什么优势？

AI原生开发平台MoonBit（月兔）开源核心编译器

开源日报|全新桌面版ChatGPT；图森未来退市转型；国产前端开源项目被投毒；LLM供应商Top10；淘宝搜索正在“杀死”淘宝

两款知名国产前端开源项目被“投毒”

Gitee AI携手无问芯穹：模型+算力，共创本土化AI社区新篇章

“2024全球十大工程成就”公布：文生视频大模型Sora、嫦娥六号、无人驾驶汽车等入选

开源日报|GitHub Copilot“免费”；美国考虑封禁TP-Link；MoonBit开源核心编译器；AI改变数学的一年

国行版“苹果牌AI”有望使用腾讯、字节大模型

珠海年终盛典倒计时：下周六不见不散

世界上最先进的开源数据库——PostgreSQL 2024社区现状调查报告

开源日报|OpenAI开放满血o1 API；Databricks宣布100亿美元融资；Linux 6.1 LTS额外延长一年支持

操作系统能知道自己是在虚拟机中运行的吗？

CentOS Stream 10正式GA

开源日报|苹果将推出可折叠iPad；小米又开源；ChatGPT AI搜索免费；字节否认与中兴探讨成立新品牌；周鸿祎的直播平台退市

小米有格局——官方正式开源「Home Assistant米家集成」，让用户更“开放”地使用小米IoT智能设备

写个小工具，AI纯度99%！开源Auto-Coder要怎么玩？

Gitee AI+Dify双剑合璧，打造另类RAG知识库

Apache Hudi 1.0.0 版本正式发布

开源日报|ChatGPT宕机因k8s循环依赖导致；95%以上中国电脑安装了360；Android XR面世；Grok提示词泄露

Rust重写万物之——彻底重写SQLite

Gitee AI助力医疗科研：医用耗材使用分析研究

OpenAI全球宕机复盘：K8S循环依赖

动态链接的魔法：Linux下动态链接库机制探讨

离开1620天，Redis创始人antirez宣布回归

开源日报 | Fedora项目负责人将离任；微软发布Phi-4；“NVIDIA对中国市场断供”不实；VSCode 1.96发布

阿里最受欢迎Java开源项目——Nacos开启3.0时代，未来可能丢弃JDK 8、Spring Boot 2

2024年CSS持续活跃，年终大盘点！

VSCode v1.96发布，AI大幅增强，体验大幅增强

开源日报 | 小米开源OpenVela；《数据结构》编著者严蔚敏去世；ChatGPT全面接入苹果全家桶；谷歌深夜狙击OpenAI

小米重磅开源操作系统：超1000万行公开代码、在近5千万台设备中广泛应用

如何编写既美观又规范的Java代码？

开源日报 | Redis创始人回归；ChatGPT开放Canvas；Devin月费500美元；Cloudflare 2024回顾

百万现金奖励，冲刺鸿蒙生态建设“最后一公里”

Python即将成为TIOBE 2024年度编程语言

开源日报 | Sora正式上线；阿里云数据中心失火；苹果对开发AGI不感兴趣；小红书成立应用算法部；谷歌宣布量子芯片Willow

Mozilla“改头换面”

108期上海站源创会【AI Agent构建与应用】精彩回顾

极狐GitLab架构师爆料：公司向免费版用户发送告知函，称“未经授权使用软件”

开源日报 | 大模型密度定律；iPhone将搭载苹果自研5G基带芯片；“先做个垃圾出来”；Nacos 3.0.0-alpha发布

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉