深度优化！MySQL百亿级大表性能提升攻略

科技 2024-11-05 07:30 河北

最近，我在工作中遇到一个数据库配置问题，涉及一个主从结构的数据库实例。具体来说，每天凌晨，数据库会触发SLA（服务等级协议）告警。

该告警表明主从同步延迟严重。如果此时尝试从主库切换到从库，切换时间将会很长。

系统需要额外的时间来追赶并同步延迟的数据，以确保主从数据库之间的数据一致性。

进一步分析发现，这个问题的主要原因是数据库实例中大量的慢查询。

这些慢查询是指执行时间超过1秒的SQL查询。

我们发现，每天晚上应用程序执行的一个特定任务——删除一个月前的旧数据，是这些慢查询的主要来源。

分析

利用pt-query-digest工具分析最近一周的mysql-slow.log。

pt-query-digest --since=148h mysql-slow.log | less

结果第二部分

在一周内，记录的慢查询总执行时间为25,403秒，最长的慢SQL执行时间为266秒，平均每个慢SQL执行时间为5秒，平均扫描了1,766万行数据。

结果第二部分

对select arrival_record操作的慢查询次数超过40,000次，平均响应时间为4秒。而delete arrival_record记录了6次，平均响应时间为258秒。

select xxx_record语句

select arrival_record的慢查询语句如下所示，where条件中的参数字段相同，但参数值不同：
*select count(\*) from arrival_record where product_id=26 and receive_time between '2024-03-25 14:00:00' and '2024-03-25 15:00:00' and receive_spend_ms>=0\G*

select arrival_record语句在MySQL中最多扫描了5600万行，平均扫描了172万行，推断出大量的扫描行数导致了较长的执行时间。

查看执行计划

explain select count(*) from arrival_record where product_id=26 and receive_time between '2024-03-25 14:00:00' and '2024-03-25 15:00:00' and receive_spend_ms>=0\G;
*************************** 1. row ***************************
id: 1
select_type: SIMPLE
table: arrival_record
partitions: NULL
type: ref
possible_keys: IXFK_arrival_record
key: IXFK_arrival_record
key_len: 8
ref: const
rows: 32261320
filtered: 3.70
Extra: Using index condition; Using where
1 row in set, 1 warning (0.00 sec)

尽管使用了索引IXFK_arrival_record，但预计扫描行数非常多，超过3000万行。

show index from arrival_record;
+----------------+------------+---------------------+--------------+--------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+----------------+------------+---------------------+--------------+--------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| arrival_record | 0 | PRIMARY | 1 | id | A | 107990720 | NULL | NULL | | BTREE | | |
| arrival_record | 1 | IXFK_arrival_record | 1 | product_id | A | 1344 | NULL | NULL | | BTREE | | |
| arrival_record | 1 | IXFK_arrival_record | 2 | station_no | A | 22161 | NULL | NULL | YES | BTREE | | |
| arrival_record | 1 | IXFK_arrival_record | 3 | sequence | A | 77233384 | NULL | NULL | | BTREE | | |
| arrival_record | 1 | IXFK_arrival_record | 4 | receive_time | A | 65854652 | NULL | NULL | YES | BTREE | | |
| arrival_record | 1 | IXFK_arrival_record | 5 | arrival_time | A | 73861904 | NULL | NULL | YES | BTREE | | |
+----------------+------------+---------------------+--------------+--------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
show create table arrival_record;
..........
arrival_spend_ms bigint(20) DEFAULT NULL,
total_spend_ms bigint(20) DEFAULT NULL,
PRIMARY KEY (id),
KEY IXFK_arrival_record (product_id,station_no,sequence,receive_time,arrival_time) USING BTREE,
CONSTRAINT FK_arrival_record_product FOREIGN KEY (product_id) REFERENCES product (id) ON DELETE NO ACTION ON UPDATE NO ACTION
) ENGINE=InnoDB AUTO_INCREMENT=614538979 DEFAULT CHARSET=utf8 COLLATE=utf8_bin |

该表包含超过1亿条记录，只有一个复合索引。product_id字段的基数很低，选择性较差。
where条件where product_id=26 and receive_time between '2024-03-25 14:00:00' and '2024-03-25 15:00:00' and receive_spend_ms>=0未包含station_no字段，因此未充分利用复合索引IXFK_arrival_record的字段product_id、station_no、sequence、receive_time。
根据最左前缀原则，select arrival_record仅使用了复合索引IXFK_arrival_record的第一个字段product_id，选择性较差，导致扫描行数较多，执行时间较长。
receive_time字段具有高基数和良好的选择性，创建该字段的单独索引会带来优化效果，从而使select arrival_record SQL能够利用此索引。

现在我们已经知道select arrival_record where语句中的字段包括product_id、receive_time和receive_spend_ms，那么是否有其他字段用于过滤对该表的访问呢？

强大的工具tcpdump登场

使用tcpdump捕获一段时间内针对该表select语句的报文。

tcpdump -i bond0 -s 0 -l -w - dst port 3316 | strings | grep select | egrep -i 'arrival_record' >/tmp/select_arri.log

捕获select语句中from后的where条件。

IFS_OLD=$IFS
IFS=$'\n'
for i in `cat /tmp/select_arri.log`; do echo ${i#*'from'}; done | less
IFS=$IFS_OLD
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2024-03-27 08:40' and arrivalrec0_.product_id=17 and arrivalrec0_.station_no='56742'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2024-03-27 08:40' and arrivalrec0_.product_id=22 and arrivalrec0_.station_no='S7100'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2024-03-27 08:40' and arrivalrec0_.product_id=24 and arrivalrec0_.station_no='V4631'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2024-03-27 08:40' and arrivalrec0_.product_id=22 and arrivalrec0_.station_no='S9466'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2024-03-27 08:40' and arrivalrec0_.product_id=24 and arrivalrec0_.station_no='V4205'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2024-03-27 08:40' and arrivalrec0_.product_id=24 and arrivalrec0_.station_no='V4105'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2024-03-27 08:40' and arrivalrec0_.product_id=24 and arrivalrec0_.station_no='V4506'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2024-03-27 08:40' and arrivalrec0_.product_id=24 and arrivalrec0_.station_no='V4617'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2024-03-27 08:40' and arrivalrec0_.product_id=22 and arrivalrec0_.station_no='S8356'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2024-03-27 08:40' and arrivalrec0_.product_id=22 and arrivalrec0_.station_no='S8356'

表的 where 条件包含 product_id、station_no 和 sequence 字段，这些字段可以利用复合索引 IXFK_arrival_record 的前三个字段。

总结来说，优化方法是删除复合索引 IXFK_arrival_record，创建新的复合索引 idx_sequence_station_no_product_id，并单独建立索引 indx_receive_time。

删除 xxx_record 语句

删除操作平均扫描1.1亿行，平均执行时间为262秒。

下面是删除语句，其中每个慢查询日志记录了不同的参数值：

delete from arrival_record where receive_time < STR_TO_DATE('2024-02-23', '%Y-%m-%d')\G

执行计划：

explain select * from arrival_record where receive_time < STR_TO_DATE('2024-02-23', '%Y-%m-%d')\G
*************************** 1. row ***************************
id: 1
select_type: SIMPLE
table: arrival_record
partitions: NULL
type: ALL
possible_keys: NULL
key: NULL
key_len: NULL
ref: NULL
rows: 109,501,508
filtered: 33.33
Extra: Using where
1 row in set, 1 warning (0.00 sec)

这个删除语句没有使用索引（没有可用的合适索引），导致全表扫描，执行时间过长。
优化方法是创建单独的索引 indx_receive_time(receive_time)。

测试

将 arrival_record 表复制到测试实例上，以执行删除和重新索引操作，对XX 实例的 arrival_record 表信息进行测试。

du -sh /datas/mysql/data/3316/cq_new_cimiss/arrival_record*
12K /datas/mysql/data/3316/cq_new_cimiss/arrival_record.frm
48G /datas/mysql/data/3316/cq_new_cimiss/arrival_record.ibd
select count() from cq_new_cimiss.arrival_record;
+-----------+
| count()   |
+-----------+
| 112294946 |
+-----------+
超过1亿条记录。

SELECT
table_name,
CONCAT(FORMAT(SUM(data_length) / 1024 / 1024,2),'M') AS dbdata_size,
CONCAT(FORMAT(SUM(index_length) / 1024 / 1024,2),'M') AS dbindex_size,
CONCAT(FORMAT(SUM(data_length + index_length) / 1024 / 1024 / 1024,2),'G') AS table_size(G),
AVG_ROW_LENGTH,table_rows,update_time
FROM
information_schema.tables
WHERE table_schema = 'cq_new_cimiss' and table_name='arrival_record';
+----------------+-------------+--------------+--------------+----------------+------------+---------------------+
| table_name     | dbdata_size  | dbindex_size | table_size(G) | AVG_ROW_LENGTH | table_rows | update_time         |
+----------------+-------------+--------------+--------------+----------------+------------+---------------------+
| arrival_record | 18,268.02M   | 13,868.05M   | 31.38G        | 175            | 109155053  | 2024-03-26 12:40:17 |
+----------------+-------------+--------------+--------------+----------------+------------+---------------------+

磁盘使用空间为48G，而MySQL中的表大小为31G，表明大约17G的碎片，主要是由于删除操作后未回收空间。

备份并恢复表到新实例，删除原始复合索引，并添加新索引进行测试。

mydumper并行压缩备份：

user=root
passwd=xxxx
socket=/datas/mysql/data/3316/mysqld.sock
db=cq_new_cimiss
table_name=arrival_record
backupdir=/datas/dump_$table_name
mkdir -p $backupdir
nohup echo `date +%T` && mydumper -u $user -p $passwd -S $socket -B $db -c -T $table_name -o $backupdir -t 32 -r 2000000 && echo `date +%T` &

并行压缩备份所用时间为52秒，使用空间为1.2G，而表实际占用48G磁盘空间，说明 mydumper 的压缩比非常高！

开始备份：2024-03-26 12:46:04
......

结束备份：2024-03-26 12:46:56

du -sh /datas/dump_arrival_record/
1.2G  /datas/dump_arrival_record/

将备份数据复制到测试节点：

scp -rp /datas/dump_arrival_record root@10.230.124.19:/datas

多线程数据导入：

time myloader -u root -S /datas/mysql/data/3308/mysqld.sock -P 3308 -p root -B test -d /datas/dump_arrival_record -t 32

real 126m42.885s user 1m4.543s sys 0m4.267s

逻辑导入表后的磁盘空间使用：

du -h -d 1 /datas/mysql/data/3308/test/arrival_record.*
12K /datas/mysql/data/3308/test/arrival_record.frm
30G /datas/mysql/data/3308/test/arrival_record.ibd
没有碎片，与MySQL中的表大小一致。
cp -rp /datas/mysql/data/3308 /datas

使用在线 DDL 和 pt-osc 工具删除和重建索引。首先删除外键，如果不这样做，复合索引将无法删除，因为外键列是复合索引的第一列。

nohup bash /tmp/ddl_index.sh &
2024-04-04-10:41:39 开始停止 mysqld_3308
2024-04-04-10:41:41 开始删除数据目录并复制数据备份
2024-04-04-10:46:53 启动 mysqld_3308
2024-04-04-10:46:59 在线 ddl 开始
2024-04-04-11:20:34 在线 ddl 停止
2024-04-04-11:20:34 开始停止 mysqld_3308
2024-04-04-11:20:36 开始删除数据目录并复制数据备份
2024-04-04-11:22:48 启动 mysqld_3308
2024-04-04-11:22:53 pt-osc 开始
2024-04-04-12:19:15 pt-osc 停止
在线 DDL 用时34分钟，pt-osc 用时57分钟，在线 DDL 用时约为 pt-osc 工具的一半。

执行 DDL 时可参考

使用建议：

实现

由于这是一个主从实例，应用程序连接到 VIP。索引的删除和重建使用在线 DDL 完成。在停止主从复制后，首先在从库实例上执行（不记录 binlog），然后进行主从切换，接着在新切换的从库实例上执行（不记录 binlog）。

function red_echo () {
        local what="$*"
        echo -e "$(date +%F-%T)  ${what}"
}

function check_las_comm(){
    if [ "$1" != "0" ];then
        red_echo "$2"
        echo "exit 1"
        exit 1
    fi
}

red_echo "停止从库"
mysql -uroot -p$passwd --socket=/datas/mysql/data/${port}/mysqld.sock -e"stop slave"
check_las_comm "$?" "停止从库失败"

red_echo "在线 DDL 开始"
mysql -uroot -p$passwd --socket=/datas/mysql/data/${port}/mysqld.sock -e"set sql_log_bin=0;select now() as ddl_start;ALTER TABLE $db_.\`${table_name}\` DROP FOREIGN KEY FK_arrival_record_product,drop index IXFK_arrival_record,add index idx_product_id_sequence_station_no(product_id,sequence,station_no),add index idx_receive_time(receive_time);select now() as ddl_stop" >>${log_file} 2>& 1
red_echo "在线 DDL 停止"
red_echo "添加外键"
mysql -uroot -p$passwd --socket=/datas/mysql/data/${port}/mysqld.sock -e"set sql_log_bin=0;ALTER TABLE $db_.${table_name} ADD CONSTRAINT _FK_${table_name}_product FOREIGN KEY (product_id) REFERENCES cq_new_cimiss.product (id) ON DELETE NO ACTION ON UPDATE NO ACTION;" >>${log_file} 2>& 1
check_las_comm "$?" "添加外键出错"
red_echo "添加外键结束"

red_echo "启动从库"
mysql -uroot -p$passwd --socket=/datas/mysql/data/${port}/mysqld.sock -e"start slave"
check_las_comm "$?" "启动从库失败"

执行时间

2024-04-08-11:17:36 停止从库 mysql：[警告] 使用命令行界面输入密码可能不安全。ddl_start 2024-04-08 11:17:36 ddl_stop 2024-04-08 11:45:13 2024-04-08-11:45:13 在线 DDL 停止 2024-04-08 11:45:13 添加外键 mysql：[警告] 使用命令行界面输入密码可能不安全。2024-04-08-12:33:48 添加外键结束 2024-04-08 12:33:48 启动从库

重新检查删除和查询语句的执行计划

explain select count(*) from arrival_record where receive_time < STR_TO_DATE('2024-03-10', '%Y-%m-%d')\G;
*************************** 1. row ***************************
id: 1
select_type: SIMPLE
table: arrival_record
partitions: NULL
type: range
possible_keys: idx_receive_time
key: idx_receive_time
key_len: 6
ref: NULL
rows: 7540948
filtered: 100.00
Extra: Using where; Using index
 
explain select count(*) from arrival_record where product_id=26 and receive_time between '2024-03-25 14:00:00' and '2024-03-25 15:00:00' and receive_spend_ms>=0\G;
*************************** 1. row ***************************
id: 1
select_type: SIMPLE
table: arrival_record
partitions: NULL
type: range
possible_keys: idx_product_id_sequence_station_no,idx_receive_time
key: idx_receive_time
key_len: 6
ref: NULL
rows: 291448
filtered: 16.66
Extra: Using index condition; Using where

都使用了 idx_receive_time 索引，大大减少了扫描的行数。

索引优化后的情况

删除操作仍然花费了 77 秒。

delete from arrival_record where receive_time < STR_TO_DATE('2024-03-10', '%Y-%m-%d')\G;

删除语句使用了 receive_time 的索引，删除了超过 300 万条记录，耗时 77 秒。

优化删除大表为小批量删除

应用端已经优化为每 10 分钟删除一次数据（每次执行时间约 1 秒），并且没有发生 SLA（主从延迟警报）现象。

另一种方法是根据主键顺序一次删除 2 万条记录。

# 获取符合时间条件的最大主键 ID
# 根据主键顺序小批量删除数据
# 首先执行以下语句
SELECT MAX(id) INTO @need_delete_max_id FROM `arrival_record` WHERE receive_time<'2024-03-01';
DELETE FROM arrival_record WHERE id<@need_delete_max_id LIMIT 20000;
select ROW_COUNT();  # 返回 20000

# 执行小批量删除后会返回行数 row_count()，即删除的行数
# 程序会检查返回的 row_count() 是否为 0，若不为 0，则执行下面的循环；若为 0，则退出循环，删除完成
DELETE FROM arrival_record WHERE id<@need_delete_max_id LIMIT 20000;
select ROW_COUNT();
# 程序会休眠 0.5 秒

总结

当表的大小过大时，除了关注访问该表的响应时间外，还应考虑表的维护成本（如 DDL 操作的耗时和历史数据的删除时间）。
对大表执行 DDL 操作时，应根据表的实际情况（如表的并发量、是否有外键）选择合适的 DDL 变更方式。
对大数据量表进行删除操作时，使用小批量删除的方法可以减少对主库的压力和主从延迟。

今天就讲到这里，如果有问题需要咨询，大家可以直接留言或扫下方二维码来知识星球找我，我们会尽力为你解答。

AI资源聚合站已经正式上线，该平台不仅仅是一个AI资源聚合站，更是一个为追求知识深度和广度的人们打造的智慧聚集地。通过访问 AI 资源聚合网站 https://ai-ziyuan.techwisdom.cn/，你将进入一个全方位涵盖人工智能和语言模型领域的宝藏库。

作者：路条编程（转载请获本公众号授权，并注明作者与出处）

http://mp.weixin.qq.com/s?__biz=MzIwNjYwNDQxMw==&mid=2247498800&idx=1&sn=8d83b2023ce2d7ecb77f970183ede169

路条编程

路条编程是一个友好的社区，在这里你可以免费学习编程技能，我们旨在激励想学编程的人尝试新的想法和技术，在最短的时间学习到工作中使用到的技术！

最新文章

全方位解析！会话、Cookie、令牌与JWT的工作原理与实际应用

强大！轻松整合JWT，实现Spring Boot统一跨站登录！

揭秘！Spring Boot Jar 文件为何能直接运行？

面试揭秘：单线程的Redis为何依然高速运行？

高效解决方案揭秘！如何在亿级用户中高效查找用户名是否存在？

优雅！Spring Boot注解全面解析与实战指南，开发者必备

高效！Spring Boot任务调度的异步执行实战指南

强大！Spring Boot 3.3 与 RouterFunction 实现灵活动态路由

强大！30个必知Java技巧与妙招，迅速提升你的编程水平！

真香！Spring Boot 3.3 的这些内置功能绝对值得一用，开发者不需重复造轮子

必看！30个Java面向对象面试高频问题，助你自信斩获Offer！

探秘Java：为什么1==1为真，而128==128却为假？

重磅解锁Java 21：每位开发者必掌握的15个关键新特性！

警惕！List.of() vs Arrays.asList()：这些隐藏差异可能让你的代码崩溃！

免费加入！高质量小红书互助群，3天轻松涨粉1000+

强大！升级系统到 Spring Boot 3，分享其中对我们帮助最大的五个功能，开发者绝不能错过！

强大！牢记这16个Spring Boot扩展接口，代码优雅提升一个层次

警惕！为什么越来越多人不推荐使用JWT？

用了这么久SpringBoot，这些隐藏技巧你真的掌握了吗？

震撼！通过双重异步，Excel 10万行数据导入从191秒优化到2秒！

强悍！Spring Boot究竟能同时处理多少请求？深入剖析并发性能

强大又优雅！Spring Boot 中 RestTemplate 的最佳实践详解

深度优化！MySQL百亿级大表性能提升攻略

便捷！Spring Boot 3.3集成iText 实现高效PDF导出

高效优化！如何优雅处理项目中的一万条If-Else语句？

方便又高效！还在手动从服务器获取日志？设置日志收集系统更方便！

优化实录！如何将 MySQL 查询时间从 190 秒缩减到 1 秒，轻松应对千万数据

成功优化！Java 基础 Docker 镜像从 674MB 缩减到 58MB 的经验分享

专业！Spring Boot 3.3 集成 iText 实现高效电子签章

强大！用 @Audited 注解增强 Spring Boot 应用，打造健壮的数据审计功能

强大！Spring Boot3.3 后台任务处理最佳实践

必学！Spring Boot 单元测试、Mock 与 TestContainer 的高效使用技巧

透彻解析！Spring Boot Starter 功能与应用场景全面指南

提升效率！Spring Boot 开发中的常见失误轻松规避

实用！在 Spring WebFlux 中实现函数式端点的最佳实践

轻松掌握！如何在 Spring Boot 3.3 中实现基于角色的访问控制

当心！Spring Data JPA 中的数据获取误区与最佳实践

优雅！Spring Boot 3.3 搭配 JSON Schema 实现灵活的 JSON 数据定义与验证

优雅！使用 Spring Boot 3.3 + @ControllerAdvice 实现全局数据绑定与预处理

提升灵活性！为你的 Spring Boot3.3 控制器定制参数解析器

高效初始化！Spring Boot 3.3借助DAG加速Spring Beans加载！

安全无忧！在 Spring Boot 3.3 中轻松实现 TOTP 双因素认证

表单验证这样处理才优雅！深入掌握 Spring Boot 3.3 中的 MessageCodesResolver 错误处理技巧

速览！Spring Boot 3.3 快速实现 API 加密的最佳实践

强大！基于 Spring Boot3.3 六种策略识别上传文件类型

神器！Spring Boot 3.3 模块化开发中的 @Import 注解全攻略

强大！Spring Boot 3.3 构建通用库，彻底告别重复代码！

优雅至极！Spring Boot 3.3 中 ObjectMapper 的最佳实践！

稳健！基于 Spring Boot 的事务外包模式构建可靠微服务

惊喜发现！Spring Boot 3.3 的隐藏宝藏功能，不容错过！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉