优化实录！如何将 MySQL 查询时间从 190 秒缩减到 1 秒，轻松应对千万数据

科技 2024-11-01 07:31 河北

最近，我在工作中遇到一个数据库配置问题，涉及一个主从结构的数据库实例。具体来说，该数据库每天凌晨会触发SLA（服务级别协议）警报。这个警报表明主从同步延迟显著。这意味着如果在这个时间点尝试从主库切换到从库，切换的完成时间会非常长。系统需要额外的时间来赶上并同步延迟的数据，以确保主库和从库之间的数据一致性。进一步分析显示，这个问题的一个主要驱动因素是该数据库实例中存在大量慢查询。

这些慢查询定义为执行时间超过1秒的SQL查询。

我们发现，应用程序每晚执行的一个特定任务——删除一个月前的旧数据——是这些慢查询的主要来源。

分析

利用pt-query-digest工具分析最近一周的mysql-slow.log。

pt-query-digest --since=148h mysql-slow.log | less

结果第二部分

在过去一周，总共记录的慢查询执行时间为25403秒，最长的慢SQL执行时间为266秒，平均每个慢SQL的执行时间为5秒，平均扫描的行数为1766万。

结果第二部分

选择arrival_record操作的慢查询次数超过4万次，平均响应时间为4秒。删除arrival_record的记录6次，平均响应时间为258秒。

select xxx_record语句

选择arrival_record的慢查询语句类似于以下，where子句中的参数字段相同，但参数值不同： *select count(*) from arrival_record where product_id=26 and receive_time between '2019-03-25 14:00:00' and '2019-03-25 15:00:00' and receive_spend_ms>=0\G*

选择arrival_record的语句最多扫描了5600万行，MySQL中的平均扫描行数为172万，推断出扫描行数过多导致执行时间长。

查看执行计划

explain select count(*) from arrival_record where product_id=26 and receive_time between '2019-03-25 14:00:00' and '2019-03-25 15:00:00' and receive_spend_ms>=0\G;
*************************** 1. row ***************************
id: 1
select_type: SIMPLE
table: arrival_record
partitions: NULL
type: ref
possible_keys: IXFK_arrival_record
key: IXFK_arrival_record
key_len: 8
ref: const
rows: 32261320
filtered: 3.70
Extra: Using index condition; Using where
1 row in set, 1 warning (0.00 sec)

使用了索引IXFK_arrival_record，但估算扫描的行数非常大，超过3000万行。

show index from arrival_record;
+----------------+------------+---------------------+--------------+--------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+----------------+------------+---------------------+--------------+--------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| arrival_record | 0 | PRIMARY | 1 | id | A | 107990720 | NULL | NULL | | BTREE | | |
| arrival_record | 1 | IXFK_arrival_record | 1 | product_id | A | 1344 | NULL | NULL | | BTREE | | |
| arrival_record | 1 | IXFK_arrival_record | 2 | station_no | A | 22161 | NULL | NULL | YES | BTREE | | |
| arrival_record | 1 | IXFK_arrival_record | 3 | sequence | A | 77233384 | NULL | NULL | | BTREE | | |
| arrival_record | 1 | IXFK_arrival_record | 4 | receive_time | A | 65854652 | NULL | NULL | YES | BTREE | | |
| arrival_record | 1 | IXFK_arrival_record | 5 | arrival_time | A | 73861904 | NULL | NULL | YES | BTREE | | |
+----------------+------------+---------------------+--------------+--------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
show create table arrival_record;
..........
arrival_spend_ms bigint(20) DEFAULT NULL,
total_spend_ms bigint(20) DEFAULT NULL,
PRIMARY KEY (id),
KEY IXFK_arrival_record (product_id,station_no,sequence,receive_time,arrival_time) USING BTREE,
CONSTRAINT FK_arrival_record_product FOREIGN KEY (product_id) REFERENCES product (id) ON DELETE NO ACTION ON UPDATE NO ACTION
) ENGINE=InnoDB AUTO_INCREMENT=614538979 DEFAULT CHARSET=utf8 COLLATE=utf8_bin |

表中包含超过1亿条记录，只有一个复合索引。product_id字段的基数非常低，选择性差，不适合查询。
提供的过滤条件where product_id=26 and receive_time between '2019-03-25 14:00:00' and '2019-03-25 15:00:00' and receive_spend_ms>=0中并未包含station_no字段，因此未能利用复合索引IXFK_arrival_record的字段product_id、station_no、sequence和receive_time。
根据左前缀原则，选择arrival_record只使用复合索引IXFK_arrival_record的第一个字段product_id，其选择性差，导致扫描的行数较多，执行时间较长。
receive_time字段具有较高的基数和良好的选择性，单独为该字段创建索引是有益的。然后，选择arrival_record的SQL将会利用这个索引。

现在我们知道arrival_record的慢查询日志中的where语句包含了字段product_id、receive_time、receive_spend_ms的参数，我们想知道是否还有其他字段用于过滤访问这个表？

强大工具tcpdump的登场时间

使用tcpdump捕获一段时间内针对该表的select语句的数据包。

tcpdump -i bond0 -s 0 -l -w - dst port 3316 | strings | grep select | egrep -i 'arrival_record' >/tmp/select_arri.log

捕获 select 语句中 from 后的条件语句。

IFS_OLD=$IFS
IFS=$'\n'
for i in `cat /tmp/select_arri.log`; do echo ${i#*'from'}; done | less
IFS=$IFS_OLD
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2019-03-27 08:40' and arrivalrec0_.product_id=17 and arrivalrec0_.station_no='56742'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2019-03-27 08:40' and arrivalrec0_.product_id=22 and arrivalrec0_.station_no='S7100'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2019-03-27 08:40' and arrivalrec0_.product_id=24 and arrivalrec0_.station_no='V4631'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2019-03-27 08:40' and arrivalrec0_.product_id=22 and arrivalrec0_.station_no='S9466'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2019-03-27 08:40' and arrivalrec0_.product_id=24 and arrivalrec0_.station_no='V4205'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2019-03-27 08:40' and arrivalrec0_.product_id=24 and arrivalrec0_.station_no='V4105'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2019-03-27 08:40' and arrivalrec0_.product_id=24 and arrivalrec0_.station_no='V4506'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2019-03-27 08:40' and arrivalrec0_.product_id=24 and arrivalrec0_.station_no='V4617'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2019-03-27 08:40' and arrivalrec0_.product_id=22 and arrivalrec0_.station_no='S8356'
arrival_record arrivalrec0_ where arrivalrec0_.sequence='2019-03-27 08:40' and arrivalrec0_.product_id=22 and arrivalrec0_.station_no='S8356'

表的 where 条件包含 product_id、station_no 和 sequence 字段，可以利用复合索引 IXFK_arrival_record 的前三个字段。

总结来说，优化方法是删除复合索引 IXFK_arrival_record，创建一个新的复合索引 idx_sequence_station_no_product_id，并建立单独的索引 indx_receive_time。

删除 xxx_record 语句

删除操作的平均扫描量为 1.1 亿行，平均执行时间为 262 秒。

下面是删除语句，每个慢查询记录不同的参数值：

delete from arrival_record where receive_time < STR_TO_DATE('2019-02-23', '%Y-%m-%d')\G

执行计划：

explain select * from arrival_record where receive_time < STR_TO_DATE('2019-02-23', '%Y-%m-%d')\G
*************************** 1. row ***************************
id: 1
select_type: SIMPLE
table: arrival_record
partitions: NULL
type: ALL
possible_keys: NULL
key: NULL
key_len: NULL
ref: NULL
rows: 109,501,508
filtered: 33.33
Extra: Using where
1 row in set, 1 warning (0.00 sec)

该删除语句未使用索引（没有合适的索引可用），导致全表扫描和较长的执行时间。
优化方法也是创建一个单独的索引 indx_receive_time(receive_time)。

测试

将 arrival_record 表复制到测试实例，以在 XX 实例的 arrival_record 表上执行删除和重建索引操作。

du -sh /datas/mysql/data/3316/cq_new_cimiss/arrival_record*
12K /datas/mysql/data/3316/cq_new_cimiss/arrival_record.frm
48G /datas/mysql/data/3316/cq_new_cimiss/arrival_record.ibd
select count() from cq_new_cimiss.arrival_record;
+-----------+
| count()   |
+-----------+
| 112294946 |
+-----------+
超过 1 亿条记录。

SELECT
table_name,
CONCAT(FORMAT(SUM(data_length) / 1024 / 1024,2),'M') AS dbdata_size,
CONCAT(FORMAT(SUM(index_length) / 1024 / 1024,2),'M') AS dbindex_size,
CONCAT(FORMAT(SUM(data_length + index_length) / 1024 / 1024 / 1024,2),'G') AS table_size(G),
AVG_ROW_LENGTH,table_rows,update_time
FROM
information_schema.tables
WHERE table_schema = 'cq_new_cimiss' and table_name='arrival_record';
+----------------+-------------+--------------+------------+----------------+------------+---------------------+
| table_name     | dbdata_size | dbindex_size | table_size(G) | AVG_ROW_LENGTH | table_rows | update_time        |
+----------------+-------------+--------------+------------+----------------+------------+---------------------+
| arrival_record | 18,268.02M  | 13,868.05M   | 31.38G       | 175            | 109155053  | 2019-03-26 12:40:17 |
+----------------+-------------+--------------+------------+----------------+------------+---------------------+

磁盘空间使用为 48G，MySQL 中的表大小为 31G，显示出大约 17G 的碎片，主要是由于删除造成的（删除记录后未回收空间）。

备份并恢复表到新实例，删除原复合索引，并添加新索引进行测试。

mydumper 并行压缩备份：

user=root
passwd=xxxx
socket=/datas/mysql/data/3316/mysqld.sock
db=cq_new_cimiss
table_name=arrival_record
backupdir=/datas/dump_$table_name
mkdir -p $backupdir
nohup echo `date +%T` && mydumper -u $user -p $passwd -S $socket -B $db -c -T $table_name -o $backupdir -t 32 -r 2000000 && echo `date +%T` &

并行压缩备份耗时（52秒）和使用空间（1.2G，实际表占用 48G 磁盘空间，显示出 mydumper 的高压缩比！）。

开始备份于：2019-03-26 12:46:04
........

备份完成于：2019-03-26 12:46:56

du -sh /datas/dump_arrival_record/
1.2G  /datas/dump_arrival_record/

将备份数据复制到测试节点：

scp -rp /datas/dump_arrival_record root@10.230.124.19:/datas

多线程数据导入：

time myloader -u root -S /datas/mysql/data/3308/mysqld.sock -P 3308 -p root -B test -d /datas/dump_arrival_record -t 32

真实耗时 126m42.885s 用户 1m4.543s 系统 0m4.267s

逻辑导入表后的磁盘空间使用：

du -h -d 1 /datas/mysql/data/3308/test/arrival_record.*
12K /datas/mysql/data/3308/test/arrival_record.frm
30G /datas/mysql/data/3308/test/arrival_record.ibd
无碎片，与 MySQL 中的表大小相匹配。
cp -rp /datas/mysql/data/3308 /datas

使用在线 DDL 和 pt-osc 工具进行索引删除和重建。首先，删除外键；如果不这样做，复合索引无法被删除，因为外键列是复合索引中第一列的一部分。

nohup bash /tmp/ddl_index.sh &
2019-04-04-10:41:39 开始停止 mysqld_3308
2019-04-04-10:41:41 开始 rm -rf datadir 并复制 datadir_bak
2019-04-04-10:46:53 启动 mysqld_3308
2019-04-04-10:46:59 在线 DDL 开始
2019-04-04-11:20:01 索引删除成功

索引删除完成后，添加新索引。

2019-04-04-11:20:02 索引添加开始
2019-04-04-11:40:30 索引添加成功

生成的 EXPLAIN：

+----+-------------+-------------------+-------+---------------+---------+---------+------------------+------+-------------+
| id | select_type | table             | type  | possible_keys | key     | key_len | ref              | rows | Extra       |
+----+-------------+-------------------+-------+---------------+---------+---------+------------------+------+-------------+
|  1 | SIMPLE      | arrival_record    | range | indx_receive_time | indx_receive_time | 8       | NULL            | 3522 | Using where |
+----+-------------+-------------------+-------+---------------+---------+---------+------------------+------+-------------+

该查询可以使用索引进行加速，最终性能提升十倍。

使用建议：

实施

由于这是一个主从实例，应用程序连接到 VIP。删除和重建索引使用在线 DDL 进行。在停止主从复制后，首先在从实例上执行（不记录 binlog），然后进行主从切换，接着在新切换的从实例上执行（不记录 binlog）。

function red_echo () {
    local what="$*"
    echo -e "$(date +%F-%T)  ${what}"
}

function check_las_comm(){
    if [ "$1" != "0" ];then
        red_echo "$2"
        echo "exit 1"
        exit 1
    fi
}

red_echo "stop slave"
mysql -uroot -p$passwd --socket=/datas/mysql/data/${port}/mysqld.sock -e"stop slave"
check_las_comm "$?" "stop slave failed"

red_echo "online ddl begin"
mysql -uroot -p$passwd --socket=/datas/mysql/data/${port}/mysqld.sock -e"set sql_log_bin=0;select now() as ddl_start;ALTER TABLE $db_.\`${table_name}\` DROP FOREIGN KEY FK_arrival_record_product,drop index IXFK_arrival_record,add index idx_product_id_sequence_station_no(product_id,sequence,station_no),add index idx_receive_time(receive_time);select now() as ddl_stop" >>${log_file} 2>&1
red_echo "online ddl stop"
red_echo "add foreign key"
mysql -uroot -p$passwd --socket=/datas/mysql/data/${port}/mysqld.sock -e"set sql_log_bin=0;ALTER TABLE $db_.${table_name} ADD CONSTRAINT _FK_${table_name}_product FOREIGN KEY (product_id) REFERENCES cq_new_cimiss.product (id) ON DELETE NO ACTION ON UPDATE NO ACTION;" >>${log_file} 2>&1
check_las_comm "$?" "add foreign key error"
red_echo "add foreign key stop"

red_echo "start slave"
mysql -uroot -p$passwd --socket=/datas/mysql/data/${port}/mysqld.sock -e"start slave"
check_las_comm "$?" "start slave failed"

执行时间

2019–04–08–11:17:36 停止从服务器 mysql: [警告] 在命令行界面使用密码可能不安全。 ddl_start 2019–04–08 11:17:36 ddl_stop 2019–04–08 11:45:13 2019–04–08–11:45:13 online ddl stop 2019–04–08 –11:45:13 添加外键

mysql: [警告] 在命令行界面使用密码可能不安全。 2019–04–08–12:33:48 添加外键停止 2019–04–08 –12:33:48 启动从服务器

重新检查删除和选择语句的执行计划

explain select count(*) from arrival_record where receive_time < STR_TO_DATE('2019-03-10', '%Y-%m-%d')\G
*************************** 1. row ***************************
id: 1
select_type: SIMPLE
table: arrival_record
partitions: NULL
type: range
possible_keys: idx_receive_time
key: idx_receive_time
key_len: 6
ref: NULL
rows: 7540948
filtered: 100.00
Extra: Using where; Using index
explain select count(*) from arrival_record where product_id=26 and receive_time between '2019-03-25 14:00:00' and '2019-03-25 15:00:00' and receive_spend_ms>=0\G;
*************************** 1. row ***************************
id: 1
select_type: SIMPLE
table: arrival_record
partitions: NULL
type: range
possible_keys: idx_product_id_sequence_station_no,idx_receive_time
key: idx_receive_time
key_len: 6
ref: NULL
rows: 291448
filtered: 16.66
Extra: Using index condition; Using where

所有查询都使用了 idx_receive_time 索引，大大减少了扫描的行数。

索引优化后

删除操作仍然花费了 77 秒。

delete from arrival_record where receive_time < STR_TO_DATE('2019-03-10', '%Y-%m-%d')\G

该删除语句利用 receive_time 索引删除了超过 300 万条记录，耗时 77 秒。

大表删除小批量优化

应用程序已优化为每 10 分钟删除一次数据（每次执行时间约 1 秒），在 xxx 中没有出现 SLA（主从延迟警报）事件。

另一种方法是按主键顺序一次删除 20,000 条记录。

# 获取符合时间条件的最大主键 ID
# 按主键顺序逐步扫描小批量删除数据
# 首先执行以下语句
SELECT MAX(id) INTO @need_delete_max_id FROM `arrival_record` WHERE receive_time<'2019-03-01';
DELETE FROM arrival_record WHERE id<@need_delete_max_id LIMIT 20000;
select ROW_COUNT();  # 返回 20000

# 在执行小批量删除后，返回 row_count()，表示删除的行数
# 程序检查返回的 row_count() 是否为 0，如果不是，则执行以下循环；如果为 0，则退出循环，删除完成
DELETE FROM arrival_record WHERE id<@need_delete_max_id LIMIT 20000;
select ROW_COUNT();
# 程序休眠 0.5 秒

总结

当表的大小过大时，除了关注访问此表的响应时间外，还应考虑表的维护成本（例如 DDL 操作所需的时间和删除历史数据的时间）。
在对大表进行 DDL 操作时，应考虑表的实际情况（例如表的并发性、是否有外键）以选择合适的 DDL 变更方法。
对于从表中删除大量数据，应采用小批量删除的方法，以减少主实例的压力和主从延迟。

今天就讲到这里，如果有问题需要咨询，大家可以直接留言或扫下方二维码来知识星球找我，我们会尽力为你解答。

AI资源聚合站已经正式上线，该平台不仅仅是一个AI资源聚合站，更是一个为追求知识深度和广度的人们打造的智慧聚集地。通过访问 AI 资源聚合网站 https://ai-ziyuan.techwisdom.cn/，你将进入一个全方位涵盖人工智能和语言模型领域的宝藏库。

作者：路条编程（转载请获本公众号授权，并注明作者与出处）

http://mp.weixin.qq.com/s?__biz=MzIwNjYwNDQxMw==&mid=2247498682&idx=1&sn=3fba90ee7c8300264f19a5d8930b6af4

路条编程

路条编程是一个友好的社区，在这里你可以免费学习编程技能，我们旨在激励想学编程的人尝试新的想法和技术，在最短的时间学习到工作中使用到的技术！

最新文章

全方位解析！会话、Cookie、令牌与JWT的工作原理与实际应用

强大！轻松整合JWT，实现Spring Boot统一跨站登录！

揭秘！Spring Boot Jar 文件为何能直接运行？

面试揭秘：单线程的Redis为何依然高速运行？

高效解决方案揭秘！如何在亿级用户中高效查找用户名是否存在？

优雅！Spring Boot注解全面解析与实战指南，开发者必备

高效！Spring Boot任务调度的异步执行实战指南

强大！Spring Boot 3.3 与 RouterFunction 实现灵活动态路由

强大！30个必知Java技巧与妙招，迅速提升你的编程水平！

真香！Spring Boot 3.3 的这些内置功能绝对值得一用，开发者不需重复造轮子

必看！30个Java面向对象面试高频问题，助你自信斩获Offer！

探秘Java：为什么1==1为真，而128==128却为假？

重磅解锁Java 21：每位开发者必掌握的15个关键新特性！

警惕！List.of() vs Arrays.asList()：这些隐藏差异可能让你的代码崩溃！

免费加入！高质量小红书互助群，3天轻松涨粉1000+

强大！升级系统到 Spring Boot 3，分享其中对我们帮助最大的五个功能，开发者绝不能错过！

强大！牢记这16个Spring Boot扩展接口，代码优雅提升一个层次

警惕！为什么越来越多人不推荐使用JWT？

用了这么久SpringBoot，这些隐藏技巧你真的掌握了吗？

震撼！通过双重异步，Excel 10万行数据导入从191秒优化到2秒！

强悍！Spring Boot究竟能同时处理多少请求？深入剖析并发性能

强大又优雅！Spring Boot 中 RestTemplate 的最佳实践详解

深度优化！MySQL百亿级大表性能提升攻略

便捷！Spring Boot 3.3集成iText 实现高效PDF导出

高效优化！如何优雅处理项目中的一万条If-Else语句？

方便又高效！还在手动从服务器获取日志？设置日志收集系统更方便！

优化实录！如何将 MySQL 查询时间从 190 秒缩减到 1 秒，轻松应对千万数据

成功优化！Java 基础 Docker 镜像从 674MB 缩减到 58MB 的经验分享

专业！Spring Boot 3.3 集成 iText 实现高效电子签章

强大！用 @Audited 注解增强 Spring Boot 应用，打造健壮的数据审计功能

强大！Spring Boot3.3 后台任务处理最佳实践

必学！Spring Boot 单元测试、Mock 与 TestContainer 的高效使用技巧

透彻解析！Spring Boot Starter 功能与应用场景全面指南

提升效率！Spring Boot 开发中的常见失误轻松规避

实用！在 Spring WebFlux 中实现函数式端点的最佳实践

轻松掌握！如何在 Spring Boot 3.3 中实现基于角色的访问控制

当心！Spring Data JPA 中的数据获取误区与最佳实践

优雅！Spring Boot 3.3 搭配 JSON Schema 实现灵活的 JSON 数据定义与验证

优雅！使用 Spring Boot 3.3 + @ControllerAdvice 实现全局数据绑定与预处理

提升灵活性！为你的 Spring Boot3.3 控制器定制参数解析器

高效初始化！Spring Boot 3.3借助DAG加速Spring Beans加载！

安全无忧！在 Spring Boot 3.3 中轻松实现 TOTP 双因素认证

表单验证这样处理才优雅！深入掌握 Spring Boot 3.3 中的 MessageCodesResolver 错误处理技巧

速览！Spring Boot 3.3 快速实现 API 加密的最佳实践

强大！基于 Spring Boot3.3 六种策略识别上传文件类型

神器！Spring Boot 3.3 模块化开发中的 @Import 注解全攻略

强大！Spring Boot 3.3 构建通用库，彻底告别重复代码！

优雅至极！Spring Boot 3.3 中 ObjectMapper 的最佳实践！

稳健！基于 Spring Boot 的事务外包模式构建可靠微服务

惊喜发现！Spring Boot 3.3 的隐藏宝藏功能，不容错过！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉