MySQL优化，200万数据，十倍效率提升方案

科技 2024-12-30 11:55 上海

👉 这是一个或许对你有用的社群
🐱 一对一交流/面试小册/简历优化/求职解惑，欢迎加入「芋道快速开发平台」知识星球。下面是星球提供的部分资料：
《项目实战（视频）》：从书中学，往事中“练”
《互联网高频面试题》：面朝简历学习，春暖花开
《架构 x 系统设计》：摧枯拉朽，掌控面试高频场景题
《精进 Java 学习指南》：系统学习，互联网主流技术栈
《必读 Java 源码专栏》：知其然，知其所以然

👉这是一个或许对你有用的开源项目
国产 Star 破 10w+ 的开源项目，前端包括管理后台 + 微信小程序，后端支持单体和微服务架构。
功能涵盖 RBAC 权限、SaaS 多租户、数据权限、商城、支付、工作流、大屏报表、微信公众号等等功能：
Boot 仓库：https://gitee.com/zhijiantianya/ruoyi-vue-pro
Cloud 仓库：https://gitee.com/zhijiantianya/yudao-cloud
视频教程：https://doc.iocoder.cn
【国内首批】支持 JDK 21 + SpringBoot 3.2.2、JDK 8 + Spring Boot 2.7.18 双版本

来源：blog.csdn.net/liangmengbk

新建测试表（默认是InnoDB引擎）

CREATE TABLE `test_table` (
  `id` int NOT NULL AUTO_INCREMENT,
  `name` varchar(50)  DEFAULT NULL,
  `value` int DEFAULT NULL,
  `create_time` datetime DEFAULT NULL,
  PRIMARY KEY (`id`)
);

往测试表中插入200万条测试数据：

创建一个生成数据的存储过程，用于快速批量插入数据：

CREATE DEFINER=`root`@`localhost` PROCEDURE `insert_test_data`()
BEGIN
    DECLARE i INT DEFAULT 413241;
    WHILE i < 2000000 DO
        INSERT INTO test_table (name, value) VALUES (CONCAT('test_name_', i), i);
        SET i = i + 1;
    END WHILE;
END

执行存储过程：

call insert_test_data();

为日期字段赋值，值为随机值：

update test_table t
SET t.create_time = (
    SELECT DATE_SUB(NOW(), INTERVAL FLOOR(RAND() * 1000000) SECOND)
    WHERE create_time IS NULL
)

以上脚本执行完毕后，测试数据插入完毕。

执行分析语句，可以看到查询表完整数据，实际会花费3303毫秒。

explain analyze select * from test_table;

现在新建一张相同字段的测试表：

CREATE TABLE m_test_table LIKE test_table;

将表的引擎改为memory：

往新的测试表中插入数据：

INSERT INTO m_test_table
SELECT * FROM test_table;

在这一步，可能会报“The table 'm_test_table' is full”这个错误。这是因为系统默认给内存表分配的空间大小是16M，可以通过更新配置的方式，调整这个大小。

SET GLOBAL max_heap_table_size = 51539607552;
SET GLOBAL tmp_table_size = 51539607552;

具体调整到多少合适，根据服务器实际内存进行调整。

调整完毕后，需要重新创建内存表，重新插入数据。

对比实验1：全表扫描（相差11倍）

新表数据插入完毕后，执行分析语句，可以看到查询表完整数据，实际会花费296毫秒。

跟原表test_table相比，数据完全一致，查询完整数据，速度上相差11倍（3303/296）。

查询速度上的差异，主要原因是test_table表的引擎为InnoDB，数据存储在磁盘上的。m_test_table表的引擎为MEMORY，数据存储在内存中。内存的读取速度会比磁盘快很多。

基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序，支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能
项目地址：https://github.com/YunaiV/ruoyi-vue-pro
视频教程：https://doc.iocoder.cn/video/

对比实验2：等值筛选（相差3倍）

基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 实现的后台管理系统 + 用户小程序，支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能
项目地址：https://github.com/YunaiV/yudao-cloud
视频教程：https://doc.iocoder.cn/video/

对比实验6：like 全表扫描+排序（相差2倍）

查看数据存储尺寸

select *
  from information_schema.TABLES ta
where 1=1
  and ta.table_schema not in (
 'information_schema',
 'mysql',
 'sys',
 'performance_schema'
 )
order by ta.table_schema,ta.table_name;

查看不同存储引擎占用内存情况

SELECT SUBSTRING_INDEX(event_name,'/',2) AS
 code_area, sys.format_bytes(SUM(current_alloc))
 AS current_alloc
 FROM sys.x$memory_global_by_current_bytes
 GROUP BY SUBSTRING_INDEX(event_name,'/',2)
 ORDER BY SUM(current_alloc) DESC;

总结

MEMORY引擎虽然速度快，但也有缺点，缺点是数据在内存中保存，如果服务器重启，内存中的数据就会丢失。所以内存表并不适用于所有情况。MySQL默认引擎是InnoDB，数据存储在磁盘上。

使用场景：

缓存数据： 内存表可以用作缓存临时数据或频繁访问的数据，以提高查询性能。
临时表： 在处理复杂查询或中间计算时，可以使用内存表作为临时存储。
会话数据： 对于需要快速访问但不需要持久化的会话数据，内存表是一个很好的选择。
只读数据： 如果数据是只读的，并且不需要长期保存，那么内存表可以提供极佳的查询性能。
实时数据分析： 对于需要快速响应的实时数据分析任务，内存表可以显著提高处理速度。

针对Memory引擎，数据丢失和同步，问题的解决方法：

Memory与InnoDB引擎同时创建一张相同的表。
在应用启动时，将InnoDB表全量数据同步到Memory表中，程序访问Memory表中的数据。
使用MySQL触发器，在对InnoDB表操作数据时，自动更新Memory表与InnoDB据一致。

如果不方便使用触发器，也可以将程序代码改为同步双写，在往InnoDB表插入数据后，同步往Memory表中也插入一条数据。

注意Memory不支持事务，抛异常手动删除即可

可能遇到的问题

为什么不用Redis？

Redis无法使用SQL，多维度查询比较慢。

如果单条数据大，会形成大Key，对单线程的Redis是致命的。

Memory引擎是表锁，频繁写入是否会出现瓶颈？

虚拟机环境460万数据10秒写入，锁表时间极端，大概率不会成为瓶颈。

服务器内存会占用多少？

以booking(预定为例，5千万行数据，全部载入占用2G内存，压力不大）

遇到单行超大情况，建议拆表剥离大字段，将其他小字段载入内存表。

欢迎加入我的知识星球，全面提升技术能力。

👉 加入方式，“长按”或“扫描”下方二维码噢：

星球的内容包括：项目实战、面试招聘、源码解析、学习路线。

文章有帮助的话，在看，转发吧。
谢谢支持哟 (*^__^*）

Java基基

一个苦练基本功的 Java 公众号，所以取名 Java 基基

最新文章

3500一个月，狗都不做

面试官：post为什么会发送两次请求？

微服务之间的数据依赖问题，该如何解决？

放弃蚂蚁offer，选择农行软开！

SpringBoot + MinIO + kkFile 实现文件预览，这样操作更安全！

玩转 Spring 状态机：打造灵活高效的业务逻辑流，太优雅了！

SpringBoot3.2 + jdk21 + GraalVM上手体验

弃用 RestTemplate，来了解一下官方推荐的 WebClient ！

详解三大权限模型

Java和Lua的完美结合：实现Java程序的动态扩展和脚本自动升级

【性能调优】全方位教你定位慢SQL

开发实战：使用Redisson实现分布式延时消息，订单30分钟关闭的另外一种实现！

ThreadLocal 不香了？ScopedValue才是王道？

SpringBoot 实现静态、动态定时任务，本地动态定时任务调度

使用Redisson时，为何synchronized锁会失灵？

帅呆！接口开发不用写Controller、Service、Dao、Mapper、XML、VO，全自动生成

在国企和央企当程序员体验，太真实了。。

Spring 统一功能处理

号称下一代监控系统！来看看它有多牛逼

1.8k star，一款非常强大的微信数据分析工具

Spring Security + OAuth0 搭建高效认证与资源服务架构

高德一面：高德导航红绿灯为啥能读秒？

一行代码引发的性能暴跌 10 倍

面试官：Redis 大 key 多 key，你要怎么拆分？

扛不住诱惑，我准备转投 JDK17 了....

雷军大学时候的论文：不需要参考文献

程序员缺乏经验的 7 种表现！

成年人欲望程度排行榜TOP 10

300 秒到 4 秒，如何将 MySQL 批量写入的耗时缩短 99%？

如何用 Java Stream 写出 “高效率、干净、简洁” 的代码？

甘露寺2024年招聘公告！环境清幽，包吃包住，午休3小时。。。

人到中年后悔没听父母话，体制内工作才是最终归宿！一线城市总包35万 VS 十八线城市月薪7000

公司新来一个同事，写了一个责任链模式，bug 无数...

京东：MySQL 中的 distinct 和 group by 哪个效率更高？太刁钻了吧！

MySQL优化，200万数据，十倍效率提升方案

老板爱瞎改权限怎么办：注解+AOP 打造复杂权限体系

朋友的团队准备解散了。。

Docker镜像瘦身：从1.43G到22.4MB

高手必会的 IDEA Debug 使用技巧，你都用过吗？

心痛，阿里知名项目宣布停更！

批处理框架 Spring Batch 这么强，你真的会用吗？

Spring一个注解轻松搞定循环重试功能！

你见过最烂的代码长什么样子？挺好，防止忘记密码，大隐隐于市

四种分页方案，哪种分页效果更好？

谈一谈三方接口调用方案设计

项目终于用上了 PowerJob，睡觉真香！

工厂+策略模式的妙用~

一个技巧，优雅解决 IDEA 构建速度慢的问题

面试官：业务开发时，接口不能对外暴露怎么办？有 3 种实现方案！

面试官：为什么互联网大厂要禁用外键约束？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

MySQL优化，200万数据，十倍效率提升方案

对比实验1：全表扫描（相差11倍）

对比实验2：等值筛选（相差3倍）

对比实验3：等值筛选 + count(*)（几乎相等）

对比实验4：多条件等值筛选（相差3倍）

对比实验5：IN 多值（相差3倍）

对比实验6：like 全表扫描+排序（相差2倍）

总结

可能遇到的问题