首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

MyBatis Plus 解决大数据量查询慢问题

科技 2024-12-15 22:30 广东

架构师（JiaGouX）

我们都是架构师！
架构未来，你来不来？

常规查询
流式查询
游标查询

大数据量操作的场景大致如下：

数据迁移
数据导出
批量处理数据

在实际工作中当指定查询数据过大时，我们一般使用分页查询的方式一页一页的将数据放到内存处理。但有些情况不需要分页的方式查询数据或分很大一页查询数据时，如果一下子将数据全部加载出来到内存中，很可能会发生OOM(内存溢出)；而且查询会很慢，因为框架耗费大量的时间和内存去把数据库查询的结果封装成我们想要的对象（实体类）。

举例：在业务系统需要从 MySQL 数据库里读取 100w 数据行进行处理，应该怎么做？

做法通常如下：

常规查询： 一次性读取 100w 数据到 JVM 内存中，或者分页读取
流式查询： 建立长连接，利用服务端游标，每次读取一条加载到 JVM 内存（多次获取，一次一行）
游标查询： 和流式一样，通过 fetchSize 参数，控制一次读取多少条数据（多次获取，一次多行）

常规查询

默认情况下，完整的检索结果集会将其存储在内存中。在大多数情况下，这是最有效的操作方式，并且由于 MySQL 网络协议的设计，因此更易于实现。

举例：

假设单表 100w 数据量，一般会采用分页的方式查询：

@Mapper
public interface BigDataSearchMapper extends BaseMapper<BigDataSearchEntity> {
 
    @Select("SELECT bds.* FROM big_data_search bds ${ew.customSqlSegment} ")
    Page<BigDataSearchEntity> pageList(@Param("page") Page<BigDataSearchEntity> page, @Param(Constants.WRAPPER) QueryWrapper<BigDataSearchEntity> queryWrapper);
 
}

注：该示例使用的 MybatisPlus

该方式比较简单，如果在不考虑 LIMIT 深分页优化情况下，估计你的数据库服务器就噶皮了，或者你能等上几十分钟或几小时，甚至几天时间检索数据

流式查询

流式查询指的是查询成功后不是返回一个集合而是返回一个迭代器，应用每次从迭代器取一条查询结果。流式查询的好处是能够降低内存使用。

如果没有流式查询，我们想要从数据库取 100w 条记录而又没有足够的内存时，就不得不分页查询，而分页查询效率取决于表设计，如果设计的不好，就无法执行高效的分页查询。因此流式查询是一个数据库访问框架必须具备的功能。

MyBatis 中使用流式查询避免数据量过大导致 OOM ，但在流式查询的过程当中，数据库连接是保持打开状态的，因此要注意的是：

执行一个流式查询后，数据库访问框架就不负责关闭数据库连接了，需要应用在取完数据后自己关闭。
必须先读取（或关闭）结果集中的所有行，然后才能对连接发出任何其他查询，否则将引发异常。

MyBatis 流式查询接口

MyBatis 提供了一个叫 org.apache.ibatis.cursor.Cursor 的接口类用于流式查询，这个接口继承了 java.io.Closeable 和 java.lang.Iterable 接口，由此可知：

Cursor 是可关闭的；
Cursor 是可遍历的。

除此之外，Cursor 还提供了三个方法：

isOpen()： 用于在取数据之前判断 Cursor 对象是否是打开状态。只有当打开时 Cursor 才能取数据；
isConsumed()： 用于判断查询结果是否全部取完。
getCurrentIndex()： 返回已经获取了多少条数据

使用流式查询，则要保持对产生结果集的语句所引用的表的并发访问，因为其查询会独占连接，所以必须尽快处理

为什么要用流式查询？

如果有一个很大的查询结果需要遍历处理，又不想一次性将结果集装入客户端内存，就可以考虑使用流式查询；

分库分表场景下，单个表的查询结果集虽然不大，但如果某个查询跨了多个库多个表，又要做结果集的合并、排序等动作，依然有可能撑爆内存；详细研究了sharding-sphere的代码不难发现，除了group by与order by字段不一样之外，其他的场景都非常适合使用流式查询，可以最大限度的降低对客户端内存的消耗。

游标查询

对大量数据进行处理时，为防止内存泄漏情况发生，也可以采用游标方式进行数据查询处理。这种处理方式比常规查询要快很多。

当查询百万级的数据的时候，还可以使用游标方式进行数据查询处理，不仅可以节省内存的消耗，而且还不需要一次性取出所有数据，可以进行逐条处理或逐条取出部分批量处理。一次查询指定 fetchSize 的数据，直到把数据全部处理完。

Mybatis 的处理加了两个注解：@Options 和 @ResultType

@Mapper
public interface BigDataSearchMapper extends BaseMapper<BigDataSearchEntity> {
 
    // 方式一 多次获取，一次多行
    @Select("SELECT bds.* FROM big_data_search bds ${ew.customSqlSegment} ")
    @Options(resultSetType = ResultSetType.FORWARD_ONLY, fetchSize = 1000000)
    Page<BigDataSearchEntity> pageList(@Param("page") Page<BigDataSearchEntity> page, @Param(Constants.WRAPPER) QueryWrapper<BigDataSearchEntity> queryWrapper);
 
    // 方式二 一次获取，一次一行
    @Select("SELECT bds.* FROM big_data_search bds ${ew.customSqlSegment} ")
    @Options(resultSetType = ResultSetType.FORWARD_ONLY, fetchSize = 100000)
    @ResultType(BigDataSearchEntity.class)
    void listData(@Param(Constants.WRAPPER) QueryWrapper<BigDataSearchEntity> queryWrapper, ResultHandler<BigDataSearchEntity> handler);
 
}

@Options

ResultSet.FORWORD_ONLY：结果集的游标只能向下滚动
ResultSet.SCROLL_INSENSITIVE：结果集的游标可以上下移动，当数据库变化时，当前结果集不变
ResultSet.SCROLL_SENSITIVE：返回可滚动的结果集，当数据库变化时，当前结果集同步改变
fetchSize：每次获取量

@ResultType

@ResultType(BigDataSearchEntity.class)：转换成返回实体类型

注意：返回类型必须为 void ，因为查询的结果在 ResultHandler 里处理数据，所以这个 hander 也是必须的，可以使用 lambda 实现一个依次处理逻辑。

注意：

虽然上面的代码中都有 @Options 但实际操作却有不同：

方式一是多次查询，一次返回多条；
方式二是一次查询，一次返回一条；

原因：

Oracle 是从服务器一次取出 fetch size 条记录放在客户端，客户端处理完成一个批次后再向服务器取下一个批次，直到所有数据处理完成。

MySQL 是在执行 ResultSet.next() 方法时，会通过数据库连接一条一条的返回。flush buffer 的过程是阻塞式的，如果网络中发生了拥塞，send buffer 被填满，会导致 buffer 一直 flush 不出去，那 MySQL 的处理线程会阻塞，从而避免数据把客户端内存撑爆。

非流式查询和流式查询区别：

非流式查询：内存会随着查询记录的增长而近乎直线增长。
流式查询：内存会保持稳定，不会随着记录的增长而增长。其内存大小取决于批处理大小BATCH_SIZE的设置，该尺寸越大，内存会越大。所以BATCH_SIZE应该根据业务情况设置合适的大小。

另外要切记每次处理完一批结果要记得释放存储每批数据的临时容器，即上文中的gxids.clear();

如喜欢本文，请点击右上角，把文章分享到朋友圈
如有想了解学习的技术点，请留言给若飞安排分享

因公众号更改推送规则，请点“在看”并加“星标”第一时间获取精彩技术分享

·END·

相关阅读：

作者：旷野历程
来源：blog.csdn.net/xhaimail/article/details/119386460
版权申明：内容来源网络，仅供学习研究，版权归原创者所有。如有侵权烦请告知，我们会立即删除并表示歉意。谢谢!

架构师

我们都是架构师！

关注架构师(JiaGouX)，添加“星标”

获取每天技术干货，一起成为牛逼架构师

技术群请加若飞：1321113940 进架构师群

投稿、合作、版权等邮箱：admin@137x.com

架构师

专业架构师，专注高质量架构干货分享。三高架构（高可用、高性能、高稳定）、大数据、机器学习、Java架构、系统架构、分布式架构、人工智能等的架构讨论交流，以及结合互联网技术的架构调整，大规模架构实战分享。欢迎有想法、乐于分享的架构师交流学习。

最新文章

性能提升 2000%？揭秘 MyBatis-Plus 批量插入的终极优化技巧

GitHub Copilot 推出免费版，AI 编程助手迎来普及时代

SpringBoot + MyBatis 实现号段模式的分布式ID~

放弃Websocket，使用 SSE 仅用几行代码就能搞定这些功能?!

Feed 流系统的架构设计方案

MyBatis Plus 解决大数据量查询慢问题

SpringBoot+WebSocket实时监控异常，真的太顶了！

公司新人把 MyBatis 替换成 MyBatis-Plus，上线后被组长怒怼了...

基于MySQL内核的SQL限流设计与实现

架构师应如何考虑重构？

优雅实现多系统一致性补偿方案

SpringBoot+Flowable ,工作流居然这么简单？

Redis之常用的十几种使用场景

Map 只会 put、get？快来学这几个“新”方法

一个微服务权限控制方案

前端打包工具Mako架构解析

一个RBAC模型的数据范围权限实践

谈一谈三方接口调用方案设计

Java agent原理浅析与编码实战

让数据传输更优雅：SpringBoot前后端加密技巧全攻略

既生瑜，何生亮，SkyWalking 和 ELK 实现链路追踪的实践

假如你是架构师，你要做些什么?

深度解析：打造高效优雅的Controller

为什么说程序员是一个极度劳累的工作？

DDD在交易业务中的有效实践

接口从4秒到200毫秒-小小的日志竟能引发如此问题

一口气给面试官说出前后端 4 种鉴权方案

共享单车的通信原理，有人了解过吗？

手把手教你实现一个Java Agent

记一次多租户SaaS系统的定制化需求代码的重构优化实践！

领域化、中台化和多Region化，谈谈账号系统的演进

如何实现前端错误监控实践

面试官：每天100w次登陆请求, 8G 内存该如何设置JVM参数？

Java Http 接口对接太繁琐？试试 UniHttp 框架吧

动态上传jar包热部署，看完还不会吗？

微服务设计、拆分原则

分布式接口防抖，提升稳定性！再也不怕压测了

商品类千亿日志系统架构演进

实战 | 全链路多版本开发测试环境落地分享

面试官：如果要存ip地址，用什么数据类型比较好

如何使用RocketMQ实现可靠事件模式

你信吗？从4.75s到0.6s，我只动了一条SQL

门票秒杀系统的设计与实践

看我如何用“暗水印显隐术”助力生产排障提效

挑战仅用一行代码实现请假审批流程

谈一谈微服务与分布式系统设计

消息队列轻松实现分布式 webSocket

四种分页方案，哪种分页效果更好？

只因把 https 改成 http，带宽j居然减少了 70%？

从限流削峰到性能优化，谈抽奖系统架构实践

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉