千万级数据的全表update的正确姿势！

科技 2024-08-20 08:40 浙江

大家好，我是不才陈某~

有些时候在进行一些业务迭代时需要我们对Mysql表中数据进行全表update，如果是在数据量比较小的情况下（万级别），可以直接执行sql语句，但是如果数据量达到一个量级后，就会出现一些问题，比如主从架构部署的Mysql，主从同步需要需要binlog来完成，而binlog格式如下，其中使用statement和row格式的主从同步之间binlog在update情况下的展示：

格式	内容
statement	记录同步在主库上执行的每一条sql，日志量较少，减少io，但是部分函数sql会出现问题比如random
row	记录每一条数据被修改或者删除的详情，日志量在特定条件下很大，如批量delete、update
mixed	以上两种方式混用，一般的语句修改使用statement记录，其他函数式使用row

我们当前线上mysql是使用row格式binlog来进行的主从同步，因此如果在亿级数据的表中执行全表update，必然会在主库中产生大量的binlog，接着会在进行主从同步时，从库也需要阻塞执行大量sql，风险极高，因此直接update是不行的。本文就从我最开始的一个全表update sql开始，到最后上线的分批更新策略，如何优化和思考来展开说明。

直接update的问题

我们前段时间需要将用户的一些基本信息存储从http转换为https，库中数据大概在几千w的级别，需要对一些大表进行全表update，最开始我试探性的跟dba同事抛出了一个简单的update语句，想着流量低的时候执行，如下:

update tb_user_info set user_img=replace(user_img,'http://','https://')

深度分页问题

上面肯定是不合理的会给主库生成binlog、从库接收binlog写数据带来很大的压力，于是就想使用脚本分批处理如下所示：写一个这样的脚本，依次分批替换，limit的游标不断增加。大概一看是没有问题的，但是仔细一想mysql的limit游标进行的范围查找原理，是下沉到B+数的叶子节点进行的向后遍历查找，在limit数据比较小的情况下还好，limit数据量比较大的情况下，效率很低接近于全表扫描，这也就是我们常说的“深度分页问题”。

update tb_user_info set user_img=replace(user_img,'http://','https://') limit 1,1000;

in的效率

既然mysql的深分页有问题，那么我就把这批id全部查出来，然后更新的id in这些列表，进行批量更新可以吗？于是我又写了类似下面sql的脚本。结果是还不行，虽然mysql对于in这些查找有一些键值预测，但是仍然是很低效。

select * from tb_user_info where id> {index} limit 100;

update tb_user_info set user_img=replace(user_img,'http','https')where id in {id1,id3,id2};

最终版本

最终在与dba的多次沟通下，我们写了如下的sql及脚本，这里有几个问题需要注意，我们在select sql中使用了这个语法/*!40001 SQL_NO_CACHE */，这个语法的意思就是本次查询不使用innodb的buffer pool，也不会将本次查询的数据页放到buffer pool中作为热点数据的缓存。接着对于查询强制使用主键索引 FORCE INDEX(PRIMARY) ，并且根据主键索引排序，排序后的数据进行id游标的筛选。最后执行update更新时，由于我们在前面的sql中查询到的就是已经排序后的主键，因此可以对id执行范围查找。

select /*!40001 SQL_NO_CACHE */ id from tb_user_info FORCE INDEX(`PRIMARY`) where id> "1" ORDER BY id limit 1000,1;

update tb_user_info set user_img=replace(user_img,'http','https') where id >"{1}" and id <"{2}";

我们可以仅关注第一个sql，如下图所示，是buffer pool大概内容，我们可以通过这个no cache的关键字，对批量处理的数据进行强制指定不走buffer pool，不把这些冷数据影响到正常使用的缓存内容，防止效率的降低，其实mysql在一些备份的动作中。使用的数据扫描sql也会带上这个关键字，防止影响到正常的业务缓存；接着需要强制对当前查询指定的主键索引，然后进行排序，否则mysql有可能在计算io成本进行索引选择时，选择其他的索引。

使用这样的方式对数据库进行批量更新可以通过一个接口来控制速率，对于数据库主从同步、iops、内存使用率等关键属性进行观察，手动调整刷库速率。这样看是单线程阻塞的操作，其实接口也可以定义线程个数等属性，接口中根据赋予的线程个数，通过线程池并行刷数据，从而提高全表更新速率的上限，同时对速率进行控制控制。

其他问题

如果我们使用snowflake雪花算法或者自增主键来生成主键id的话，插入的记录都是根据主键id顺序插入的，如果使用uuid这种我们怎么处理？当然是业务中就预先处理了，先把入库的数据提前进行替换，进行代码上线后再进行的全量数据更新了。

来源：https://juejin.cn/post/6897185211340029966

最后说一句（别白嫖，求关注）

陈某每一篇文章都是精心输出，已经写了3个专栏，整理成PDF，获取方式如下：

《Spring Cloud 进阶》PDF：关注公众号：【码猿技术专栏】回复关键词 Spring Cloud 进阶获取！
《Spring Boot 进阶》PDF：关注公众号：【码猿技术专栏】回复关键词 Spring Boot进阶获取！
《Mybatis 进阶》PDF：关注公众号：【码猿技术专栏】回复关键词 Mybatis 进阶获取！

关注公众号：【码猿技术专栏】，公众号内有超赞的粉丝福利，回复：加群，可以加入技术讨论群，和大家一起讨论技术，吹牛逼！

http://mp.weixin.qq.com/s?__biz=MzU3MDAzNDg1MA==&mid=2247534717&idx=1&sn=4fcf239183cd071c61689c008a917fc2

码猿技术专栏

前蚂蚁P8，纯粹的技术人，以专栏的形式分享java全栈技术，求职面试、进阶网站：java-family.cn

面试官：post为什么会发送两次请求？

公司大佬对 Excel 导入、导出的封装，那叫一个妙啊！

学会这招，来给你的 SpringBoot 工程部署的 jar 包瘦瘦身吧！

SpringBoot+Flowable 太强了！

这款轻量级 Java 表达式引擎，真不错！

再见 EasyExcel ！

SpringBoot 实现图片阅后即焚功能！

SpringBoot + minio + kkfile 实现文件预览

别再使用 RestTemplate了，来了解一下官方推荐的 WebClient ！

这个Spring Boot脚手架太好用了！

强烈建议尽快搞个软考证！（重大利好）

B站疯传！一整套Java资料，白拿不谢！

Jedis那么低性能，还在用？赶紧换上 lettuce 吧！

国家整治程序员的高薪现象？看完悬着的心终于....

BigDecimal为什么可以不丢失精度？

替代ELK：ClickHouse+Kafka+FlieBeat

太顶了！SpringBoot + Java DL4J 实现交通标志识别

CK、ES、RediSearch 谁才是性能之王？

决定弃用 Nacos 了！

玩玩阿里神器 Seata，真不错！

玩玩大厂都在用的 JavaAgent

Seata+TCC 解决分布式事务，真香！

SpringBoot + ITextPdf：高效生成 PDF 预览文件

动态切换实现类框架，快看看 Spring-Smart-DI 是不是你的菜？

Spring Boot 接口数据加解密，太方便了！

SpringBoot 集成WebSocket 的 3 种集成方式

打算跳槽的兄弟要准备起来了。。。

Spring Cloud Gateway CORS 方案一次说清楚~

Spring Boot + 事务钩子函数，太强了！

消息队列轻松实现分布式 webSocket

Jenkins + Docker 一键自动化部署 Spring Boot 项目

SpringBoot异步接口实现：提高系统的吞吐量

阿里限流神器Sentinel 17 问？

9月，终于迈过了60k这道坎！

从实现原理来讲，Nacos 为什么这么强？

5 种 API 网关技术选型

一行代码，实现请假审批流程（Java版）

SpringBoot 接口防抖的一些实现方案

线程池中线程抛了异常，该如何处理？

10 种超赞的 MyBatis 写法！

千万级数据的全表update的正确姿势！

@Async注解有坑，小心！

Java8 中一个极其强悍的新接口，很多人没用过

解密阿里大神写的天书般的Tree工具类，轻松搞定树结构！

今年 Java 面试变了，打算跳槽的兄弟看一下！

规则引擎深度对比，LiteFlow vs Drools！

使用Hutool要注意了！升级到6.0后你调用的所有方法都将报错

if 判断泛滥？试一试规则执行器，太香了！

恭喜了！想涨工资的程序员，终于赶上好时候了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉