千万级数据的全表 update 正确姿势

科技 2024-10-14 08:48 浙江


作者：呼呼虎
juejin.cn/post/6897185211340029966

前言

有些时候在进行一些业务迭代时需要我们对Mysql表中数据进行全表update，如果是在数据量比较小的情况下（万级别），可以直接执行sql语句，但是如果数据量达到一个量级后，就会出现一些问题，比如主从架构部署的Mysql，主从同步需要需要binlog来完成，而binlog格式如下，其中使用statement和row格式的主从同步之间binlog在update情况下的展示：

我们当前线上mysql是使用row格式binlog来进行的主从同步，因此如果在亿级数据的表中执行全表update，必然会在主库中产生大量的binlog，接着会在进行主从同步时，从库也需要阻塞执行大量sql，风险极高，因此直接update是不行的。本文就从我最开始的一个全表update sql开始，到最后上线的分批更新策略，如何优化和思考来展开说明。

正文

直接update的问题

我们前段时间需要将用户的一些基本信息存储从http转换为https，库中数据大概在几千w的级别，需要对一些大表进行全表update，最开始我试探性的跟dba同事抛出了一个简单的 update 语句，想着流量低的时候执行，如下:

update tb_user_info set user_img=replace(user_img,'http://','https://')

这里也给大家提一个醒，在存储图片等 path 路径时，经历不要存储协议和域名之内的前缀部分。如果要改 http 协议、域名之类的就要涉及批量更新等操作，同时存储的容量也会不必要的增加。

深度分页问题

上面肯定是不合理的会给主库生成binlog、从库接收binlog写数据带来很大的压力，于是就想使用脚本分批处理如下所示：写一个这样的脚本，依次分批替换，limit的游标不断增加。大概一看是没有问题的，但是仔细一想mysql的limit游标进行的范围查找原理，是下沉到B+数的叶子节点进行的向后遍历查找，在limit数据比较小的情况下还好，limit数据量比较大的情况下，效率很低接近于全表扫描，这也就是我们常说的“深度分页问题”。

update tb_user_info set user_img=replace(user_img,'http://','https://') limit 1,1000;

in的效率

既然mysql的深分页有问题，那么我就把这批id全部查出来，然后更新的id in这些列表，进行批量更新可以吗？于是我又写了类似下面sql的脚本。结果是还不行，虽然mysql对于in这些查找有一些键值预测，但是仍然是很低效。


select * from tb_user_info where id> {index} limit 100;
update tb_user_info set user_img=replace(user_img,'http','https')where id in {id1,id3,id2};

最终版本

最终在与dba的多次沟通下，我们写了如下的sql及脚本，这里有几个问题需要注意，我们在select sql中使用了这个语法/*!40001 SQL_NO_CACHE */，这个语法的意思就是本次查询不使用innodb的buffer pool，也不会将本次查询的数据页放到buffer pool中作为热点数据的缓存。接着对于查询强制使用主键索引 FORCE INDEX(PRIMARY) ，并且根据主键索引排序，排序后的数据进行id游标的筛选。最后执行update更新时，由于我们在前面的sql中查询到的就是已经排序后的主键，因此可以对id执行范围查找。

select /*!40001 SQL_NO_CACHE */ id from tb_user_info FORCE INDEX(`PRIMARY`) where id> "1" ORDER BY id limit 1000,1;

update tb_user_info set user_img=replace(user_img,'http','https') where id >"{1}" and id <"{2}";

我们可以仅关注第一个sql，如下图所示，是buffer pool大概内容，我们可以通过这个no cache的关键字，对批量处理的数据进行强制指定不走buffer pool，不把这些冷数据影响到正常使用的缓存内容，防止效率的降低，其实mysql在一些备份的动作中。使用的数据扫描sql也会带上这个关键字，防止影响到正常的业务缓存；接着需要强制对当前查询指定的主键索引，然后进行排序，否则mysql有可能在计算io成本进行索引选择时，选择其他的索引。

使用这样的方式对数据库进行批量更新可以通过一个接口来控制速率，对于数据库主从同步、iops、内存使用率等关键属性进行观察，手动调整刷库速率。这样看是单线程阻塞的操作，其实接口也可以定义线程个数等属性，接口中根据赋予的线程个数，通过线程池并行刷数据，从而提高全表更新速率的上限，同时对速率进行控制控制。

其他问题

如果我们使用snowflake雪花算法或者自增主键来生成主键id的话，插入的记录都是根据主键id顺序插入的，如果使用uuid这种我们怎么处理？当然是业务中就预先处理了，先把入库的数据提前进行替换，进行代码上线后再进行的全量数据更新了。

结语

刷数据本来是一个异常枯燥的工作内容，但是从这次数据量较大的数据更新从而与dba同事的多次沟通后，也对mysql有了一些新的理解，包括不限于下面几个，共同学习。

binlog格式带来的大数据量更新的主从同步问题；
Mysql深分页的效率问题；
全表扫数据如何防止对buffer pool污染到我们业务正常的热点数据。

群友问题：

Q：第一个sql如果不走buffer pool，第二个更新sql也会把数据页载入到buffer pool吧？

A：读缓存和写缓存是不一样的。

Q：只要我知道min_id、max_id，只要序列差不多连续是不是可以直接分片执行，不需要一定要每次1000条执行的吧？

A：min和max这样直接分片的话，除非是自增id，否则是不能保证匀速的，后续多线程执行的任务分配也不能得到保证。

Q：写缓存指的是change buffer？这个修改应该用不了change buffer吧？

A：是，用得到。

推荐阅读点击标题可跳转

1、发现一款JSON可视化工具神器，惊艳了！

2、京东：MySQL 中的 distinct 和 group by 哪个效率更高？太刁钻！

3、开源 9 年后，词频数据库 wordfreq 宣布停止更新，创始人：网上全是垃圾，OpenAI 和谷歌要为此付出代价

http://mp.weixin.qq.com/s?__biz=MzA5ODM5MDU3MA==&mid=2650890551&idx=1&sn=b50a4c3a0fb18ad57ca7d020cca1c180

数据分析与开发

「数据分析与开发」分享数据分析与开发相关技术文章、教程、工具

最新文章

裁员了，很严重，大家做好准备吧！

为什么数据库连接很消耗资源？被问根本答不出来……

离谱！裁员裁出新高度了。。

低级失误导致 Elasticsearch 仓库 404，7万多 star 一夜清空，网友：只是手滑了？！

字节回应大模型训练被实习生攻击

取代数据岗，某司从业人员已集体转行....

千万级数据的全表 update 正确姿势

京东：MySQL 中的 distinct 和 group by 哪个效率更高？太刁钻！

发现一款JSON可视化工具神器，惊艳了！

突发！上交所系统被买崩了？股票交易量火爆挤瘫系统，IT 部门天塌了！

开源 9 年后，词频数据库 wordfreq 宣布停止更新，创始人：网上全是垃圾，OpenAI 和谷歌要为此付出代价

离谱，一边在裁员，一边在高薪招人！

又“刑”了！搞瘫公司三千多工作电脑，不给 500 万就删 IT 账户，网友：快乐的员工谁干这事儿啊

“神仙外企”、“IT养老院”前员工忆往昔：曾经是乌托邦、工资多得花不完只能买房

3个完美替代 Navicat 的工具，香！

3 年后，Elasticsearch 再次开源

IBM中国研发部彻底关闭！3分钟会议千人被裁，赔偿N+3

不要再在 pandas 循环中使用 loc/iloc 了！

拒绝背锅！39 岁失业后，我写出了一个超一万亿使用量的数据库

全体数据从业者请做好随时失业的准备！

说下 10 个高级的 SQL 查询技巧

多人同时导出 Excel 干崩服务器！新来的阿里大佬给出的解决方案太优雅了！

“列数已达上限”：史上最烂代码库的“绝命”一击

40+指标银行BI指标体系！万字详述银行实现全面自助分析

区区 1 万张表就把 MySQL 给整崩溃了

取代数据岗，某司数据从业人员已集体转行....

图解 SQL 的执行顺序，优雅

MySQL 9.0“创新版”已支持向量，为何甲骨文却“偷偷摸摸”地宣布？

OpenAI 突然收购实时分析数据公司，传统数据库厂商：快来，OpenAI 又带我们玩了

被全球最大用户弃用！曾经的数据库霸主 HBase 正在消亡

“鸭子数据库”DuckDB正式发布1.0稳定版：C++引擎代码超30万行、百万级月下载量

Pandas 常用操作图解

Tabby，一个 5 万星标的终端工具

使用sklearn高效进行数据挖掘！

离谱！一边裁员，一边高薪招人！

五分钟看懂 MySQL 编解码原理

如何使用 sklearn 优雅地进行数据挖掘？

多人同时导出 Excel 干崩服务器！新来的阿里大佬给出的解决方案太优雅了！

数据库表设计的18条军规

面试官：MySQL 上亿大表，如何深度优化？

换掉ES！Redis官方搜索引擎来了，效率大幅提升

我试了试用 SQL查 Linux日志，好用到飞起

13 秒插入 30 万条数据，批量插入正确的姿势！

AI编程语言Mojo正式开源标准库，宣称比Python快9万倍

深信服：开除 42 人、1 人被刑事立案

Redis只能做缓存？太out了！

公司新来一个技术总监：谁再在 SQL 中写 in 和 not in，直接走人！

被问懵了，加密后的数据如何进行模糊查询？

开源 Redis 的生命将就此终结？Redis 之父回应分叉浪潮：未来谁能领先，各凭本事！

微软开抢年收入上亿美元的 Redis 饭碗？开源性能遥遥领先的 Garnet：无需修改，Redis 客户端可直接接入

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

千万级数据的全表 update 正确姿势

作者：呼呼虎juejin.cn/post/6897185211340029966

前言

正文

深度分页问题

in的效率

最终版本

结语

作者：呼呼虎
juejin.cn/post/6897185211340029966