OMG,数据库主从延迟了!!!

科技   2024-10-27 17:11   江苏  

前言

说到MySQL数据库主从延迟问题,我还是深有体会的,因为我之前经常遇到。

我之前在一家餐饮工作公司中,当时我们的系统属于订单的下游业务系统。

在中午和晚上的用餐高峰期,用户并发量还是不小的。订单系统为了保证性能和高可用,做了主从分离架构。

一个主库,两个从库。

主库主要用来写数据,从库主要是用来读数据,主库的数据会实时同步到从库。

但偶尔会出现主从延迟问题。

1 案发现场

而我们划菜系统跟订单系统之间,是通过MQ进行通信的,流程如下:

用户下单之后,订单系统会发生一条MQ消息,消息体只包含id等关键信息。

划菜系统消费这条MQ消息之后,会通过订单id,调用订单系统的订单查询接口查询出订单的详情数据。

订单查询接口的数据,是从订单的从库查询出来的。

如果一旦出现数据库主从同步延迟的问题,就可能会出现订单查询接口返回的数据不完整。

会导致划菜系统的表写入数据失败。

2 MySQL主从同步的原理

MySQL的主库会将数据库的变化,以二进制的形式,保存到磁盘上的binlog文件中。

主从同步就是将主库上的binlog文件,传输到从库上。

这个过程通常情况下是异步的。

流程图如下:

  1. 数据库主库的写操作,会将数据库的变化写入binlog文件中。
  2. 主库同时会创建一个Log dump线程,将binlog发送给从库。
  3. 从库的IO线程接收到binlog,会将数据库的更新操作写入到replay log文件中。
  4. 从库的SQL线程会读取repay log文件,并且做回放,将数据写入到从库中。

如果中间的任何一个环节出现问题,都可能会导致数据库主从延迟的问题。

3 如何解决主从延迟问题?

3.1 网络问题

网络问题,会导致binlog从主库发生到主从时,出现问题。

我们可以增加网络的带宽,由100M升级到300M。

3.2 服务器性能问题

一般情况下,主库的性能要比从库的要好。

如果高并发的写入数据,会导致产生大量的binlog数据,在从库通过replay log回放的过程会比较慢。

从而导致从库写入数据的速度。

这种情况下,可以升级从库的服务器配置,跟主库保持一致。

3.3 避免大事务问题

业务系统中的大事务,不光会导致主库写数据的速度变慢,还会导致主从数据同步时,从库写数据的速度同样变慢。

我们需要避免大事务问题,对业务代码中的大事务做排查,缩小事务的范围。

有些业务代码,可以放到事务之外的,尽可能放到事务之外执行,比如:有些查询方法。

有些可以异步执行的代码,尽可能异步执行。

3.4 MySQL版本太低

MySQL的低版本,只支持单线程同步binlog,同步速度非常慢。

这种情况下,可以升级MySQL版本到5.6以上,支持多线程同步。

3.5 从库太多

在主从同步时,如果从库太多,可能会导致同步速度变慢。

主从同步,要所有从库的数据,都同步成功了,才算真正的成功了。

针对这种情况,建议减少,从库的数量,一般不建议超过5个。

4 我们的解决方案

接下来,聊聊我们当时遇到了数据库主从延迟问题的解决方案。

我们当时先找运维升级了网络带宽。

确保在高并发时,带宽不会被打满。

然后,优化了业务代码,减少了代码中的大事务,将非核心业务剥离出来了,然后使用异步处理这一部分逻辑。

这样可以减少同一时刻的数据库写操作。

此外,增加了自动重试机制。

如果MQ消费者调用订单查询接口时,出现了数据不完整的情况。

我们的程序会将异常数据写入数据库,有专门的job自动发起重试。

经过上面的这些优化之后,我们数据库主从延迟的问题基本上被解决了。

  最后留一个问题:如果想要主从强制一致性该怎么办?

大家如何对线上问题比较感兴趣,推荐订阅一下我的技术专栏《程序员最常见的100个问题》,目前已经更新了80多篇干货文章,里面收录了很多踩坑经历,对你的职业生涯或许有些帮助,最近收到的好评挺多的。

这个专栏总结了我10年工作中,遇到过的100个非常有代表性的技术问题,非常有参考和学习价值。

Java、Spring、分布式、高并发、数据库、海量数据、线上问题什么都有。

每篇文章从发现问题、分析问题、解决问题和问题总结等多个维度,深入浅出,分享了很多技术细节,定位和排查问题思路,解决问题技巧,以及实际工作经验。

你能从中学到很多有用知识,帮你少走很多弯路。

往期推荐

4 种 MySQL 同步 ES 方案,yyds!

等了13年的微信功能要来了,但这个条件刷掉大批人

Nginx 这个赛道还是被 JavaScript 闯进来了

开发了世界上最流行的软件,竟然被人追杀,开源太可怕了...

分库分表后,如何优雅的实现高效分页查询?

程序员为保饭碗,开始“防御性编程”.....

为什么TCP需要3次握手而不是2次?

这里有最新前沿技术资讯、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦



码小辫
用堆栈的方式来学习技术,用遍历的方法来获取资料,用AI的思路考虑人生……码农的AI世界、BUG的程序员人生……hello world!
 最新文章