AlwaysOn集群不稳?两小时内业务神速恢复的秘密!

文摘   2024-11-08 09:00   广东  

作者:桦仔 

10余年DBA工作经验

微信:debolop

QQ交流群:740052625

公众号:数据库实战派



上篇文章《微软憋大招:SQL Server + Copilot = 地表最强AI数据库!》里介绍过SQL Server里面自带的机器学习服务,马上有识货的群友就出来解释了机器学习服务多么好用,而且SQL Server的安全性和稳定性也是杠杠的,说实话,博主用了这么多年SQL Server,还没遇到过SQL Server数据库轻易宕机的,即使严重宕机也可以在两小时内神速恢复拉起业务,这篇文章就带大家一探究竟

unsetunset背景unsetunset

去年一个朋友遇到AlwaysOn集群发生来回切换不稳定的情况,情急之下,朋友在命令行使用命令重启WSFC集群

结果重启WSFC集群之后,非但没有好转,导致整个AG无法启动,主副本和辅助副本都处于正在解析的状态

于是这位朋友打电话向我求救,询问了一下情况和环境

环境

系统:Windows2012R2

数据库:SQL Server2014 SP2

数据库大小:10TB

三台机器,一个域控,两个数据库节点

unsetunset过程unsetunset

于是我查看了一下WSFC日志和SQL Server日志并没有找到有用信息,眼看停机时间越来越长,只好先恢复业务,但是有AG处于正在解析状态

无法做任何操作,包括:备份数据库,分离数据库,删除AG等

继续询问朋友数据库备份的情况,数据库是每天一个完备,每个小时一个日备,当时的情况是距离最后一个日备已经过了40分钟

如果还原数据库来恢复业务,那么就会造成40分钟的数据丢失

当时急中生智,可能直接拷贝出来mdf文件和ldf文件并附加能够恢复数据库,于是把两个数据库节点的SQL Server服务都停掉,然后直接把所有数据库的mdf文件和

ldf文件拷贝出来,搬迁到另一台SQL Server服务器上,这个SQL Server服务器是单机数据库,并没有做任何高可用集群

待所有数据库搬迁完毕之后,逐个数据库进行附加操作,想不到的是居然能附加成功!

所有数据库附加完毕后,创建登录帐户,修改程序连接,验证连接,验证数据,重新开启业务,业务恢复,整个过程大概用了2个小时

unsetunset后记unsetunset

一天之后,AlwaysOn集群修复好了,怎麽重新把当前的业务库从单机SQL Server的机器上重新加入到AG集群呢?

一般人会用各种办法把业务库从单机SQL Server搬迁回去AG的节点,然后重做AG

今天走起君做了一个实验,实验环境跟朋友的环境一模一样,发现,只需要把单机SQL Server上的所有业务库进行分离,

然后将AG中的所有节点的SQL Server服务停掉,然后拷贝mdf文件和ldf文件回去所有AG节点覆盖原来的数据库文件(注意做好备份)

然后启动AG中的各个节点的SQL Server服务,AG集群没有报错,一切回复正常,当然这种方法停机时间会比一般方法长

注意点:

  1. 拷贝数据库文件到单机SQL Server的时候,要选择在主副本拷贝或者同步模式的辅助副本

  2. 从单机SQL Server拷贝数据库文件到AG节点的时候,要拷贝到AG的所有节点

unsetunset总结unsetunset

从SQL Server2012开始刚推出AlwaysOn高可用集群架构开始,AlwaysOn这个数据库集群技术就需要依赖操作系统的WSFC来做故障转移,一直到SQL Server2017也是如此,SQL Server2017开始可以在Linux上搭建AlwaysOn,使用pacemaker 和corosync作为故障转移集群管理器,经过无数次迭代,现在AlwaysOn高可用集群已经非常稳定了。

对于WSFC的问题,即使是经验丰富的SQL Server DBA也未必能搞定,因为牵涉到Windows深层次的原理,有些问题还要发dump文件给微软分析让微软解决,

但是从另一个角度来看,SQL Server 的AlwaysOn高可用架构也是足够灵活的,非常紧急的情况下只需要把数据文件直接拷贝出来再附加到别的SQLServer实例就可以使用,相比起其他数据库,这样灵活性确实非常强大



参考文章

https://www.mssqltips.com/sqlservertip/5437/adding-a-database-to-an-existing-sql-server-always-on-configuration/ https://learn.microsoft.com/en-us/sql/database-engine/availability-groups/windows/availability-group-add-a-database?view=sql-server-ver16

https://www.sqlshack.com/add-sql-databases-in-an-existing-availability-group/



加入我们的微信群,与我们一起探讨数据库技术,以及SQL Server、 MySQL、PostgreSQL、MongoDB、Oracle、Redis 的相关话题。

微信群仅供学习交流使用,没有任何广告或商业活动。

数据库实战派
泰莱大学人工智能专业硕士,专注数据库技术解析,涵盖主流数据库的优化、运维与开发技巧。分享最新技术趋势、实用工具和最佳实践,助力从业者提升专业能力。
 最新文章