支付宝宕机事件全解析,你关心的都在这里

文摘   2024-11-18 16:00   河南  

支付宝前两天宕机的事大家还记得吧?在双十一购物狂欢节当天上午,多位网友反馈支付宝出现服务异常,付款时显示 “支付失败”“交易创建失败”“服务异常” 等提示信息。还有用户遇到同一笔订单被多次扣款、余额宝提现未到账、花呗还款扣款成功但账单未清除等问题。


支付宝官方微博回应称,因系统消息库出现局部故障,导致部分用户的支付功能受到影响,不过该故障不会影响用户的资金安全。截至上午 10 点 50 分故障已经修复。



支付宝此次宕机具体原因成迷

各路网友争相猜测

目前除“系统消息库出现局部故障”外,支付宝官方没有给出更多与宕机相关的信息,这也引发了网友们的讨论。有人认为“这就是给不爱说话的大动脉裁了”,也有人认为“这只是屎山代码的必然走向”,另外有一部分网友认为“这可能跟阿里云有关”。




支付宝今年多次出现宕机故障

异地容灾、多地备份成为笑话?

此次宕机事件,支付宝官方公布的故障原因为:系统消息库出现局部故障。这个系统消息库,就是一个存储系统内各类消息的数据库或数据存储及管理体系,具有消息的接收、存储、发送、检索等功能,以便系统各模块、组件或不同用户之间进行信息传递和交互。

通常来讲,系统消息库的容灾和恢复策略主要包括以下方面: 


数据备份策略

1、全量备份:定期对系统消息库中的所有数据进行完整备份。这种备份方式能够提供最全面的数据副本,在系统遭受严重故障或数据丢失时,可以快速恢复到最近一次的全量备份状态。不过,全量备份可能会占用较多的存储空间和备份时间,通常适合在数据量相对较小或对数据恢复完整性要求极高的情况下使用,比如每周或每月进行一次全量备份。
2、增量备份:只备份自上一次备份以来发生变化的数据。与全量备份相比,增量备份的数据量较小,备份速度快,对系统资源的占用也较少。在恢复时,需要先恢复最近的一次全量备份,然后依次恢复后续的增量备份,才能将数据恢复到最新状态。适用于数据更新频繁的系统,可以每天或每小时进行一次增量备份。
3、差异备份:备份自上一次全量备份以来发生变化的数据。它结合了全量备份和增量备份的优点,在恢复时只需要先恢复最近的一次全量备份,再加上最近的一次差异备份即可。差异备份的频率可以根据数据变化的速度和对恢复时间的要求来确定,比如每隔几天进行一次差异备份。


冗余技术策略

1、硬件冗余:采用冗余的硬件设备来保障系统消息库的可用性。例如,使用多台服务器组成集群,当其中一台服务器出现故障时,其他服务器可以自动接管其工作,确保系统的正常运行。同时,对于存储设备,可以使用磁盘阵列(RAID)技术,通过将数据存储在多个磁盘上,提高数据的可靠性和可用性。
2、软件冗余:在系统中部署冗余的软件组件,如冗余的数据库实例、消息队列等。当主软件组件出现故障时,冗余的组件可以立即接管工作,保证系统的不间断运行。此外,还可以使用负载均衡技术,将用户的请求分发到多个软件实例上,提高系统的处理能力和可用性。
3、数据冗余:除了在本地存储备份数据外,还可以将数据复制到多个异地的数据中心或云存储中,以防止因本地数据中心遭受灾难而导致数据丢失。数据冗余可以采用同步复制或异步复制的方式,同步复制可以保证数据的实时一致性,但对网络带宽和系统性能的要求较高;异步复制则可以在一定程度上降低对网络和系统的影响,但可能会存在数据延迟。 


灾难恢复计划策略

1、制定详细的恢复流程:明确在发生灾难时,系统消息库的恢复步骤和顺序,包括如何启动备份系统、如何恢复数据、如何重新启动应用程序等。恢复流程应该尽可能详细,并且要经过充分的测试和验证,确保在实际操作中能够顺利执行。
2、确定恢复时间目标(RTO)和恢复点目标(RPO):RTO 是指从灾难发生到系统恢复正常运行所需要的时间,RPO 是指在灾难发生时,系统能够容忍的数据丢失量。根据系统的重要性和业务需求,确定合理的 RTO 和 RPO 目标,并在容灾和恢复策略中加以考虑。例如,对于一些关键业务系统,可能要求 RTO 在数小时以内,RPO 为零,即不允许有数据丢失。
3、建立应急响应团队:组建专门的应急响应团队,负责在灾难发生时执行恢复计划。团队成员应包括系统管理员、数据库管理员、网络管理员、安全专家等,他们需要熟悉系统的架构和恢复流程,并且具备应对突发事件的能力。同时,要定期对应急响应团队进行培训和演练,提高团队的应急响应能力。 


监控与预警策略

1、实时监控系统状态:使用监控工具对系统消息库的运行状态进行实时监测,包括服务器的性能指标(如 CPU 利用率、内存使用率、磁盘 I/O 等)、数据库的连接数、消息队列的长度等。通过实时监控,可以及时发现系统的异常情况,并采取相应的措施进行处理。
2、设置预警机制:根据监控指标设置预警阈值,当系统的某些指标超过阈值时,自动发送预警信息给相关人员。预警信息可以通过短信、邮件、即时通讯等方式发送,以便相关人员能够及时了解系统的运行状况,并采取相应的措施。 


定期测试与演练策略

1、恢复测试:定期进行系统消息库的恢复测试,验证备份数据的完整性和可用性,以及恢复流程的有效性。恢复测试可以模拟各种灾难场景,如服务器故障、数据库损坏、网络中断等,通过实际的恢复操作,发现并解决可能存在的问题。
2、演练:组织定期的演练活动,让应急响应团队成员熟悉恢复流程和操作步骤,提高团队的协作能力和应急响应速度。演练可以采用桌面演练、模拟演练或实际演练等方式,根据实际情况选择合适的演练方式。


安全策略

1、数据加密:对备份数据进行加密处理,防止数据在传输和存储过程中被窃取或篡改。加密算法应选择安全性高、性能好的算法,并定期更换密钥,以提高数据的安全性。
2、访问控制:严格控制对系统消息库和备份数据的访问权限,只有经过授权的人员才能访问和操作。可以采用身份认证、访问控制列表(ACL)等技术来实现访问控制,确保数据的安全性和保密性。

这并非支付宝首次出现宕机事件

尽管支付宝在技术和服务上持续优化,但这并非支付宝首次出现宕机事件。
2024年10月21日晚,淘宝“双11”活动开启尾款支付流程,就有不少网友在社交平台发帖称,当晚在淘宝使用支付宝支付时,订单突然取消,半夜支付宝账户又遭遇重复扣款。对此,客服回应称,是支付系统模块抖动导致部分消费者在完成下单并首次扣款后,系统自动触发了退款流程。
2024年4月9日早间,“支付宝崩了”话题也曾一度登上了微博热搜,有网友反映支付宝无法使用,蚂蚁能量收集等功能出现异常。对于本次情况,支付宝客服表示:“少量用户访问部分页面时出现了短暂性的访问不畅。这一情况已经快速恢复,用户的资金和信息安全都不受影响,各项功能也都可以正常使用。”
2021年8月14日七夕节,支付宝崩溃并登上微博热搜第一。网友反映抢红包页面进不去、拉不出界面、确认不了收货等问题。崩溃原因疑似支付宝推出七夕 “8月14日13:14抢13.14元红包” 活动,有网友调侃是程序员不想给女朋友发红包导致,还有不少网友晒出抢到的13.14元红包。
此外,2019年12月和2015年支付宝也曾崩溃过,分别是机房网络短暂抖动和光纤被挖断导致近3个小时的崩溃。
未来支付宝还会更加频繁的出现宕机故障吗?你怎么看?

*资料来自互联网,如有侵权即刻删除



在当今数字化飞速发展的时代,企业的运营高度依赖于信息技术系统。SRE 通过科学的方法和实践,能够极大地减少系统故障的发生频率,缩短故障恢复时间,确保我们的业务始终处于最佳状态。


今天就给大家分享一份SRE学习路线图,内容详细又全面,涉及到知识点的学习有层次推荐,强烈建议大家人手一份!


完整资料领取看这里

识别上方二维码

备注:SRE学习路线图

100%免费领取

程序员面试吧
面试不求人,一起Get大厂面试技巧。
 最新文章