昨天是双11,然而支付宝却“崩”了几个小时,#支付宝崩了 直接冲上热搜。
事件脉络
11月11日上午,陆续有网友表示遭遇支付宝服务异常,无法付款、付款时显示“支付失败”“交易创建失败”“服务异常”等。有网友称支付宝出现余额宝提现未到账、花呗还款扣款成功但账单没清等。
有网友说:“苹果支付宝不能付款,钱还扣了”,“给我重复扣款,但是订单一直没支付成功”,“扣了我22次款,又全部还回来了,早上一共44笔消费记录”。
支付宝的在线客服也在昨天出现了服务异常。据东方财经报道,该媒体记者询问了支付宝在线客服,当输入“人工客服”时,页面一直显示“抱歉,网络不太好,请再说一遍您的问题吧。”接着尝试连接“客服小二”,页面显示“连接失败,您可以尝试重新连接。”
昨天上午11:25,支付宝官方回应故障状况,并向用户表示歉意。
故障原因
根据官方的回应,这次事故是“系统消息库出现局部故障”。
什么是系统消息库?它是一种用于存储和管理系统相关消息的数据库或数据集合。
系统消息库主要功能包括:
消息存储:能够保存各类系统消息,如系统操作记录、错误报告、事件通知等,为系统运行状况的查询和分析提供数据基础。
消息分类与检索:可按消息类型、时间、来源等对消息进行分类存储,并支持快速检索,便于用户及时找到所需消息。
消息推送与通知:可将特定消息推送给相关用户或系统模块,确保重要信息及时传达,实现系统间的协同工作。
系统消息库主要的应用场景:
监控与报警:系统出现异常时,可快速记录错误消息并及时报警,便于管理员及时处理。
审计与合规:存储系统操作记录,满足企业对信息系统审计和合规性要求,便于追踪和审查。
系统优化:通过对大量系统消息的分析,找出潜在问题和性能瓶颈,为优化提供依据。
系统消息库局部故障,一般可能是由硬件问题、软件问题、网络问题、数据问题、人为因素等原因造成的。
硬件方面:
有存储设备故障:如硬盘出现坏道、磁盘阵列中的磁盘损坏等,导致消息库部分数据无法正常读写;服务器硬件故障:如内存故障、CPU 故障等,可能使消息库的运行受到影响,引发局部故障。
软件方面,导致故障的因素一般是:
数据库管理系统漏洞:数据库软件本身存在缺陷或漏洞,可能导致消息库的部分功能异常,如查询、插入等操作失败;应用程序错误:与消息库交互的应用程序存在错误,可能导致对消息库的部分操作出现异常,影响消息的正常处理和存储。
网络方面:
网络拥堵:网络带宽不足或网络流量过大,可能导致消息库与其他系统之间的通信出现延迟或中断,使部分消息无法及时传输和处理;网络设备故障:如路由器、交换机等网络设备出现故障,可能会影响消息库的网络连接,导致局部功能受限。
数据方面:
数据不一致:由于系统异常或其他原因,导致消息库中的部分数据出现不一致的情况,影响相关功能的正常使用;数据量过大:消息库中的数据不断积累,当达到一定量时,可能会导致存储和查询等操作的性能下降,甚至出现局部故障。
可以说,支付宝架构系统经受住了多年的大促考验,其整个系统非常成熟。此次支付宝在双11出现服务中断故障,可能与应急预案准备出现纰漏有关,也不排除人为操作失误的可能。
盘点过往科技公司的技术故障
1.智联招聘“崩了”,原因是流量新高、服务器过载
2月28日,很多网友反馈,智联招聘APP崩了,首页显示系统繁忙。智联招聘官方随后在微博紧急回应,称“崩了一小会”的原因是“由于流量新高、服务器过载”。
2.Wind金融软件终端1月8日出现长时间技术故障
1月8日上午,金融圈炸了锅!万得旗下WIND金融终端今日无法正常登录,显示“所有站点登录连接失败,请联系客服解决”。从1月8日早上8时左右,所有万得数据表、终端因万得方网络故障问题未能接收新数据,无法登录。9点15分左右,Wind方面给出回应称,由于公司的主干网络线路故障,可能导致部分服务不能正常进行,施工人员正在抢修,一旦恢复,将第一时间通知大家。
3.腾讯视频出现短暂技术问题
2023年12月3日(周日),腾讯视频出现短暂技术问题,不少网友休息天都在观看影视节目,然而有网友突然发现腾讯视频出现网络故障。据网友反馈,具体问题:如首页无法加载内容、VIP用户看不了会员视频等等。
4.滴滴出现大面积故障
2023年11月27日晚间开始,陆续有网友指出:滴滴无法打车、定位不准、司机无通知接单、单车无法锁车、无法结账等等问题,并延续至28日上午,这次P0级故障,引发众多讨论。滴滴公开致歉,并且公布了这次事故的初步调查结果:起因是底层系统软件发生故障。滴滴还特别强调,本次P0级故障,并非网传的“遭受攻击”。
5.阿里云崩溃
2023年11月12日,阿里出现了一次P0级事故,因阿里云崩溃,阿里系的淘宝、钉钉、闲鱼、语雀、高德地图等应用全线崩溃,并且还影响到数以万计的客户,同时使用阿里云OSS服务的公司,也受到不同程度的影响。
6. 语雀严重故障
2023年10月23日下午开始,语雀(在线文档编辑与协同工具)发生了服务器故障,在线文档和官网目前都无法打开。当天语雀发布官方声明称,“目前因网络故障,出现无法访问的情况。此故障不会影响用户在语雀存储的数据,不会引起数据丢失,我们正在紧急恢复中,再次抱歉给你带来的损失。”
据语雀公告,这次事故是由于新的运维升级工具 bug导致的:导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。
FunTester 原创精华