微软全球瘫痪 11 个小时。。。不得不手动。。。重启服务器。。。

文摘   2024-11-26 11:10   河南  
微软声称:“我们采取的缓解措施并没有像预期的那样起到缓解作用,部分基础设施仍处于运行异常状态。”
2024 年 11 月 25 日,微软表示,在一起故障事件持续 11 个多小时仍未得到全面解决后,它不得不手动重启服务器。
Exchange Online 故障似乎在全球范围造成了影响,还影响了 Teams Calendar,甚至影响了一些客户的 Defender。

微软在英国时间上午 9 点 06 分首次承认了这起事件。

微软表示,在一起事件导致全球部分客户的 Exchange Online/Outlook 服务下线后,它正在“将流量路由到备用基础设施,并启动了重启目标服务器的工作”。

微软在一份内部事件报告中说:“支持邮箱和日历功能的部分基础设施并没有像预期的那样运行,造成了影响。”
微软后来指出:“我们认为最近的一次变更造成了影响。”
微软在英国时间 13 点 00 分表示,它正在“全面部署之前针对一小部分组件”测试补丁。

愤怒的用户在 X 上纷纷吐槽:“微软到底有没有可能真正学会停止对生产级服务进行未经测试的变更?嗯,它们要么未经测试,要么测试方法完全就不充分。两者都同样糟糕,同样不可原谅。”还有一些人显得很高兴,趁机跑酒吧去放松。

在  Exchange Online 故障大约四个小时后,微软表示,它正在“继续对剩余受影响的机器进行手动重启”。

但到了英国时间下午 6 点左右,微软在内部更新中承认:“我们采取的缓解措施并没有像预期的那样起到缓解作用,部分基础设施仍处于异常运行状态。我们已查明,由于处理问题,一些目标服务器重启没有成功,这些问题正在调查中。我们目前的重心是将流量路由到运行健康的基础设施,我们看到了逐渐恢复的迹象。”

随着这起事件持续了 11 个小时,微软在 X 上的@MSFT365Status 页面上发帖称:“我们的恢复工作面临延误,我们正在立即采取行动以解决问题。我们明白这次事件对贵企业造成的重大影响,正在努力尽快提供缓解方案……”

从社交平台和用户论坛的反馈来看,某些服务的性能时好时坏(一些服务遇到了Exchange Online 完全宕机的情形),而不是彻底瘫痪。
微软透露了关于该事件根本原因的进一步信息,称这起事件是由“导致了大量涌入的重试请求通过服务器路由传输的变更造成的,从而影响了服务的可用性”。
微软在其服务健康门户网站上补充道:“我们发现了一个变更导致大量涌入的重试请求通过服务器路由传输,影响了服务的可用性。为了解决这个问题,我们进行了优化,以增强基础设施的处理能力。这些措施逐步缓解了问题,我们正在密切监测服务以确保稳定性。”

“我们的团队正在积极开展后续行动,并将根据需要启动另外的工作流程,以全面解决问题。我们在努力恢复全面功能,谢谢您的耐心等待。”

Al头条
引领人工智能(AI)变革,连接技术与商业
 最新文章