微软全球“蓝屏” 故障原因找到了!

文摘   科技   2024-07-19 21:38   上海  

微软在全球范围内出现了重大服务故障,多地区Windows用户遭遇“蓝屏”。
文|张洋洋
北京时间7月19日,微软在全球范围内出现了重大服务故障,导致美国大量航班停飞。几个小时后,全球多个地区的Windows用户都遇到了系统“蓝屏”崩溃问题,其中澳大利亚是重灾区。中国亦有大量Windows用户遭遇了系统崩溃,“微软蓝屏”登上了微博热搜。
微软故障最早出现在美东时间周四下午,美国廉价航空公司边疆航空(Frontier Airlines)取消了部分航班,理由是其系统受到微软重大技术故障的影响。美东时间周四晚上10点过后不久,监管机构取消了边疆航空的地面停飞令。
然而,到了周五早上,更多航空公司被卷入这起风波,美国航空、达美航空和美国联合航空均以通讯问题为由停飞了大量航班。
微软周五报告称,Azure云端服务和Microsoft 365出现服务中断,从而影响了全球的企业和用户。
Microsoft 365团队在社交平台X上表示:“我们正在调查影响用户访问各种Microsoft 365应用和服务的问题。”截至发稿,根据Microsoft 365团队在X上的反馈,多项服务的可用性有所改善,但并未完全解决。
除了美国的航空公司之外,土耳其航空、印度靛蓝航空,以及印度孟买、德国柏林和澳大利亚悉尼等地的航司或机场也遇到了技术问题。
英国伦敦证券交易所周五也表示,技术问题影响了新闻公告的发布。西日本旅客铁道公司(JR西日本)列车行驶位置信息因Windows系统故障导致无法获取。
在澳大利亚,Windows引发的问题更为广泛,从银行和媒体机构,到加油站和超市,众多Windows用户的电脑都出现了系统蓝屏问题。银行和支付系统受到影响,一些超市和加油站被迫关闭。
综合媒体和专家分析,不同于造成美国航班大面积停飞的故障,全球一些地区Windows用户遇到的蓝屏问题是另一起技术故障所致。
澳大利亚政府表示,这次大规模的网络故障似乎与全球网络安全公司Crowdstrike发版出现问题有关。
Crowdstrike为网络和IT团队提供检测和监控工具,是全球领先的终端安全公司。
Crowdstrike周五报告称,在多个地点观察到死机蓝屏,这与其Falcon Sensor产品有关,工程师已将该问题确定为发版(Content Deployment)问题,并已恢复至更新前的老版系统。
受此次事件影响,截至发稿,Crowdstrike周五美股盘前大跌超15%,微软跌超2%。



持续了半天之久的全球微软“蓝屏”事件仍在发酵。最新消息是,北京时间今日傍晚18:50分左右,微软表示,导致故障的原因已经得到解决。
今日中午开始,微软在全球范围内出现了重大服务故障,多个地区的Windows用户都遇到了系统“蓝屏”崩溃问题,全球多地的航空、银行和媒体机构等运营受到影响。
根据多个网友在社交媒体平台反馈的电脑蓝屏画面,错误代码为PAGE_FAULT_IN_NONPAGED_AREA,由驱动程序文件csagent.sys引起,该驱动文件属于美国网络安全公司Crowdstrike。

Crowdstrike是美国同名软件开发商开发的面向企业和机构的终端安全软件,主要提供端点安全防护、情报威胁和网络攻击防御等服务。
当天下午晚些时候,根据Crowdstrike官方公布的信息,确定该问题与“发版(content deployment)”有关,目前已恢复了这些更改,建议受影响的用户将电脑启动到安全模式或恢复环境,导航至C:\Windows\System32\drivers\CrowdStrike目录,找到与“C-00000291*.sys”匹配的文件并将其删除,即可正常启动电脑。
CrowdStrike首席执行官George Kurtz下午也在社交平台表示,这不是一起安全事件或网络攻击,相关问题已被识别、隔离,并已部署修复方案。
一名资深技术人员向《科创板日报》记者分析称,发版也就是Crowdstrike更新的版本出现问题,如果电脑系统要恢复正常运行,在这次问题彻底解决之前,应对措施是回退到上一个版本。由于绑定Crowdstrike软件的Windows系统,其一般是特定行业的企业采购,上述技术人员称,至于问题彻底修复时间,主要看客户的IT能力。
奇安信网络安全事件响应专家、威胁情报中心负责人汪列军表示,此次微软服务的大规模中断事件,提醒了业界和广大用户,即使是非常成熟的技术平台也可能遭遇意外故障。可见,业务稳定和网络安全不仅是技术问题,更是管理和战略问题,需全面综合考虑各种因素。
主要表现以下几点:首先是把好质量关。涉及系统稳定性的软件厂商需要对自己的软件有更严格的质量管理。否则,这种意外故障导致的业务连续性问题比恶意的网络攻击还要大。
其次是做好升级策略。在产品升级时,要控制影响范围,俗称“爆炸半径”,掌控好升级策略,确保灰度升级,控制放量节奏。逐步测试,逐步增加覆盖。
汪列军还提醒,在云计算时代,业务系统稳定性面临的挑战将比以往更加严峻,企业迫切需要加强自身安全意识,合理应对技术故障,提前做好紧急事故预案,并重新评估其业务稳定保障、灾难恢复计划以及技术依赖的风险。例如,对业务有高稳定性要求的用户,可采用多供应商互为备份,以避免出现供应商单点故障,还可进行故障应急演习,对此类场景有应对预案和回退措施。
需要强调的是,由于微软Windows在全球使用范围之广,本次“蓝屏”事件,给全球多行业都造成了不同程度的影响。
在微软报告其在线服务出现中断后,从美国到亚洲都出现不同寻常的故障。据悉,周四晚些时候,美国率先出现问题,归咎于Azure和365等微软服务的故障。
美国联合航空、美国航空和达美航空已对所有航班发出地面停飞指令。
经营伦敦证券交易所的伦敦证券交易所集团(LSE Group)说,遇到了一个全球性技术问题,导致新闻无法发布。日本使用CrowdStrike软件的Windows PC存在问题。微软部分Microsoft 365应用仍处于降级状态。
根据纳斯达克交易所发布的最新信息显示,欧洲市场和美国盘前交易正常运作,预计美国市场将正常开盘。
“微软蓝屏”事件持续发酵,微软美股盘前跌幅扩大至3%,股价刷新逾1个月低位。CrowdStrike盘前跌超20%。截至发稿,两家公司盘前股价跌幅有所收窄,CrowdStrike跌超10%,微软跌超1%。


财联社AI daily
财联社及科创板日报旗下产品——未来已来,AI前沿,独家、深度、专业!
 最新文章