据TheRegister的最新(2024年7月21日星期日23:51 UTC,北京时间7月22日早上7:51分)报道,CrowdStrike现已臭名昭著的Falcon Sensor软件上周导致Windows计算机大规模中断。但此前有同样的Falcon Sensor还造成了RedHat Linux、Debian和Rocky Linux机器的崩溃。即使是不同的操作系统版本,或者不同的Falcon版本,这样的奔溃先例至少表明其稳定性的问题是持续存在的。这样看,这家知名的网络安全公司并没有完全向公众说实话,因为此前CrowdStrike的CEO向公众道歉中声明事故只影响了Windows,而Mac和Linux系统不受影响。
CrowdStrike的首席执行官乔治·库尔茨 (George Kurtz)确实是一个传奇人物,他见证了与McAfee类似的危机,而他正是两次危机的制造者。2010年,防病毒供应商McAfee推出了一个错误更新,导致PC陷入无限重启循环,从而导致全球各地的 PC崩溃。当时,McAfee的首席技术官正是乔治·库尔茨 (George Kurtz),而现在此人正是CrowdStrike的首席执行官。因此,库尔茨可能拥有一项独特的、几乎肯定不受欢迎的荣誉:主持了两次由于软件更新不当而导致的全球重大中断事件。
红帽公司(Red Hat)在2024年6月份警告其客户出现了一个问题,它描述为“在通过falcon-sensor进程引导5.14.0-427.13.1.el9_4.x86_64后观察到的内核恐慌”,这个问题影响了Red Hat Enterprise Linux 9.4的一些用户(正如警告所建议的,在引导内核版本5.14.0-427.13.1.el9_4.x86_64之后)。
第二个问题标题为"在cshook_network_ops_inet6_sockraw_release+0x171a9处系统崩溃",建议用户"寻求帮助以解决来自CrowdStrike Falcon Sensor/Agent安全软件套件的falcon_lsm_serviceable内核模块可能存在的问题。" 红帽还建议说,“禁用CrowdStrike Falcon Sensor/Agent软件套件……将缓解崩溃问题,并在调查该问题的同时为相关系统提供临时稳定性。” 该问题“被观察到但不限于版本6和7。”
TheRegister调查还还发现了CrowdStrike被怀疑在Debian和Rocky Linux中造成问题的报告。
Linux内核崩溃和Windows蓝屏死机大致相似。内核崩溃发生在 CrowdStrike破坏许多Windows实现的几周前,因此暗示安全供应商存在更广泛的问题。
The Register已要求CrowdStrike对Red Hat发现的问题进行评论,如果收到实质性信息,他们将更新此报道。
CrowdStrike 周日推出了一款可快速恢复其所造成的混乱的工具。该安全供应商在LinkedIn上表示:“我们与客户一起测试了一种新技术,以加速受影响系统的修复。”并补充道:“我们正在实施这项技术。我们正在取得进展。”
这一进展可能会引起人们极大兴趣,因为微软企业和操作系统安全副总裁戴维·韦斯顿 (David Weston) 周六估计,有850 台Windows机器因该问题而瘫痪。这还不到所有运行中的Windows 设备的1%,尽管受影响的很多设备显然都处于关键环境中。
微软还创建了一个可从可启动USB存储设备运行的修复工具,可在此处找到,并附有使用说明。这些说明已于周日进行了修改,要求完全擦除 USB设备,“以便在恢复过程中使用时不会出错。”
CrowdStrike布了该事件的技术细节。它还提供了如何恢复使用 BitLocker加密的Windows计算机的指南。
前微软操作系统开发人员戴维·普拉默 (David Plummer)在此分享了他对有缺陷的CrowdStrike更新的分析。
Dave推测CrowdStrike的动态定义文件可能执行了未经签名的代码,这在内核模式下是危险的,因为它可能导致系统崩溃。Dave通过查看崩溃转储报告来分析问题,发现CrowdStrike驱动程序在处理无效的动态定义文件时没有进行充分的参数验证。Dave提供了一个解决方法,即在安全模式下启动受影响的机器,并删除导致问题的CrowdStrike驱动文件。Dave指出CrowdStrike将其驱动程序标记为启动驱动程序,这意味着Windows操作系统认为它在启动时是必需的,这增加了系统崩溃的风险。
CrowdStrike造成的破坏程度尚不确定,但我们读到的报道显示,仅上周五就有超过6,800个航班被取消,一些航空公司直到周日晚上才恢复系统。
英国医学协会警告称,由于停电造成大量积压,英国医生“至少无法立即恢复正常服务”。
澳大利亚内政部长克莱尔·奥尼尔警告说,补救措施可能需要数周时间。
对之前在Linux系统上出现奔溃的问题,为什么只字不提?回避这个事实意味着什么?
这仍然是一个正在发展的故事:随着更多信息的出现,The Register将更新此项目或撰写其他内容。
参考资源
1、https://www.theregister.com/2024/07/21/crowdstrike_linux_crashes_restoration_tools/
2、https://access.redhat.com/solutions/7068083
3、https://lists.debian.org/debian-kernel/2024/04/msg00202.html
4、https://forums.rockylinux.org/t/crowdstrike-freezing-rockylinux-after-9-4-upgrade/14041/2