CrowdStrike 与微软的软件更新引发的全球性故障,揭示了系统之间的韧性缺口、相互依赖性、供应商集中度和网络中的单点故障问题。
2024年7月,微软 Windows 系统在航空公司、银行和医疗保健领域的全球性故障震惊了整个行业。讽刺的是,这次由网络安全公司 CrowdStrike 发布的损坏的更新软件,原本功能正是负责保护系统的,却导致了850万台电脑的崩溃和中断。对于许多机构而言,从这次故障中恢复的过程缓慢而艰难。
多家银行的内部系统因此瘫痪,交易停滞,渠道、柜员和ATM均受到影响。比如在菲律宾,至少有五家主要银行的运营受到了影响;在印度,10家银行和非银行金融公司经历了中断。新加坡交易所的后交易系统也遭到了破坏。
这一事件带来的不仅仅是金钱上的损失,更是声誉上的打击。网络风险分析公司 CyberCube 估计,全球投保损失在4亿至15亿美元之间。云监控和保险服务公司 Parametrix 则估计,25%的《财富》500强公司受到影响,损失达54亿美元(不包括微软),其中银行业的损失为11.49亿美元。
金融机构越来越依赖多家供应商提供各种支持技术,这使得外包和供应商风险管理变得至关重要。近年来,供应商引发的故障曾多次扰乱金融机构的运营。
来源:亚洲银行家研究院
科技风险管理和韧性方面的挑战
系统之间的相互依赖性增加了复杂性,一个网络中的错误可能会迅速演变成行业范围的事件。由于一些大型科技公司不仅在行业内紧密相连,还与社会结构紧密交织,风险进一步加剧。
有鉴于此,亚洲银行家研究院对亚太地区10家领先金融机构开展了的一项调查,评估了这些机构在技术风险,尤其是 IT 风险管理中的挑战,以及在最近的故障后其战略的演变。调查揭示了技术风险和供应商管理方面的几个关键挑战,尤其是在供应链不断扩展且银行对第三方和第四方供应商的可见性有限的情况下。
40%的金融机构认为,供应商在技术开发和测试中的透明度不足是最大挑战。30%的金融机构认为,供应商测试和风险措施不充分是最具挑战性的问题,而60%的金融机构认为系统之间的相互依赖性是一个重要挑战。
确保运营的韧性以及快速管理灾难恢复和业务连续性的能力至关重要。银行在这方面进行了投资,但仍面临挑战。
调查显示,20%的金融机构认为,为建立冗余而使用多家供应商的高成本是“最具挑战性因素”,50%的金融机构则认为这是“一个重要挑战”。约60%的金融机构认为,建立内部韧性所需的高成本是“一个重要挑战”。内部技术人才的缺乏也仍然是面临的主要挑战之一。
CrowdStrike 故障的关键教训
亚洲银行家的调查显示,80%的金融机构计划建立更多的冗余和韧性,并加强灾难恢复流程;60%计划改善变更管理和治理;50%将重新评估供应商集中度和供应链威胁,并加强软件测试协议。
来源:亚洲银行家研究院
金融机构正在重新思考其科技风险管理战略。菲律宾通信银行(PBCom)首席运营官John Howard Medina评论道:“CrowdStrike事件引发了对管理供应商集中度和终端软件蔓延风险的质疑。它还为我们规划年度韧性活动提供了多个教训。”
测试、测试,再测试
此次事件突显了供应商、第三方和金融机构本身需要更强的测试和控制。任何对关键系统(如操作系统)的更改,都必须经过更严格的检查和测试。CrowdStrike 能够访问微软核心程序并进行这些更改。因此,微软现在需要重新评估其自身的控制措施和内核访问权限。
RAKBANK 执行副总裁兼信息、网络安全和防欺诈部门负责人 Tushar Vartak 表示:“客户需要了解其 Windows 环境中运行的其他内核驱动程序。此外,在关键系统上推出更新前,应该仔细审核这些更新。为了增加安全性,银行可能会考虑在发布新更新时继续使用先前版本,尽管这意味着放弃使用这些安全解决方案来保护基础设施的最新更新。”
任何软件更改都必须经过充分测试,并分阶段推出。金融机构应首先在受保护的环境中测试软件,然后再实施。
“一个关键教训是,金融机构必须首先在沙盒环境中测试任何更新,然后再发布。如果未经测试就在网络中推出,可能会引发蔓延效应。随着我们的网络中有多个这样的安全代理,容易产生自满情绪,特别是当它们是软件即服务(SaaS)云托管时,”Medina 说道。他补充道,他所在的银行有一个政策,即将所有终端更新沙盒化,并分批推出。
Vartak 对测试中使用人工智能的趋势提出了警告:“人工智能在编写代码和测试方面显著贡献,通过自动化部署管道提高了生产力。然而,手动测试对于识别自动化过程可能遗漏的业务逻辑中的漏洞仍然至关重要。”
运营韧性迫在眉睫
不仅仅是业务连续性,还包括韧性以及在任何突发事件中快速恢复的能力。金融机构必须重新评估并为任何紧急情况做好准备,确保在冗余和备份方面进行更多投资。
“在这种情况下,终端故障并不是建立韧性的地方。韧性应覆盖整个网络,银行应尽可能频繁地测试其韧性。为了建立终端韧性,企业可以规划替代访问点,以防关键或前线终端出现故障,”Medina评论道。
随着云上工作负载的增加,这一点也变得更加重要,这就要求提高韧性。Medina指出,金融机构可以根据其愿意花费的金额实施次级或三级冗余,可以与不同的云提供商一起增加冗余。他分享道,当PBCom开始在云上托管时,它也在次级地理区域进行了镜像,并在两者不可访问的情况下设置了本地备份。
监管机构已经在强调韧性和更强科技风险管理的重要性。
欧盟的《数字运营韧性法案》规定了金融机构在运营韧性方面的要求,涵盖了信息和通信技术相关事件的保护、检测、遏制、恢复和修复能力。这些包括科技风险管理、事件报告、运营韧性测试以及第三方风险监控。欧盟的金融机构需要在2025年1月前实施这些要求。
新加坡金融管理局在2023年发布了银行外包指导原则,详细说明了高级管理层在确保稳健风险管理、风险评估框架、外包和业务连续性中的责任。
扩展的供应链和日益增加的集中风险
CrowdStrike 故障事件凸显了由一个系统在多个组织中保护的终端的集中性。“金融行业必须评估其生态系统内集成的解决方案,这些解决方案依赖于第三方供应商。银行基础设施的可用性不仅取决于内部保护,还取决于第三方如何管理其基础设施。全面的供应链可见性至关重要,特别是在第四方关系方面。确保透明度并理解供应商代码的来源和开发过程对于维护安全至关重要,”Vartak 说道。
这需要更强的治理协议,以及供应商之间的快速协作以解决此类问题。他们必须严格重新评估其科技风险,识别并量化系统中的所有风险,并确保他们有更强的治理框架。
为下一次事件做好计划和准备
尽管有更强的流程和预防措施,金融机构仍然可能面临更多的故障和IT系统风险。更快的恢复和业务连续性将需要周密的应对计划。内建韧性贯穿系统,并辅以详细的恢复、事件响应和沟通策略是必不可少的。对技术备份和冗余的强大投资必须与员工培训和更强的风险流程相辅相成。