北京时间2024年7月19日下午,全球大量微软Windows用户在社交媒体上晒出电脑蓝屏画面,出现了大量 Windows 10电脑崩溃、显示蓝屏死机、无法重新启动的情况。“微软蓝屏”也迅速登顶微博热搜第一,成为全网热议话题。
随后,蓝屏问题被确认与第三方杀毒软件CrowdStrike有关,是由于美国网络安全公司CrowdStrike的一次软件更新错误,导致安装了其安全软件“Falcon”的Windows系统出现蓝屏崩溃。这一错误导致了美国、新西兰、澳大利亚、日本、印度、西班牙、瑞士等至少20多个国家的交通、金融、医疗、零售等行业或公共服务的业务系统受到影响,波及面广。国内由于CrowdStrike软件装机量较小,航班、高铁、银行服务等公共基础服务设施依旧如常,并未受到影响。
CrowdStrike发现后迅速采取行动以解决问题,更新了 Channel File 291 的内容以修复逻辑错误。
拓展延伸——关于“CrowdStrike”
CrowdStrike是一家专注于提供在线安全解决方案的公司,其核心产品是基于云计算的端点保护平台。作为美国的网络安全龙头企业,CrowdStrike因其出色的高级网络攻击检测和防御能力而广受赞誉。在全球500强企业中,有271家选择了CrowdStrike作为其网络安全合作伙伴。其软件不仅被微软、亚马逊AWS等顶级云服务提供商所采用,还深受全球主要银行、医疗保健和能源公司的信赖,帮助它们有效检测并阻止黑客威胁。此外,众多政府机构,包括美国顶级的网络安全机构和基础设施安全局,也都依赖CrowdStrike的软件来保障网络安全。
据市场研究机构IDC的数据显示,在规模达86亿美元的“端点检测和响应”(EDR)软件市场中,CrowdStrike占据了约18%的市场份额,紧随微软之后,位列市场前茅。
一次软件更新引发全球 IT 事故,提醒了业界和广大用户,即使是非常成熟的技术平台也可能遭遇意外故障,同时也再次凸显了“零事故”保障(业务不中断、数据不出事、合规不踩线)的重要性和必要性。
再回想2017年的永恒之蓝勒索病毒,同样导致了全球大量主机无法使用,大量政府、企业等机构无法对外提供服务。由此说明网络安全,已经和水电煤气一样,是整个社会的关键基础设施行业,无论是没有防住网络攻击,还是升级更新出现问题,都会导致重大的社会影响。
因此,数字化时代,业务系统稳定性面临的挑战将比以往更加严峻,组织迫切需要加强自身安全意识,合理应对技术故障,提前做好紧急事故预案,并重新评估其业务稳定保障、灾难恢复计划以及技术依赖的风险。例如,对业务有高稳定性要求的用户,可采用多供应商互为备份,以避免出现供应商单点故障,还可进行故障应急演习,对此类场景有应对预案和回退措施。
作为一直聚焦于灾备建设及深耕数据安全领域的技术创新型企业,数存科技十余年自研创新已经构建了基于数据安全、业务安全领域的全生态、全栈式架构的支持体系,始终致力于为各行业用户解决因人为误删误改、软硬件故障等各类情形导致的业务宕机、数据丢失问题,实现数据安全的“可知、可视、可管、可控、可溯”。
数存科技提供完整的灾难备份体系建设服务,主要通过咨询和规划、设计和实施(技术实现与业务连续计划)以及完善的运营管理。经过多年的经验积累与实践,目前已广泛应用于政府、医疗、教育、制造业、能源电力、金融等行业,并赢得了行业及用户的高度关注与认可。
优秀的容灾解决方案能力
灾难备份系统一般由数据复制系统、数据处理系统、备份网络系统等组成,数据复制是灾难备份系统最基本的要素和关键。数存灾备解决方案是一套完整的业务连续性管理方案,将任意数量的生产系统纳入数存业务连续性管理平台。实现持续数据保护、业务应急接管等一系列保护能力,保障业务持续在线。同时,提供智能化优选策略技术,对所有生产业务系统智能化评估,自动匹配接管计算资源、存储资源等。
同时,数存灾备系统均支持数据副本快速使用能力,任意时间点的历史副本均可直接使用,保障业务系统在数分钟内恢复运行。
完善的业务连续性计划
业务连续计划是为了规范灾难恢复流程,使得灾难发生后能够快速地恢复业务处理系统运行和业务运作;同时可以依据灾难恢复计划对灾难备份中心的恢复能力进行测试和演练。数存科技灾备解决方案提供便捷的灾难恢复演练方法,通过仿真平台的建立,构建故障演练网络环境,能够验证数据完整性、正确性及设备的可靠性。演练过程中,不会与原生产系统产生冲突,不影响原生产主机正常运行。
容灾资源管理
数存灾备平台引入创新性的私有云管理框架,将管理平台中的任意多个物理节点服务器的计算、存储、网络等进行资源池化管理,形成以计算资源池、存储资源池和虚拟化网络为核心的统一容灾资源池。
通过统一集群架构管理模式,将任意多个物理节点服务器的计算、存储、网络等资源池化管理,形成以计算资源池、存储资源池和虚拟化网络为核心的容灾资源池。
通过资源池化管理,提升容灾平台的可靠性、冗余性和扩展性,真正实现一体化容灾。数存灾备平台可以作为数据中心的统一管理平台,提供持续数据保护、定时备份、策略编排、业务接管、业务仿真、数据验证、数据分层存储、主备切换等功能。同时,支持统一区域管理,实现多地多域部署与统一管理。
运营管理体系
为保证灾难备份系统7×24 小时的系统可靠性,使灾难备份系统能与生产系统保持一致,运营服务水平的高低决定了灾难备份系统能否在灾难发生时成功恢复。数存灾备解决方案提供相应的运营制度和运营流程管理,协助用户完善灾难备份管理相关制度的落地执行。
— 推 荐 阅 读 —