CrowdStrike的大规模蓝屏与华为的升级管控

2024-07-20 07:50 北京

从昨天下午开始，CrowdStrike导致的Windows蓝屏开始刷屏，后果巨大，相信很多人已经看过，不再赘述。

IT事故不可避免。但好的管理方法和严格的管理流程，可以降低事故发生的概率，并在事故发生时控制影响范围。

从这件事来看，CrowdStrike的管理流程很可能有问题。同时，也能看出，美国这些超大公司的CISO们，草包也不少。

其实，做过类似Agent软件（包括防病毒类，终端安全类等持续在主机后台运行），无不为稳定性困扰，简单说，只要部署上量，基本没有不出事的。当然，把事情搞CrowdStrike这么大的，还比较少见。

那么，Agent软件有风险，还必须用，怎么用，才能尽量减少问题发生及控制影响范围？华为，作为一个IT供应商，是乙方，同时，作为一个很大的IT企业，是甲方。两方面的经验都有。咱们从两个角度看一下，如何降低此类问题的发生。

华为云的终端软件控制方法

华为云的终端软件有两个，一个是用于安全的，一个是用于运维的，两个软件均为自研自用。其中，安全的除了自用，还给客户提供，两个软件均只支持Linux系统。

为了解决可靠性问题，防止系统风险，华为云做了许多质量保证的工作，包括

严格的代码审核。华为云本来就有Committer机制（代码经过审核后才能提交），保证代码质量，对终端软件，审核更加严格。
严格的测试。实际上华为云发展时间已经比较长，现网的操作系统比较复杂，多品牌，多内核，多版本的情况非常普遍，要保证完整覆盖，其实比较难。经常会在某些地方遇到些奇怪的操作系统导致问题，结果就是要么升级系统，要么在测试环境里增加相关操作系统的设备。部分情况下甚至添加黑名单，确保这些特殊系统就不要升级了。
按范围逐步升级。这个是关键。测试环境永远模拟不了现网。所以，现网遵循按范围逐步升级的方案。先小范围试用，稳定后，再扩大范围，逐步进行。升级有预案，且每次讨论。
随时准备回滚和卸载。所有的升级首先要准备回滚方案，在升级后设置观察期，若出现异常，随时回滚，必要时批量卸载。其实Agent类软件的回滚都不太理想，基本以卸载为主。这些软件是保证系统安全的，在系统可用和安全之间，首先选系统可用。
多人操作。所有重要的升级均要多人同时在场。涉及手工操作，命令行要提前准备讨论，现场双人操作监督。

严格按上述规则，每一次大版本的升级，都是非常挑战的任务，但管理到位，即使出事，问题范围也可以控制，能比较好的避免大批量故障的产生。当然，按墨菲定律，该发生的，总是会发生，小事故经常有，运维的大事故也有一次，导致不少领导下课，有个阿里来的高级专家，出师未捷身先死。

华为IT的升级管控

华为还有个很重要的部门要面对此类问题，就是华为IT.

华为IT管理着很大量的服务器，及二十余万台终端，一旦批量故障，对生产的影响不可估量，面对补丁，非常谨慎，他们主要是两个动作：

测试床测试。华为IT有专门的测试环境，简称测试床，上边有主要的运行环境。所有的补丁先上测试床升级，观察对业务的影响。
按范围逐步升级。在测试床测试通过后，按规定的范围，在服务端控制逐步升级，非工作时间升级，防止批量事故的出现。由于操作谨慎，我在华为15年，好象没感受到过批量事故的影响。

所以，解决此类问题没有银弹，就是细节管理，加谨慎操作。此次CrowdStrike如此大的批量事故，只能说操作极不谨慎，有理由怀疑他们的管理系统是不是出了问题。而众多大企业不验证，不做升级管理，更不敢想象他们的CISO都在干什么。

END

AI与安全

理清逻辑，找到规律，看清趋势。作者前华为云高级安全专家，现为独立顾问。

最新文章

智谱，豆包，及国外大模型的发展路线分析

都用AI了，IT的有些分工是不是可以合并？

花了VC的钱，该算帐了

通俗地说说RAG及其与大模型的结合

如何使用大模型进行数据分类分级

一文讲清楚大模型在网络空间安全里的应用

AI大模型用于Fuzzing测试

2024年融资超过1亿美元的AI初创公司

深入分析Wiz的平台和三个产品系列

Reducto 用AI解析复杂非结构化文档，种子轮840万美元

Patronus.ai,用大模型测试大模型,很好的创新方向

大模型的评估方法

目标1000亿$,Wiz看好云安全市场

Socket.dev 获4000万美元投资，供应链安全又前进一步

软件供应链安全级别定义SLSA介绍

Cyberstarts 投资模式争议

数据安全很火还是以色列很火？Cyera 1.62亿美元收购Trail Security

微软安全大模型的应用架构

问七个问题完成事件调查，微软 Security Copilot的大模型经典用例

CrowdStrike 的NG-SIEM，是如何使用AI的？

CrowdStrike的AI能力分析

云备份态势管理，产品还没出来，一年三轮融资1.27亿美元

安全公司，9个月完成两轮融资,1.1亿美元

安全合规独角兽 Drata 裁员 9%

老旧软件的漏洞处理方法，米国军方的

两高一弱问题，想根治，很难

安全公司：战略选择

网络安全产业：真正的狼，是云厂商

DevSecOps里的安全活动

网络安全产业，甲方弱，乙方菜，资本乱灌水

内生安全概念梳理

大模型发展到哪个阶段了？

软件开源新模式

主机安全软件，自研还是外购？

干掉防火墙，大家都轻松

云中凭据管理的步步进化

国外很火，国内没有的安全产品

人话版安全概念(2) 供应链安全SAST,DAST,SCA…

人话版安全概念：CWPP，CSPM与CNAPP

如何安全地使用公有云-数据安全

安全公司，种子轮能融5300万美元?

那些被收购的以色列安全公司(2)-Demisto

那些被收购的以色列安全公司(1)-Cybellum

大规模蓝屏事件，甲乙方都该关注的五个问题

华为云的软件供应链安全

CrowdStrike的大规模蓝屏与华为的升级管控

如何安全地使用公有云3--虚拟网络

Wiz凭什么卖这么贵？

H云安全组织设置及投入情况

如何安全地使用公有云2--IAM，身份认证与访问管理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉