有“韧性”才能更“任性”，云韧性构筑业务最后一道防线

科技 2024-09-18 10:49 北京

人们的生活里，充满了很多看似理所当然的事情：只要网上下单，过几天想要的东西就会出现在楼下快递柜；饭点一到，按动几下手机很快会有热气腾腾的饭菜送上门；下班了往沙发上一躺，与三五好友开黑享受片刻欢愉……假如这一切忽然消失，世界会变成怎样？

很多时候，关键业务数据意外丢失，或某些内部或外部基础服务上一个小小的错误配置导致半个地球范围内的服务中断……所有这些不确定性，不仅让业务时刻面临风险，还会让企业声誉遭受不小的影响。

有这一句话：破坏稳态的难度越大，我们对系统行为的信心就越强。如果发现了一个弱点，那么我们就有了一个改进目标。避免在系统规模化之后被放大。

以往在本地部署和运行关键应用时，包括基础架构、底层硬件在内的很多因素可由企业自行掌控，因此发现并解决弱点还是好处理的。但当企业开始上云，通过云平台运行这些关键应用时，底层基础架构的管理和维护由云平台承担，这时又该如何解决弱点，打造更稳定、更有韧性的云基础设施和应用程序？

当不稳定正在成为常态

今年7月19日，微软公司旗下多个应用和服务出现访问延迟、功能不全甚至无法访问的问题。从美国到欧洲，再到亚洲多国，大量用户的电脑突然蓝屏，提示系统遇到问题需要重启。此次事件波及范围之广、影响之大，堪称近年来少有的全球性技术故障。

此次微软服务中断事件对全球多个行业造成了严重影响。航空公司方面，美国边疆航空公司、Allegiant航空、SunCountry航空等多家航空公司因系统问题取消了数百个航班，造成旅客滞留和行程延误。

金融领域，以色列、南非等国的银行系统受到波及，澳大利亚超市的自动收银机也出现结算异常。此外，电信、媒体、医疗等多个行业也不同程度受到影响，伦敦证券交易所的部分服务也一度中断。

在国内，虽然三大航及北京首都机场和大兴机场的国际航班运行正常，但仍有部分外企及酒店等服务业受到波及。例如，上海康莱德酒店就因系统问题影响了客户入住和退房流程。

面对全球范围内的服务中断和蓝屏问题，微软迅速做出回应，其表示，问题的根本原因在于第三方杀毒软件CrowdStrike的一次错误更新。经过事故调查，此次事件的核心技术原因在于CrowdStrike的安全软件更新与Windows系统之间的不兼容。

CrowdStrike作为全球知名的网络安全公司，其安全软件广泛应用于企业环境。然而，在7月19日的更新中，CrowdStrike推送了一个与某些Windows系统特性不兼容的更新，触发了系统级的错误，最终导致蓝屏死机。

Windows作为全球最广泛使用的桌面操作系统之一，其稳定性直接关系到数亿用户的日常工作和生活。然而，随着技术的不断发展和应用的日益复杂，系统稳定性的挑战也在不断增加。

此次事件再次提醒我们，即使是像微软这样的行业巨头，也无法完全避免技术故障的发生。因此，对于操作系统提供商而言，持续优化系统架构、提高代码质量、加强兼容性测试等工作显得尤为重要。

随着云计算技术的普及，越来越多的企业和服务依赖于云服务提供商。然而，这也带来了新的挑战。一旦云服务提供商出现服务中断或故障，将直接影响依赖其服务的企业和个人。

此次微软服务中断事件就充分展示了云计算时代面临的这一挑战。因此，云服务提供商需要加强自身的技术实力和稳定性保障能力，确保能够为用户提供持续、稳定的服务。

为什么云中会出现

临时性故障‍

任何环境、任何平台或操作系统以及任何类型的应用程序都会发生临时性故障。在本地基础架构上运行的解决方案中，应用程序及其组件的性能和可用性通常由昂贵且利用率不足的冗余硬件来保证。

虽然此方法使故障的可能性降低，但仍可能导致临时性故障，甚至因外部电源、网络问题或其他灾难情况等不可预测的事件而中断。

托管型云服务虽然可以跨多个计算节点使用共享资源、冗余、自动故障转移和动态资源分配，实现更高的整体可用性，但是这些环境的性质意味着更可能发生临时性故障，导致故障的原因有很多类型。

首先，由于云环境中的许多资源是共享的，为了有效管理这些资源，云通常会严格管控对这些资源的访问。例如，某些服务在负载上升到特定级别，或到达吞吐量比率上限时，会拒绝额外连接以便处理现有请求，并为所有现存用户维持服务性能。限制有助于为共享资源的邻居与其他租户维持服务质量。

其次，云环境使用大量商用硬件单元构建而成。云环境将负载动态分散到多个计算单元和基础架构组件上以获得更多性能，并通过自动回收或更换故障单元来提供可靠性。这种动态性意味着可能偶尔会发生临时性故障或暂时性连接失败。

第三，在应用程序与资源及其使用的服务之间，通常有多个硬件组件，包括网络基础架构，例如路由器和负载均衡器。这些附加的组件偶尔会导致额外的连接延迟或临时性连接故障。

第四，客户端与服务器之间的网络状况会不时改变，尤其是通过互联网通信时。即使在本地位置，高流量负载也可能减慢通信速度，并造成间歇性的连接故障。

云韧性如何保障

业务连续性‍

韧性作为衡量应用程序抵御及快速恢复中断能力的关键指标，涵盖应对基础设施故障、依赖服务中断、错误配置、网络问题乃至负载激增等多方面的能力。

在数智化转型的今天，云端韧性不仅是IT系统稳定性和可靠性的体现，更是企业业务连续性和市场竞争力的关键所在。一旦云服务出现中断，可能导致企业运营受阻、客户体验下降甚至数据丢失等严重后果。因此，构建云端韧性已成为企业IT战略不可或缺的一部分。

面对自然灾害、网络攻击、系统故障等不确定性因素，云端韧性显得尤为重要。作为全球领先的云计算服务提供商，亚马逊云科技以其卓越的技术实力和丰富的实践经验，在云端韧性领域树立了标杆。

亚马逊云科技大中华区解决方案架构总经理代闻表示：“亚马逊云科技去年每天稳定启动的Amazon EC2实例超过1亿，每秒API请求数高达100万亿。正是因为做对了很多事情，才有今天全球数百万客户的选择和信任。”

亚马逊云科技大中华区解决方案架构总经理代闻

亚马逊云科技云端韧性的三大支柱涵盖：韧性的基础设施，通过全球布局与冗余设计确保服务的全球可达性和高可用性；韧性系统架构，通过单元架构和数据面与控制面的分离，减少故障影响范围，提升系统可用性；卓越的运营机制，通过的DevOps文化与自动化工具，促进团队协作与持续改进，提升运维效率和响应速度。

在全球范围内，亚马逊云科技构建了庞大而高效的数据中心网络，设计了区域、可用区、数据中心的层级设计，并覆盖了主要的市场区域。亚马逊云科技在全球34个地理区域部署108个可用区，包括在中国大陆的北京和宁夏两大区域，每个区域均包含三个或更多独立电力、制冷及物理安全设施的可用区，且这些可用区之间距离适中，约100公里内，确保高可用性和低延迟。

这些基础设施不仅地理位置分布广泛，而且通过高速骨干网络相互连接，形成了一个强大的全球云计算网络。这种全球布局不仅降低了延迟、提高了数据传输效率，还为跨区域的数据备份和容灾提供了便利。

每个区域内，亚马逊云科技都设有多个可用区（AZ），每个可用区下又有数个数据中心相连。三个层级内外部均提供低延迟网络互连，并配备了独立的电力供应、冷却系统和物理安全设施。

这种多可用区的设计有效降低了单点故障的风险，即使某个可用区出现故障，其他可用区仍然能够正常运行，确保服务的连续性。此外，亚马逊云科技还提供了跨区域的数据复制和故障转移解决方案，如Amazon S3的跨区域复制功能，确保用户数据的安全性和可用性。

除了基础设施的审慎选址和分散式的布局，云服务的韧性也与其使用的技术架构有着重要的关联。越是在技术层面事先做好对风险的分散，一旦面临问题，所遭受的损失可能就会越小。

对此，亚马逊云科技提出了“控制平面”和“数据平面”分离的原则。从软件架构层面来说，云服务的控制面往往包含更多组件，因此其在概率上发生故障的可能性更大。但是对于绝大多数的云服务来说，控制面并非是日常运行所必须。

将控制面与数据面分离带来的一个好处是，假如控制面所在的机房、或者控制面软件本身出现故障，那么由于数据面依然完好、且能正常运作，此时云服务顶多只是表现为无法新建任务或无法进入后台控制UI，但正在运行的云端程序本身则完全可以不受影响。对于许多企业用户来说，这将会使得故障变得对用户而言几乎“不可察觉”，甚至不会对业务本身造成显著的负面影响。

此外，亚马逊云科技还提出了“爆炸半径”的概念，它指的是故障发生时、具体的软硬件影响范围。为了解决这一问题，亚马逊云科技采用了“单元架构”设计，将单个服务进一步切分为多个部署堆栈，每一个部署堆栈服务于一个或多个客户。这样一来，单一堆栈故障影响的范围就会更小，不再累及整个可用区或整个服务。

在运营机制方面，亚马逊云科技推行DevOps文化，强调开发与运维的紧密联系。在亚马逊云科技内部，每个服务团队都对其负责的服务拥有完整的所有权和运维责任，这种机制确保了服务的稳定性和可靠性。通过打破传统开发与运维之间的壁垒，亚马逊云科技促进了团队协作和持续改进，提高了整体运营效率。

亚马逊云科技提供了丰富的自动化工具来支持运营机制的实施，这些工具涵盖了资源部署、配置管理、性能监控、故障排查等多个方面。

例如，Amazon CloudFormation允许用户通过模板化的方式来部署和管理亚马逊云科技资源，大大简化了资源管理的复杂性；Amazon OpsWorks则提供了一套自动化运维解决方案，帮助用户实现应用的快速部署、配置和扩展；Amazon DevOps Guru利用AI和机器学习技术实现对系统的实时监控和故障预测，进一步提升了系统的韧性和稳定性。

构建云韧性是一个持续的过程，而不是一次性的努力，需要在业务需求、可靠性、成本和系统复杂度之间找到平衡点。正如亚马逊首席信息官Werner Vogels说的那样，“Everything fails all the time”（故障总在情理之中、意料之外）。

无论是对于云计算企业、还是对于志在“上云”的企业而言，故障的概率永远都不会是0%。在这个基础上，良好的基础设施、成熟的服务架构、有经验的运营团队，以及一切为客户着想的业务机制，总能帮助企业将风险化解于无形。

从云计算到AI大模型，云巨头生态革命迈出关键一步

从亚运到奥运，大型国际赛事共赴“云端”

云原生是大模型“降本增效”的解药吗？

“老三样”不管用了，网络安全要靠啥？

【科技云报道原创】

转载请注明“科技云报道”并附本文链接

http://mp.weixin.qq.com/s?__biz=MzUyNDE4NDE1Mg==&mid=2247502002&idx=1&sn=f9c6fb9ad282a4fb75dbf5a07d5c9c5c

科技云报到

云计算、网络安全、人工智能、大数据、区块链领域垂直新媒体，专注原创的企业级IT内容行家

最新文章

TA能“跑赢大盘”，靠的竟是这三点！

数字化转型，从不确定性到确定性的关键路径

云数据库“再进化”，OB Cloud如何打造云时代的数据底座？

大模型时代下，向量数据库的野望

云服务的中场战事，从AI应用开始

如何让智能客服像真人一样对话？容联七陌揭秘：多Agent大模型

从“可用”到“好用”，百度智能云如何做大模型的“超级工厂”？

以数据“价值三角”为擎，探索数据治理实践路径

有“韧性”才能更“任性”，云韧性构筑业务最后一道防线

从“N 号房”看Deepfake乱象，如何证明“我”不是我？

天地一体，电信安全织牢智能时代“安全网”

从云计算到AI大模型，云巨头生态革命迈出关键一步

大模型的“掘金卖铲”生意，AI Infra的最佳机会来了？

“大模型+机器人”，具身智能将开启“智械时代”

大模型引领技术浪潮，AI安全治理面临“大考”

算网筑基AI注智，中国联通如何讲出AI时代的“新故事”？

将技术普惠进行到底，百度智能云云原生数据库GaiaDB来啦！

产业为根大模型应用为擎，容联云推动企业营销服场景重塑

人工智能“顶流”齐聚WAIC 2024，他们都做了什么？

XDR+GPT，高校安全运营建设的最优解

推进工业新质生产力，机器人有望成为AI下一个“新引擎”？

“元年”之后，生成式AI将走向何方？

客服中心如何营销服一体化？容犀Desk上大分！

从“实验室”到“生产线”，2024年GenAI迎来行业应用拐点

大模型风起云涌，向量数据库终有“用武之地”？

AGI渐行渐近，该加速还是要踩刹车？

大模型“以厘计价”，谁能扛住价格战？

大模型落地，如何跨过数据这道坎？

何许人也？敢把大模型价格“打骨折”？

国产桌面操作系统能“平替”Windows吗？

59.5%增速拔得头筹，超云服务器逆势飞扬的秘诀

大模型加持，艺赛旗“智能超自动化平台”成色几何？

别拿「豆包」不当干粮，新晋AI顶流好猛！

从亚运到奥运，大型国际赛事共赴“云端”

走入商业化拐点，大模型“开箱即用”或突破行业困局

AIGC掀算力需求革命，边缘计算将不再“边缘”

“老三样”不管用了，网络安全要靠啥？

AI大模型疯长，存储扛住了吗？

大模型加持后，数字人“更像人”了吗？

从“奇点”到“大爆炸”，生成式AI开启“十年周期”

卷完参数卷应用，大模型落地有眉目了？

“淘金”东南亚和“一带一路”，中国数字技术加速出海

从“算力核弹”到生成式AI，新纪元还有多远？

重构销售话术和知识库，容联云找到了大模型的“钉子”

造完“大模型”，“具身智能”将引领AI下一个浪潮？

第五次工业革命，中国AI企业如何打造新质生产力？

“苟”了多年的国产操作系统，开始“逆袭”？

两会热议的数据要素，如何拥抱新技术？

大模型产业落地，安全运营能否迎来“自动驾驶”时刻？

阿里云降价，京东云跟进，谁能打赢云计算价格战？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉