当很多企业还在受困于VUCA或是BANI的时候,亚马逊云科技似乎已经找到了这类复杂性在AI时代的破解之道。在2024亚马逊云科技re:Invent全球大会的一个主题演讲中,亚马逊副总裁兼首席技术官Werner Vogels博士发表了题为“繁简之道”(The Way of Simplexity)的演讲,阐释了亚马逊云科技20年构建架构以应对复杂性的六条关键经验。Werner Vogels博士认为“复杂性”并不是问题,而“预见和管理复杂性”才是个问题。
复杂性挑战与Cynefin框架的局限
如果要用一个词来形容当下时代的特征,这个词一定会是“复杂性”。从复杂性的特点来看,其涉及大量不同元素,这些元素之间存在着众多不同的联系。这种多元性和关联性使得系统变得错综复杂,在企业所处的环境中,内部不同部门、技术、人员和业务之间相互交织,外部合作伙伴、供应商及渠道,还有各种利益相关者,形成一个庞大而复杂的网络,他们各自的工作和决策相互影响,任何一个环节的变动都可能引发连锁反应,反应的路径独特且难以预测。
这种复杂性带来了一系列严峻挑战,在认知方面常超出我们认知极限,决策者面对复杂组织架构与业务流程时难以把握内在联系,致使决策缺乏全面性与准确性。管理上,系统可理解性降低,难以确定单个元素价值功能,像大型企业 IT 系统故障时难以定位解决。此外,还引发不可预测性,系统会有自发意外行为,干预也可能产生意外影响,这使得预测系统行为结果困难,增加决策风险与不确定性。
1999年,大卫·斯诺登(David J. Snowden)等人开发了一个用来认知复杂性的框架Cynefin 框架。这是一个基于复杂性科学的领导力和决策框架。他们将领导者面临问题所处环境分为五类:简单环境,因果关系是明显的,问题有明确的解决方案;繁杂环境,因果关系依旧存在,但需要专家才能有效处理;复杂环境:会有解决方案,但通常事后才能准确理解;混乱环境先建立秩序;无序环境分解后决策。这个分析框架被许多决策者奉为圭臬。
Cynefin 框架以提供清晰情境分类体系,帮助领导者快速判断情境并采取合适行动。但这个框架的局限也非常明显,那就是它对简单环境和繁杂环境可能有效,但面对复杂性问题,它几乎是束手无策,只能等事件演进到了一个相对清晰的阶段,或者等事件尘埃落定,才能理解作用的大致逻辑。如今的环境比1999年要更加复杂,且更加动态,决策需要面对的变量,以及处理的信息量,呈现几何级数的增加——这已经超出了即便是天才级的管理者的决策能力范围。
而今,针对Cynefin 框架的这个缺陷,AI,尤其是生产式AI,提供了另外一种可能。可以看看亚马逊云科技这些年积累的经验。
亚马逊云科技的六条核心经验
Werner Vogels博士梳理了亚马逊的20年构建架构以应对复杂性的经验:
将可演化性作为要求。可演化性是应对复杂性的一种预判。亚马逊云科技在架构构建初期便深刻认识到系统随时间演变的必然性并将可演化性理念植入其中。早期,Amazon S3 (是亚马逊云科技于2006年成立后推出的首款服务)专注于基础存储功能,如可靠的数据存储、高可用性及版本控制。虽然亚马逊云科技一直在为Amazon S3增加新功能,但是客户几乎无感,正是因为亚马逊云科技通过可控演进的架构为Amazon S3不断拓展新需求,且不影响其核心功能。随着市场的动态演进,Amazon S3推出跨区域复制功能,为跨国企业全球数据管理带来了革命性突破,实现了数据的低延迟访问和高冗余性,以有力地支持了企业全球化业务拓展。
亚马逊云科技的这种策略要求企业管理者具备长远的战略眼光,不能仅仅满足于当下的业务需求。他们需要鼓励团队密切关注行业趋势和技术前沿,提前规划架构的演进路径,确保系统能够在不中断业务的情况下平滑升级。这意味着企业要在资源分配上给予一定的灵活性,支持团队对架构进行持续优化,避免因短期利益而忽视长期可演化性,从而有效应对市场和技术变革带来的复杂性挑战。
拆解复杂性为构建模块。面对日益复杂的系统,亚马逊云科技采用了将其拆分为多个功能明确、内聚性高且相互独立模块的策略。Amazon CloudWatch是实时监控亚马逊云科技资源运行的应用程序,随着系统不断扩展,Amazon CloudWatch作为亚马逊云科技关键基础服务之一,每天有成百上千亿的指标,复杂性也达到了新的高度。亚马逊云科技通过将Amazon CloudWatch拆分为一系列低耦合、高内聚的小组件,并定义良好的API接口,提供非常简单的前端服务。该服务经过一次次重写,在为客户提供新功能的同时,并不会带来中断。
清晰的API定义促进了模块间的松散耦合,使得团队能够独立工作。这种架构方式为企业带来了诸多显著益处。以作为全球设计平台的Canva为例,在从单体架构向微服务架构转变过程中,充分利用了模块化解构的优势。他们在单体架构设计时就为未来扩展精心规划,围绕关键功能设计构建模块,封装服务接口,并通过严格规则确保接口一致性。当业务增长需要扩展时,这些接口能够顺利转换为微服务的桩,实现了架构的平稳过渡。
组织与架构匹配。亚马逊云科技构建了与架构高度契合的组织架构,采用著名的“两个披萨团队” 模式组建小团队。小规模团队使成员能够深入理解系统,迅速把握系统各部分之间的关系。在面对不断增长的数据存储需求和复杂的技术挑战时,Amazon S3团队成员积极主动地探索新的存储技术和优化方案,勇于突破传统思维,挑战既有模式。
这种组织模式营造了积极创新的文化氛围。小规模团队专注于特定功能模块开发,团队成员对所负责部分有强烈归属感和责任感,能够充分发挥自身创造力,积极提出创新想法并付诸实践。管理者通过赋予团队自主权,鼓励员工像企业主人一样思考和行动,激发员工的主人翁意识。员工在这种环境下,不仅能够充分发挥自身创造力,还能积极承担责任,在复杂多变的市场环境中迅速适应变化,提升应对复杂性的能力。
组织成单元形式。亚马逊云科技认为在复杂系统中必须缩小单元的影响范围,从而将复杂系统依客户或区域等因素划分为独立单元,单元化架构使每个单元能够独立运行、测试、部署和扩展。当某个单元出现问题时,例如某个区域的存储节点发生故障,故障影响范围被有效限制在该单元内,不会扩散至整个系统,从而确保了系统整体的稳定性和可靠性。
单元化架构为管理者提供了精细化管理的有效手段。在全球电商业务场景下,依地域或业务线精准划分单元,凭借哈希算法或客户ID精准分发请求,确保请求精准抵达对应单元,依据业务负载变化灵活调控单元数量与资源配置,如遇购物节流量高峰,可智能扩充单元资源应对峰值需求;业务淡季则适当收缩,优化资源利用,保障系统在复杂多变业务场景下始终稳定、高效、可靠运行。单元化架构还为系统迭代升级提供了便利,降低了升级过程对整体业务的干扰,使得企业能够更加从容地应对复杂环境下的各种变化,保障业务的连续性和稳定性。
设计可预测系统。这么做可以减少不确定性因素对系统的干扰。Amazon S3里配置文件采用的定期拉取文件策略,有效确保系统在配置更新时不受外部事件随机影响,按照预定时间间隔获取最新配置,从而保证系统行为的稳定性和一致性。无论是在网络波动还是高并发访问等复杂情况下,Amazon S3都能为用户提供可靠的数据存储服务。
当然,这也要求在系统规划和设计阶段要充分考虑各种不确定性因素。在架构设计时,管理者需要充分考虑不确定因素,制定清晰明确的规则和流程,确保系统在不同场景下都能按照预期运行,提前识别可能影响系统可预测性的潜在风险。
使复杂性自动化。亚马逊云科技积极运用自动化技术处理系统中重复性高、规律性强且无需复杂判断的任务。自动化的健康检查系统可以实时监测存储节点状态,及时发现并处理潜在问题,确保系统稳定运行。数据备份和容量扩展依据预设规则自动执行,不仅提高了工作效率,还减少了人工干预可能导致的错误,保障了数据安全和服务可用性。
从重新定义到底层重构
和过往经常被提及的“重新定义”不同,亚马逊云科技的re:Invent不仅包含对产品或服务功能的创新,更强调从根本上对业务模式、技术架构、运营方式以及企业文化等进行全面的重塑和再造。亚马逊云科技不仅仅是提供云计算资源,通过不断创新,推出了各种先进的存储服务(Amazon S3的跨区域复制、智能分层存储)、计算服务(多种实例类型、自研芯片)以及数据库服务(Amazon Aurora的跨区域强一致性等),重新塑造了企业的IT基础设施架构和运营模式,让企业能够以全新的方式构建和运营业务系统,有效应对技术架构层面的复杂性。
相比之下,re:Invent是注重企业自身核心能力的构建和持续进化,以适应不断变化的市场需求和复杂环境。例如,在电商领域,一些企业可能通过重新定义物流配送速度(如当日达、次日达等服务)来吸引客户,但亚马逊在电商业务中除了在配送等方面进行创新外,还通过持续改进其底层技术架构、优化供应链管理系统、利用大数据分析提升推荐精准度等多方面的努力,从整体上重新发明了电商业务模式,实现了业务的全方位优化和创新发展,适应市场需求和技术发展趋势带来的复杂变化。
亚马逊云科技的re:Invent从企业战略层面出发,深入到技术研发、组织架构、企业文化等各个层面进行系统性变革。正如前面所提到的,亚马逊云科技在组织架构上采用小团队模式,鼓励团队自主决策、快速迭代,在面对复杂业务时,这种模式使团队能够专注于特定任务,迅速响应市场变化和技术需求。这一变革与AI技术相互作用,AI在团队协作、数据分析、智能决策等方面提供助力,进一步推动企业在应对复杂性时的创新——这或许将加速正在发生的管理范式变革,这种变革,受益于AI的驱动,也正在 “重塑” 一种新的行业格局。
邓勇兵、邹群英|文
AD
《哈佛商业评论》中文版 联系方式
投稿、广告、内容和商务合作
newmedia@hbrchina.org