在今年 8 月举办的 FCon 全球金融科技大会上,瑞再高级解决方案架构师刘晨带来了题为“瑞士再保险的低成本高杠杆 DevSecOps 之路”的专题演讲,探讨了瑞再如何在数字化转型过程中,实现理论与实践的同步推进,以低成本撬动高价值。
需求阶段,我们首先明确问题定义是否清晰,用户场景是否真实反映了用户的需求。我们还要评估问题规模,避免无谓的放大,因为支持 10 并发的系统与支持 10 万并发的系统在成本上有着天壤之别。 方案阶段,我们追问这个方案是否是解决问题的最有效方法,是否能够在现有的组织结构和人才配置下安全落地,是否有更简单的方案可行。 架构阶段,我们继续深入,用 FinOps 的理念来审视架构设计。我们需要做出关键决策,比如系统是采用云服务还是自建,以及如何降低架构的复杂度。 实施阶段,我们面临的主要问题是在产品质量、技术债务和自动化之间做出取舍。每一次选择都是在不同成本和价值之间进行权衡。 维护和下线阶段,这两个阶段最容易产生高成本、低价值甚至负价值的情况。例如,对于一个边缘系统,我们是否需要进行频繁的灾备演练?正确的答案是否定的。如果做出了错误的选择,那么就是用高成本实现了负价值。然而,如果我们能在这些阶段采用自动化运维代替手动运维,大幅降低运维成本,或者通过持续监控用户使用习惯和系统容量,合理缩容或下线使用量少的系统,那么我们实际上是在创造价值。因为这样做释放了资源,而这些资源可以被重新分配到其他更有价值的项目上。
基础层:这一层定义了企业文化、团队文化和产品管理的最佳实践。其主要目的是在思想、做事方式和价值观上,在团队之间形成对齐,确保每个成员都能理解并遵循相同的原则和标准。 核心层:以基础层为基础,核心层的核心是 DevOps 的 8 个持续实践,这些实践涵盖了从持续集成到持续监控的整个软件开发生命周期,确保开发、测试、部署和运维等各个环节都能高效协同。 度量层:最顶层的度量层主要负责量化和衡量。有一句名言:“如果你的系统是无法量化的,那么它就无法衡量。”同样的道理,我们在核心层和基础层细化出的很多指标,都会被度量层收集,形成对系统的总体评估和跟踪,确保我们能够持续改进和优化。
做正确的事。在开始任何工作之前,我们应该自问,如果这件事不做,会有什么后果?如果发现不做这件事也没有什么后果,那么我们应该果断放弃。此外,我们还要思考,团队 A 做这件事是否最合适?如果用更专业的团队 B 来做,会不会更快、更好、成本更低?因此,“做正确的事”背后包含两层含义:一是不做不必要的事;二是因地制宜,用最合适的团队去做正确的事。 用正确的方法做事。我们应该多质疑那些传统的做法,尤其是那些重复性任务的做法,因为这些做法往往存在问题。习惯成自然,而自然的东西很少被质疑和反思,很多冗长低效的流程就是这样产生的。 实现真正的敏捷。敏捷的核心不在于形式,而在于精神。不是说使用 Jiar 管理任务、每天开站会、每两周一次冲刺就是敏捷。作为敏捷教练,应该关心的是如何 引领团队发现和解决问题,而不是机械地走流程。真正的敏捷应该关注的问题包括:这个冲刺的结果是否达到了项目计划的预期进度?如果没有,原因是什么?是因为沟通不足、会议太多、代码重构花费了太多时间,还是因为某些新手开发人员的能力不足,成为了项目开发的短板?这些问题才是真正敏捷应该考虑的。 把杠杆效应最大化,我们应该减少团队之间的摩擦,消除那些冗长低效的流程,去掉合作中的障碍,使我们的杠杆变得更长更平,这样才能使我们的杠杆效应最大化。
链接。DevSecOps 链接了应用开发团队和运维团队,降低了两者之间的沟通成本。在系统层面,DevSecOps 团队链接了应用系统和云平台,使得应用系统无需关心部署方式,开发完成后可以近乎透明地部署到云平台上,这是一个非常大的进步。 过滤。在金融企业中,安全合规要求繁多且不断变化,这种持续的波动对应用开发产生很大影响。DevSecOps 层的出现能够将这种影响完全限制在这一层,让应用团队能够专注于业务开发。 放大。我们构建的 CI/CD 自动化流水线和许多工具,将点的价值扩展到线和面,使整个应用的开发效率和产品上线速度提升了数倍甚至一个量级。 缩小。自动化永远做不到 100%,那么那些不得不由人去做的事情,如何将其成本降到最低呢?我们的思路是自服务,采用类似银行柜台机的方式,让我们的业务用户能够通过自助形式以最简单的方式提交手动任务。
软件系统的重要性等级: 我们将其划分为五个等级,等级越低,表示系统越重要。 服务水平协议(SLA),我们特别关注两个指标:恢复时间目标(RTO)和恢复点目标(RPO)。RTO 指的是在灾难发生时,系统能够承受的最大宕机时间,而 RPO 是指系统能够容忍的数据丢失的时间窗口,这个时间窗口可能是一天、一小时还是一分钟。 灾备恢复模型:包括备份恢复、多站点活跃、温备和信号灯等不同的模型。 灾备基础设施的构建方式:我们需要决定是采用全自动、手动还是混合模式来构建我们的灾备基础设施。 灾备演练的频率:这决定了我们是每年、每半年还是每个季度进行一次灾备演练。
10 月 18 日 -19 日,QCon 全球软件开发大会将在上海举办。从云原生工程、架构、线上可靠性、大前端、技术管理等经典内容,到 AI Agent、AI Infra、RAG 等大热的 AI 话题,60+ 资深专家共聚一堂,深度剖析相关落地实践案例,共话前沿技术趋势。大会火热报名中,详情可联系票务经理 17310043226 咨询。
关注「InfoQ数字化经纬」公众号,回复「案例」领取《行知数字中国数字化转型案例集锦》。 关注「InfoQ数字化经纬」公众号,回复「进群」加入数字化读者群交流。