某某云又挂了？删库跑路？保命的容灾恢复计划就该这么制定！！

文摘 2024-05-23 06:16 挪威

前段时间，谷歌云刚惹了个大麻烦， UniSuper基金的私有云帐户由于谷歌云的“错误配置”而被意外删除，导致50多万会员一周无法访问退休金账户。UniSuper和谷歌云首席执行官Thomas Kurian发表联合声明道歉，称事件“极其令人沮丧、极其令人失望”。虽然UniSuper最终恢复了服务，但花费这么长时间的等待，着实是令人唏嘘。‍‍‍

针对这种重大故障，本文就来探讨下，作为SRE 我们该如何制定有效的DR（Disaster Recovery）容灾恢复计划。

容灾恢复计划 - 概览

通常，DR恢复策略是为响应故障导致的业务中断而实施的一组预定义操作。这些可能是自然（地震、洪水、飓风、火灾等）或云提供商区域范围的中断。

云上业务Disaster Recovery 策略一般会混合使用“备份和还原”和“热备用” 等方法。为了加快恢复速度，云上业务的infra基础设施、数据后端和应用程序基础设施可预先配置故障转移DR区域，并设置必要的容量预留。故障转移DR区域在正常情况下可处于关闭状态。

区域示例

云厂商	区域	国家	备注
Cloud AWS US	USEast(N.Virginia)	USA	us-east-1
Cloud AWS USDR	USWest(Oregon)	USA	us-west-2
Cloud AWS EU	Europe(Frankfurt)	Germany	eu-central-1
Cloud AWS EUDR	Europe(Ireland)	Ireland	eu-west-1
Cloud AZURE US	WestUS(California)	USA	WestUS
Cloud AZURE USDR	EastUS(Virginia)	USA	EastUS

容灾恢复目标

容灾恢复计划设定了两个目标：

-RPO （恢复点目标）定义了可能因故障而丢失的最大数据事务量;

-RTO （恢复时间目标）定义在故障转移区域还原生产服务的最长时间;

示例

Product

Recovery Point Objective(RPO)

Recovery Time Objective(RTO)

云上业务

12 hours

故障决策时间点

‍‍‍‍

Time

Checkpoint

Description

Whom to warn?

故障发生

RTO开始时间点

T0 + 21 min

SLO Violation

SLA 丢失若服务还未恢复‍‍‍

SRE经理‍‍‍

<= T0 + 100 min

确认DR是否部署

决定DR恢复是否开始执行‍‍

CTO,

CPO, SVP Products,SRE or PM

T0 + 120 min

DR Deployment

DR部署启动‍

DR Decision Group

T0 + 180 min

Assessment recommendation

预估故障备份区域就绪时间，定期更新状态‍‍‍‍‍‍

<= T0 + 11hours

DR 启用‍‍‍

DR Decision group 确认启用容灾备份区域‍‍‍‍

CTO,

CPO, SVP Products,SRE or PM

故障恢复团队与决策组‍

DR团队可以由以下人员组成：

-1位容灾恢复主管

-DR恢复团队：

o1+ SRE

o1+ QA

o1+ 开发（如果需要）

-故障处理团队

o1+ SRE

o1+ 开发（如果需要）

o1+ 信息安全（如果需要）

o1+ 云/产品提供商（如果需要）

故障恢复角色定义

on-call SRE （L1）角色，负责：

·故障确认

·专注于对故障进行原因分析

·将问题上报给故障处理团队（L2） [通常自动上报（告警设置）]

故障处理团队（L2）角色，负责：

·事件是否为重大故障的资格

·决定启动容灾恢复计划

·将故障事件通知容灾恢复主管

·收集用于估算故障带来的影响情况

·继续在主要生产区域进行故障排查，目标是尽快恢复业务

需要有“容灾恢复主管”角色，负责：

·将 DR 事件上报给容灾恢复团队/更高的管理层级

·采取行动为容灾恢复提供必要的资源

·更新故障影响估算

·通知 DR 恢复组切换到容灾恢复环境（如果适用）

·协调容灾恢复环境部署、验证和切换方面的活动

·通知 DR 决策组有关故障备份环境准备情况的信息

·管理内部沟通/外部沟通

·内部跟踪已采取的行动以进行事后分析，

成立专门"DR 恢复团队"角色，该角色：

·是否部署容灾恢复环境

·在容灾恢复环境中执行数据恢复

·是否进行 DR 环境验证

·执行 DR 环境的切换

成立专门的"DR 决策组"角色，负责：

·确认将云业务运营切换到 DR 环境的决定

指定的"客户支持团队"角色，负责：

·与客户的直接沟通

·支持客户在需要时将其业务切换到 DR 环境

故障恢复流程图

（清晰图后台私信获取）

故障恢复DR决策思路

总结

‍

本文分享了云上业务在发生故障事件时的应急响应计划。该计划包括明确的恢复策略、目标、团队责任分工、沟通方案和决策流程,旨在确保业务能够有效地应对并从灾难中恢复过来,最大限度地减少对客户服务的影响。

云原生SRE

懂点K8S的SRE，关注云原生、DevOps、AI&ChatGPT等技术热点

将 VictoriaLogs 与 Grafana 集成，是时候抛弃 Loki 了！

Kubernetes学习周报（第11期）Golang在 K8S中运行的内存限制; 探索Cilium和Istio实现; 容器分层

Kubernetes学习周报（第10期）如何保持容器运行以调试; ETCD Raft 协议;Kubectl端口转发详解

6 张图带你深入了解 kube-scheduler

Prometheus 3.0 全新的 Dashboard！

Kubernetes学习周报（第9期）: CNI 和网络命名空间；网络插件基准测试；K8S备份解决方案Velero实施指南

K8s 集群巡检

Kubernetes学习周报（第8期）:K8S网络数据包管理之旅；当K8S和 Go 不能很好地协同工作时；K8S探针配置

(文末有福利)巅峰对话 | 直通未来科技前沿，与行业顶级技术专家共话数据库未来

K8s CPU Throttle 优化方案

Kubernetes学习周报（第7期）:K8S容器运行时CRI接口；Kluctl管理集群API；K8S无服务器应用监控

2024 互联网公司时薪排行榜！拼多多、小红书很顶！

Kubernetes系列（一六六）Kubernetes 的 10 大错误&如何专业地排除它们？

Kubernetes学习周报（第六期）:K8S API 实用指南；Etcd灾难恢复方案；K8S Gateway API介绍

卷不动了！去香港工作可以重启人生吗？

Kubernetes学习周报（第五期）: K8S隐藏的“OOM 终止”问题；一个K8S命令引发的悲剧；Cilium的BGP功能

LLM On Kubernetes

大厂边缘组VS小厂核心组，你怎么选？

Kubernetes学习周报（第四期）: K8S中使用 Wireshark；K8S安全清单；如何缩小Docker镜像

什么，这次的项目决定不用K8S了？那该如何上线一个容器服务？

突发，OpenAI API 惨遭封杀：被区别对待了。。

快速搭建自己的多平台镜像站

加入知识星球，共同探索云原生学习之旅！

Kubernetes学习周报（第三期）: Kubernetes 健康检查，如何使用 runc 生成容器

大厂边缘组VS小厂核心组，你怎么选？

Go项目实战之docker开发环境部署

从0开始装一套 KubeVirt 1.2.1

Kubernetes学习周报 : 一周好文推荐，K8s 网络请求分析，多集群 Kubernetes 的 7 个注意事项

Envoy Gateway 概述：使用 Gateway API 的现代 Kubernetes 入口

K8s 多集群编排平台 Karmada 入门

Kubernetes学习周报 : 一周好文推荐

数据库面试题共性问题+参考答案

某某云又挂了？删库跑路？保命的容灾恢复计划就该这么制定！！

eBPF + LLM：实现可观测性智能体的基础设施

深夜炸场，GPT-4o 震撼发布，免费试用！！

克服 Prometheus 单值数据模型的局限性：GreptimeDB 的新路径

加入知识星球，共同探索云原生学习之旅！

Rancher使用实践 - 集群管理

Rancher使用实践 - 用户管理

CoreDNS 概述及运维实践

深入解读 CNI：容器网络接口

深入解读 CNCF 推出的云原生 AI 白皮书

Kubernetes 策略管理引擎 - Kyverno

Etcd 概述及运维实践

奇安信的年终奖，出乎了所有人意料！

借助Rancher平台工具，给你的K8S集群加点安全的料

SCDS in Rancher Manager 2.7 认证，附学习笔记思维导图

记一次 K8s 故障处理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉