ACK One多集群网关：实现高效容灾方案

文摘 2025-01-07 17:02 浙江

概述

从业务架构上来说，企业的业务系统自上而下通常分为接入层、应用层和数据层。

• 接入层：流量入口，负责接收流量，根据路由转发规则将流量转发到后端应用层。

• 应用层：应用服务，根据请求对数据进行处理，并返回给上游。

• 数据层：数据存储服务，为应用层提供数据和存储数据。

为了实现整个业务容灾，需对上述每一层实施相应的容灾处理措施。

• 接入层：其自身支持同城跨AZ高可用。并且通过对应用层路由管控实现同城多活和跨地域容灾。

• 应用层：应用层本身需要多集群跨AZ/多地域部署。

• 数据层：数据层容灾和数据同步。

所以本文主要讨论如何通过ACK One多集群网关[1]实现应用层应用的公共云同城多活容灾、混合云同城多活容灾、跨地域容灾。

ACK One多集群网关

分布式云容器平台ACK One[2]是阿里云面向混合云、多集群、分布式计算、容灾等场景推出的企业级分布式云容器平台，提供多集群统一管理能力。通过ACK One注册集群[3]将您的其他公共云厂商和IDC K8s集群接入到阿里云容器服务ACK控制台，并由舰队对这些注册集群以及云上的ACK、ACK Edge集群进行多集群统一的应用分发、流量管理、可观测运维管理、安全管理等。

ACK One多集群网关是阿里云面向混合云、多集群的应用容灾和南北向流量管理推出的产品能力，帮助您快速实现混合云、多集群的应用同城/异地容灾系统，及多集群流量的管理。

ACK One多集群网关，通过在舰队中托管多集群Ingress Controller，统一处理多集群Ingress来提供能力。主要流程如下：

• 创建舰队；

• 关联集群：将ACK集群或注册集群关联到舰队，统一管理；

• 创建多集群网关：在舰队集群中通过AlbConfig/MseIngressConfig创建ALB多集群网关或MSE多集群网关；

• 创建Ingress：在舰队中创建Ingress，绑定子集群中Service，定义到子集群Service的转发规则/路由；

• 使用多集群网关访问服务：通过网关的域名或者IP，访问到子集群Service。

ACK One多集群网关具有以下优势：

• 网关全托管，免运维。

• 减少网关数量，降低成本。地域级别的多集群Global Ingress，统一管理多集群南北七层流量。

• 简化多集群流量管理，在舰队中统一完成多个集群Ingress规则设置，无需单独操作每个子集群。

• 多集群网关自身跨AZ高可用。

• 毫秒级/秒级故障迁移，在某个集群后端发生故障时，多集群网关能够平滑地将流量迁移至其他后端。

01. 公共云同城多活容灾

同城跨AZ多活容灾是客户更多考虑使用的方案。因为，相比于同城主备容灾方案，同城多活方案具有以下优势：

• 资源利用率更高、成本更低。

• 更高的服务质量和更强的容错能力：服务副本增多，提升了服务质量、响应速度等，更好地应用流量高峰；出现故障时不会因切换导致服务中断。并且，也可以支持在不中断服务的情况下进行系统升级或维护。

• 扩展能力更强：某可用区资源不足时，可以快速在其他有资源的可用区扩展。

ACK One支持通过ALB多集群网关和MSE多集群网关来快速实现同城跨AZ多活容灾系统，架构如下：

1. 在一个地域两个不同可用区（AZ 1和AZ 2）中，分别创建一个ACK集群：Cluster 1和Cluster 2；

2. 通过ACK One的GitOps能力将服务分发到已创建的Cluster 1和Cluster 2集群中；

3. 通过ACK One 舰队创建多集群网关；

4. 多集群网关创建成功后，在舰队中，通过创建Ingress来实现同城跨AZ容灾能力，当某集群异常时，流量将自动重新路由到另一个健康集群中。同时，多集群网关提供了诸多能力：

a. 按照多集群总副本数负载均衡转发流量

b. 可按指定权重负载均衡转发流量

c. 基于http header转发，便于灰度发布

d. 应用或集群故障时毫秒级/秒级自动切流

e. 等等

5. RDS数据同步需要依赖中间件自身能力。

与基于DNS的容灾方案对比

基于ACK One多集群网关来实现同城跨AZ多活容灾系统，相比于传统的基于DNS流量分发的多活容灾方案，具有以下优势：

• 地域级的全局负载均衡，统一管理多集群南北七层流量：减少网关数量，降低费用成本；DNS方案无法支持某些跨集群的路由能力，如QUIC的0-RTT特性需要会话保持。

• 毫秒级/秒级故障转移，无DNS客户端缓存问题：

- 多集群网关方案，某集群服务发生故障，可毫秒级/秒级重新路由流量至其他集群，故障转移相比DNS方案更平滑；

- DNS方案，故障时切换IP，通常会因客户端缓存造成服务短暂（分钟级别）不可用。为了解决缓存问题，通常采用减少TTL值的方式，这又会带来大量的DNS访问请求，产生更高使用成本。

• 简化管理：在一个控制面（舰队）管理Ingress配置和服务，更容易扩展和维护服务/应用，降低管理成本。

• 集群升级或重建时透明的集群迁移：通过规则将流量迁移到健康集群，升级或重建完成后再转发回来。

常见的基于DNS的同城跨AZ多活容灾方案架构，如下图所示：

02. 混合云同城多活容灾

ACK One还支持通过ALB多集群网关和MSE多集群网关来实现混合云/多云的同城跨AZ多活容灾系统。让您可以在阿里云上快速为云下IDC服务构建容灾能力，并可以通过云上弹性能力快速提升业务的服务能力。

该方案有以下网络前提：

• 需要打通云上VPC和IDC集群的Node CIDR和Pod CIDR的通信链路。

• 若IDC集群是Overlay容器网络：

- ALB多集群网关，需要在IDC集群使用NodePort type Service实现。

- MSE多集群网关，目前没有成熟的产品化容器网络打通方案（VPC <-> Pod CIDR），需要路由到一个固定节点，有单点故障和瓶颈的风险。

以下是基于ACK One ALB多集群网关的混合云同城跨AZ多活容灾系统架构（MSE网关架构一致）：

1. 将IDC或第三方公共云Kubernetes集群通过注册集群（AZ2）注册到ACK，并通过专线打通云上云下网络；

2. 在注册集群相同Region和VPC下，创建ACK One 舰队，并在AZ1创建一个ACK集群；

3. 通过ACK One GitOps将服务分发到已创建的Cluster 1和IDC Cluster中；

4. 通过ACK One舰队创建多集群网关；

5. 多集群网关创建成功后，在舰队中，通过创建Ingress来实现同城跨AZ容灾能力，当某集群异常时，流量将自动重新路由到另一个健康集群中；

6. MySQL/RDS数据同步需要依赖中间件自身能力。

03. 异地容灾

异地容灾可以防范地域性质的灾难损害，但同时具有更高的延迟，以及更高的费用和维护成本。基于ACK One多集群网关的异地容灾系统和基于DNS的异地容灾系统在异地容灾场景各有适用场景，下面介绍二者的架构和各自的适用场景。

基于ACK One多集群网关的异地容灾方案

ACK One支持通过ALB多集群网关来快速实现异地容灾系统，该方案适用场景主要是：

• 跨地域高可用、本地域资源不足。（比如在AI热潮的当下，GPU资源异常紧缺）

• 客户端应用对时延不十分敏感，但需要更强的多集群流量管理能力。

架构如下：

1. 在2个Region各创建一个ACK集群，并在Region 1创建ACK One舰队和ALB多集群网关，在Cluster 2中安装ALB Ingres Controller，创建出ALB 2，用于冷备；

2. 并通过GTM对接Region 1的ALB多集群网关和Region 2的ALB实例，以实现Region 1宕后，可以切换到Region 2；

3. 在舰队中，通过多集群网关实现跨Region的两个集群灵活的7层流量转发（如QUIC的0-RTT、基于header转发等），并能提供Region 2宕后，自动fallback到Cluster 1中；

4. Cluster 1和Cluster 2通过CEN或VPC对等连接等方式打通后，跨地域流量通过专线转发，保证可靠性；

5. RDS数据同步需要依赖中间件自身能力。

基于ACK One多集群网关的异地容灾系统方案，具有以下优势：

• 更强的多集群路由转发能力：如基于内容的高级路由、比GTM更灵活的health check，适应更复杂的应用场景。

• 统一多集群流量管理入口：在一个控制面（舰队）管理Ingress配置和服务，更容易扩展和维护服务/应用，降低管理成本。

• 缓解DNS客户端缓存问题：从上述异常场景容灾情况可以看出，相较而言，更高频率出现的服务异常，甚至是集群异常，无需DNS切换IP，可毫秒级/秒级故障转移。

从上面的架构可以看出完整的容灾能力由ALB多集群网关和GTM共同实现，ALB多集群网关可以统一管理多集群的流量路由和转发。

• 对于Region 1的集群宕、服务出现异常，和Region 2宕，ALB多集群网关都会自动切流到健康集群，无需切换DNS IP；

• 仅对Region 1宕或者Region 1 ALB服务宕，才会由GTM基于health-check切换IP。

基于DNS的异地容灾方案

基于DNS的异地容灾方案，优势在于全局流量管理GTM[4]是全球级别的，适用于就近访问等场景。

基于DNS的异地容灾方案，架构如下图所示：

1. 在两个地域，分别创建一个ACK集群：Cluster 1和Cluster 2。并且每个集群一个ALB/NLB/SLB；

2. 通过ACK One的GitOps能力将服务分发到已创建的Cluster 1和Cluster 2集群中；

3. 使用GTM对接两个ACK集群中代理后端服务的ALB/NLB/SLB实例上，实现同城异地容灾能力，当某集群异常时，GTM通过自动切换IP，实现将流量重新路由到另一个健康集群中；

4. RDS数据同步需要依赖中间件自身能力。

总结

综上所述，ACK One多集群网关可以帮助您快速构建同城跨AZ多活容灾系统、混合云同城跨AZ多活容灾系统，以及异地容灾系统，并且让您的故障转移更加平滑（毫秒级/秒级），方便您管理和扩展多集群服务，降低管理成本和费用成本等。更多内容可详见ACK One多集群网关[1]和ACK One多集群容灾最佳实践[5]。

欢迎加入ACK One 客户交流钉钉群，与我们一同交流。（钉钉群号：35688562）

相关链接：

[1] ACK One多集群网关

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/multi-cluster-gateway/

[2] 分布式云容器平台ACK One

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/product-overview/ack-one-overview

[3] ACK One注册集群

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/registered-clusters/

[4] 全局流量管理GTM

https://help.aliyun.com/zh/dns/global-traffic-management/

[5] ACK One多集群容灾最佳实践

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/use-cases/multi-cluster-disaster-tolerance/

/ END /

阿里云基础设施

为了永不停机的计算服务

最新文章

面对热点事件，阿里云如何通过云上弹性与容器服务帮助客户应对流量洪峰

阿里云正式成为FinOps基金会顶级会员

OpenYurt v1.6正式发布 | 提供节点级别的流量复用能力

阿里云基础设施网络2024年创新总结

基于Knative的LLM推理场景弹性伸缩方案

ACK 容器监控存储全面更新：让您的应用运行更稳定、更透明

使用ACK Edge统一管理多地域的ECS资源

ASM数据面代理扩展能力综述

服务网格容灾系列场景（三）：使用服务网格应对服务级故障容灾

对话｜企业如何构建更完善的容器供应链安全防护体系

服务网格容灾系列场景（二）：使用服务网格应对可用区级故障容灾

ACK One多集群网关：实现高效容灾方案

服务网格容灾系列场景（一）：使用服务网格应对地域级故障容灾

使用阿里云服务网格高效管理LLM流量：（二）流量可观测

阿里云容器服务&云安全中心团队荣获信通院“云原生安全标杆案例”奖

云上杂“弹” - 游戏服云上怎么弹

Serverless Argo Workflows大规模计算工作流平台荣获信通院“云原生技术创新标杆案例”

阿里云容器服务AI助手2.0 - 新一代容器智能运维能力

「AI实践派」产品生态伙伴Zilliz联合活动

面向Workload级别的灵活可配置Serverless弹性解决方案

云工开物：阿里云弹性计算走进高校第2期，与北京大学研一学生共探AI时代下的应用创新

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

什么是抢占式实例SPOT？

自主和开放并举探索下一代阿里云AI基础设施固件创新

云超算技术跃进，阿里云牵头制定我国首个云超算国家标准

AIGC浪潮涌入高校，首届【弹性计算进校园】研讨会顺利举行

阿里云2024 KCD雅加达之旅精彩回顾

解密开源Serverless容器框架：事件驱动篇

云上金融量化策略回测方案与最佳实践

ECS购买页太复杂！能不能来个简单的？

ACK Edge与IDC：高效容器网络通信新突破

Moka：ACS 容器计算服务助力CI/CD场景提效降本 70%

抢先报名！加速软件上云之旅

如何基于服务网格构建高可用架构

结合阿里云ASM泳道与Kruise Rollout进行全链路灰度发布

荣获2024年AI Cloud Native典型案例，阿里云容器产品技术能力获认可

ALink System亮相CCF中国存储大会凝聚Scale Up互连共识

官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake

预告 | 阿里云邀您参加2024中国生成式AI大会上海站，马上报名

阿里云研发副总裁蔡德忠受邀参加乌镇峰会，畅谈AI与下一代互联网

阿里云基于云原生的大规模云边协同关键技术及应用荣获浙江省科学技术进步一等奖

系统性能提升40%！阿里云助力朗镜科技AI商品识别平台实现云原生架构升级

K8s业务迁移最佳实践: 灵活管理资源备份与调整策略，实现高效简便的应用恢复

使用Kmesh作为阿里云服务网格ASM Sidecarless模式数据面

2024 CCF中国网络大会专题论坛丨下一代超大规模高性能公共云网络精彩回顾

喜报！阿里云荣获2024数据存储风云榜两大金奖

从UALink近期发展再看GPU Scale Up的互连方向

阿里云吴结生：高性能计算持续创新，响应数据+AI时代的多元化负载需求

阿里云引领智算集群网络架构的新一轮变革

通过阿里云计算巢部署NVIDIA NIM，加速企业大语言模型SaaS化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉