1.全站加速 DCDN 和边缘计算
2.全站加速DCDN 为什么选择容器
|
| |
|
| |
|
|
异构管理:通过容器化可以解决不同机型、不同资源类型带来的异构管理问题
活动突发:活动突发资源扩容周期长、效率低,通过容器化弹性伸缩解决活动带来的突发资源问题
业务稳定:混部资源抢占,故障域耦合时,可以通过容器做业务拆分,实现资源和调度域隔离
成本优化:通过小规格容器化,可以提升资源的售卖率和碎片化资源的利用率
3.技术挑战和解决方案
通过 Kata+富容器,来实现 systemd 管理、ssh 登陆,同时具备安全隔离、协议栈优化能力;
通过 Ceph 和 Spdk ,让存储支持本地盘/云盘能力;
通过虚拟网卡,支持独立 PIP,具备出公网能力;
通过 LB4 EIP 透传能力,使全站加速 DCDN 具备 LB4 多 EIP 服务能力等。
3.1通过富容器+ kata ,实现独立协议栈隔离
3.2 EIP 直通模式兼容 LB 转发模式,解决流冲突问题
3.3调度亲和性,解决 CPU 负载不均问题
3.4三大举措提升稳定性
故障迁移和熔断:支持集群内宿主机故障时 pod 自动迁移,同时为防止大规模删除容器,需要具备中心熔断机制,容器平台通过引入"风控策略",可以保证一定时间范围不允许删除超过一定节点的 Pod,从而避免大规模故障发生,同时在边缘 k8s 异常或者通信失败的时候,边缘集群内具备边缘自治能力,保证现有业务稳定运行。
故障恢复:如果熔断异常,出现大规模删除容器,那就需要具备快速恢复的能力,容器实例通过建立快照能力,并且通过快速恢复工具,可以在真实发生大规模删除 Pod 时,实现对全网删除 Pod 的快速恢复。
调度联动:结合全站加速 DCDN 侧质量探测结果,全站加速DCDN 调度系统会自动感知节点健康状态,异常情况下会自动将节点主动摘除。
4.全站加速 DCDN 规模容器化实践效果
提升资源配置效率:容器的弹性调度能力有效应对了春节活动、双 11 和双 12 等特殊时期带来的突发资源问题,显著提升了资源配置的效率,将从前以月为单位的资源筹备时间缩短至一周以内。
规避系统性风险:通过全站加速 DCDN 容器化,隔离了故障域,规避了一次大规模系统性风险以及减少了 90% 的资源争抢问题。
提升上线效率:容器化部署后,通过镜像打包,节点的上线效率提升了 80% 以上。
提升资源售卖率:通过小规格容器提升碎片化资源利用率,边缘资源售卖率提升 11%。
5.未来展望
边缘统一调度:通过统一调度,对算力,存储,以及带宽统一分配,实时感知全站加速 DCDN 算力和带宽使用情况,做到算力弹性流动调度,提升资源使用率。
安全防护:依托边缘大规模分布式资源,提升 WAF ,抗 DDoS 攻击能力,通过流量检测、流量清洗及黑洞等手动方式,远源拦截,保障源站稳定性。
算力卸载:通过智能网卡,ssl 卸载等能力,卸载算力,提升算力综合处理能力。
全球网络互联:通过全球网络互联,云边专用网络,提升内部管理通道,数据回传稳定性,提升内部网络加速性能。
END
▼ 关注「字节跳动边缘云技术团队」▼
获取更多技术干货