第一部分,边缘云当前的业务状态以及历史发展路径;
第二部分,边缘场景存在的技术挑战和解决思路;
第三部分,在技术挑战、业务发展的背景下,火山引擎边缘云的思考与实践,也就是边缘云原生操作系统;
第四部分,云原生操作系统之上的应用,即边缘云的产品矩阵和行业应用;
最后,回归技术主线,畅想边缘云技术架构的未来。
1.边缘云行业现状和发展历程
第一,越来越多的本地化应用。最近 Meta 发布了新的 AR 智能眼镜,APPLE 也有 Vision Pro ,这些都是典型的 AR/VR 应用的场景,随着更多工业制造、网络直播、智慧园区、自动驾驶、云游戏等本地化应用的崛起,促使计算资源从中心走到边缘。
第二,基础设施的演变。正因为应用就近部署的需求,基础设施正在从中心向边缘靠拢,形成靠近客户的三种边缘基础设施形态:现场边缘、近场边缘和云边缘,这三种基础设施分别提供不同的延时保证和资源,现场边缘的延时是 1-5 ms,近场边缘是 5-20 ms,云边缘是 20-40 ms。
第三,算力和网络的结合。有了靠近用户的基础设施、广泛分布的网络和算力,企业因此产生了对最优算力访问链路的需求,期望能找到靠近客户的算力和靠近算力的存储,这就是算力和网络的融合。通过算网融合,可以为企业提供更好的云服务。
终端资源:提供实时的服务响应,具备友好的硬件形态,可以是用户使用的手机、平板、车机等,能为应用提供最好的呈现,同时还具备通用的辅助算力;
中心资源:提供弹性资源池,可以方便地进行数据计算和聚合,支持敏捷的开发流程;
边缘资源:提供就近的接入服务,覆盖广域的城市和运营商,具备对整个网络的精确感知能力,可以快速找到就近的算力和资源。
阿卡迈在 1998 年首次提出了 CDN 的概念,从那之后,内容分发网络成为了 APP 、网站、客户端背后的基础服务,通过就近缓存内容,提升了数据的访问效率。
到了 2002 年,微软和 IBM 与阿卡迈合作,将 .Net 和 J2EE 服务部署到了CDN PoP 节点,这形成了最早的边缘计算的概念。
到 2009 年,CMU 提出了 Cloudlet 的概念,将 VM 与边缘基础设施结合,这就有了在边缘提供 IaaS 服务的雏形,到 2012 年,我们迎来了万物互联的物联网时代,也因此产生了处理海量数据的需求,于是雾计算、MEC 的概念相继出现,从那时到现在,我们迎来了云计算和边缘的结合。边缘云,在端和中心云之间,提供弹性、轻量、低延时的云服务。
2.边缘场景的技术挑战
挑战一:海量节点管控。从宏观角度来看,要提供就近的算力和网络就要从地理位置上接近客户的业务,这意味着我们面对的是广域分布的物理资源。火山引擎边缘云在全球有 2500 多个节点,如何高效管理节点、如何调度节点上的异构资源,是关键挑战之一;
挑战二:小型化约束。从节点本身来看,与传统中心云不同,单个边缘节点的资源是有限的,这就对我们管控的资源开销提出了要求,如何做到小型化、轻量化,如何做到最大限度售卖节点资源;
挑战三:弱网环境。从网络环境上看,大多数边缘节点之间,以及节点和中心机房的连接,都采用公网通信,这导致了网络环境的问题,可能存在网络中断、连接不稳定的情况,也存在安全上的隐患;
挑战四:复合场景。从业务维度来看的,当前面向的边缘业务场景比较复杂,需要技术具备较高灵活性,需要提供多形态算力支撑,包括虚拟机、裸金属、容器等等。还需要考虑不同硬件环境,比如 x86 arm,异构计算需要 GPU ,需要算力的 ASIC 。
2.1管理广域分布的边缘算力资源
2.2在节点内实现资源的最大化利用
第一点是按需混部。每个节点可以按照业务需求发布算力和对应服务,例如不需要云盘就不用部署云盘,按需混部服务是做到小型化的路径之一。混部又包含两点,第一是算力的混部,虚拟机、容器实例、函数这些算力本身就是混部的,混合部署在同样的资源池上。其次是服务的混部,例如本地盘、云盘这类存储服务,VPC、LB 等网元服务,这些服务按照节点的需求混合部署,共享同个物理资源。算力和服务混部的底层依赖统一资源池和统一调度,也需要关联的资源隔离机制和对应系统实现。
第二点是在管控层面实现极致的轻量化。这又有两个要点,第一点相对传统,是做边缘管控组件的轻量化,降低组件数量和组件的资源开销。另一点更重要,就是要做管控分层,把非必要逻辑从边缘抽离出来,形成中心/区域 + 边缘的多级管控形态,边缘仅保留数据缓存和基础能力,通过这种方式来大幅降低边缘开销。
2.3弱网环境下的服务连续性
第一是边缘自治。边缘自治意味在网络抖动/中断的情况下边缘集群仍能继续维持集群内算力服务运行。;
第二是系统化的数据传输保障方案。怎么保证云边服务之间、算力应用之间的网络通信稳定、可靠?这就需要系统化的解决方案 - 云边通道。云边通道在高可用维度提供在机房故障,网络链路故障等场景下的数据传输能力,同时也提供了鉴权和加解密能力保障了公网传输的数据安全。
2.4边缘业务场景的多形态算力需求
第一个阶段是面向资源的传统虚拟化,主要方式是通过 hypervisor 和上层管控实现资源隔离,这里比较有代表性的是基于 OpenStack 的传统 IaaS 架构;
第二个阶段是随着 K8s 兴起的云原生技术,借助云原生可以降低运维复杂度,实现面向应用的统一调度、统一编排,但是依然没法彻底应对上述边缘场景的技术挑战,这也就引出了架构演进的第三个阶段;
第三个阶段是面向边缘场景和应用,通过将云原生与边缘特性结合,形成边缘独有的技术方案,也就是边缘原生,在火山引擎的落地实践,就是我们的边缘云原生操作系统。
3.边缘云原生操作系统
统一资源纳管&调度:纳管全球边缘云硬件资源,为边缘应用提供统一资源调度支撑
算力&服务按需混部:按需混部单节点计算实例和关联服务,降低节点资源开销,提高服务灵活性
云边分层轻量化管控:部分上移边缘管控逻辑,在保证自治能力的基础上最大化节点可售卖资源
云边&边边协同支持:基于全球云网基础设施和云边、边边数据通道,提供可靠数据传输支持
编排中心:面向应用、服务编排需求,编排中心提供集群编排、多应用编排、中间件编排、多集群管理等核心能力,基于这些能力,实现服务的按需混部和对客户交付侧的支撑;
调度中心:调度中心通过在线、离线调度,实现对异构资源的池化和统一调配,保障资源交付效率及资源交付稳定性,支撑持续资源运营、治理;
可观测中心:要掌控边缘离散分布的算力资源和支撑服务状态,系统提供的可观测能力就非常关键,可观测中心支持资源、服务、产品观测,提供一站式观测平台,支撑对外可观测产品和内部系统运维及质量保障;
运维中心:基于编排中心、可观测中心能力,运维中心统一支撑云原生操作系统自身组件和上层算力应用日常运维和稳定性保障;
云边中间件:提供中间件统一接入平台,具备云边通道等边缘场景核心能力,支撑云边、边边场景编排、运维、服务、数据多维度协同;
边缘轻量管控:指算力产品底层依赖的计算、存储、网络管控,为了实现边缘的轻量化,实现了两个层面的工作,一个是分层管控,把业务逻辑、数据处理、数据持久化上移,另一个是精简管控逻辑本身;
边缘云原生套件:这部分是定制的云原生组件,包含基础的 K8s、ETCD 等服务,定制化的工作一是保障组件在边缘场景下的安全性和稳定性,二是在资源占用和带宽占用维度对组件做的轻量化;
边缘轻量基础环境:标准化的操作系统环境、内核、固件基线,包含在边缘场景下对操作系统层面进行的的轻量化裁剪,也包含支撑算力的高性能虚拟化实现;
3.1纳管边缘异构硬件,统一在离线资源调度
3.2充分利用硬件资源,算力&服务按需混部
一是算力实例和依赖服务共享同个资源池,虚拟机、容器实例可以和存储、网络、管控等服务分布到同个物理资源上;
二是服务的按需部署,运维中心结合编排中心的能力,实现集群功能的定制化,每个集群有自己的集群模板,集群模板动态可同时关联多应用编排,实现根据集群业务需求部署必要服务,从而减少非必要服务的资源开销。
3.3降低边缘资源开销,实现云边分层轻量管控
3.4云原生 laaS 管控,虚拟机生命周期与容器解耦
3.5降低弱网影响,支持云边&边边协同
3.6全面一站式观测,及时掌握系统&应用状态
3.7海量节点统一运维界面,稳定支撑边缘业务要求
4.业务应用实践
4.1火山引擎边缘云
4.2火山引擎边缘云产品矩阵
4.3火山引擎边缘云行业应用
5.演进和未来思考
在地域覆盖方面,随着边缘云服务内外部客户业务的增长,边缘云覆盖的节点范围也将持续扩大。火山引擎边缘云将从节点管理规模和合规性两个技术维度,满足业务发展诉求。
在技术链路方面,随着部分业务场景的成熟,在成本、性能等核心技术点的建设将成为边缘云的强技术竞争力和业务探索的基础。火山引擎边缘云将持续建设该部分能力,帮助业务实现单位性能的大幅提升。
在前沿技术领域,随着人工智能的发展,大量的 AIGC(AI生成内容)将推动 AI 计算能力向边缘端延伸,以降低带宽需求和减少延迟。火山引擎边缘云也将持续探索边缘计算与 AI 技术的融合,致力于让 AI 触手可及,从而为用户带来更加卓越的体验。