欢迎关注下方公众号阿宝1990,本公众号专注于自动驾驶和智能座舱,每天给你一篇汽车干货,我们始于车,但不止于车。
1 融合计算的定义
如上图所示,我们通过XYZ三个维度来进一步阐述:
X轴,异构融合:通过异构融合计算,把各类异构算力和融合算力的价值发挥到极致。 Y轴,软硬件融合:通过核心的开放一致性的跨集群管理系统,承上启下,融合软硬件堆栈,开源开放。 Z轴,云边端融合:跨算力中心、跨不同算力运营商、跨云边端的融合计算。
2 KubeCASH简介
KubeCASH,则是在K8S基础上,针对加速计算所需的软硬件融合(CASH,Converged Architecture of Software and Hardware,软硬件融合架构)能力进行了优化增强,主要表现在如下四个方面:
(Scale Up,融合计算X轴)在计算的架构和芯片方面,增强了对异构融合和多元异构的支持。 (Scale Out,融合计算Z轴)在分布式计算方面,增强了对跨集群、跨数据中心、跨云边端协同计算的支持。 (算力网络增强)技术层面的算力网络,关键在于网络优化;而业务层面的算力网络,是算力行业逐渐走向分工协同的发展趋势。针对算力网络,针对客户业务需求,做了相应的增强。 (软硬件协同,开源开放,融合计算Y轴)提供南向和北向开放接口,对接各类软件和硬件。
3 特征一:异构融合和多元异构
算力中心的算力多样性,主要体现在异构融合和多元异构两个方面:
异构融合,关注的是计算架构,关注的CPU、GPU以及多种DSA芯片的更多异构之间的协同计算。 而多元异构,重心在于(同类型)芯片的架构多元。以CPU芯片为例,多元异构关注的是x86、ARM以及RISC-v不同架构CPU的统一调度和多架构CPU的协同;以GPU为例,多元异构关注的是NVIDIA GPU及其他架构GPU的协同加速计算。
从计算架构的角度,KubeCASH对如下四个类型的计算架构进行了优化支持:
第一类(K8S默认支持),CPU同构计算。 第二类(已完成),CPU+GPU的异构协同。AI是目前最热点的加速计算,包括TPU在内的众多AI-DSA或AIPU,也是加速计算的重点,KubeCASH也进行了增强支持。 第三类(开发中),通过SOC(轻量计算)芯片级整合,或主板多芯片(重量计算)服务器级整合。实现对,包括GPU、AIPU在内的,更多加速处理器的支持。 第四类(长期目标),通过SOC芯片级的架构重构,或CPU、GPU、多种加速DSA芯片的芯片级交互优化以及定制服务器优化,实现对异构融合计算的支持。
4 特征二:从跨集群到跨云边端
目前,边缘计算的发展并不是很顺利,云边端协同计算停留在样板阶段,难以规模化;云边端融合,更是遥不可及。我们简单分析一下问题症结所在:
云计算,通常仅关注到云端服务,无法涉及终端计算和边缘计算。
终端计算,通常也只能关注到终端本地。如果需要云端协作,需要把系统进行C/S架构划分,以及各自独立的终端和云端开发过程和业务运行环境。并且,系统划分是静态的,无法在运行期间动态调整。
如果涉及到边缘计算,问题就更复杂了。哪些工作该云端做?哪些工作该边缘做?哪些工作该终端做?在开发的早期阶段,对如此复杂的系统架构约束,要做好准确的系统划分非常困难,发现问题后修正的代价也很高。并且,云端、边缘和终端的开发进程和运行环境都各自独立,开发和协同的成本都非常的高。
一方面,平台侧。也就是KubeCASH侧要做的工作:
把云端、边缘端和终端的开发和运行环境统一; 需要把云端、边缘端和终端的网络(灵活)打通,使得三者能够高效交互(云边端网络优化,可归属到算力网络的范畴,将在算力网络章节进行介绍); 需要实现跨云边端(跨集群)的算力调度,调度算法需要能够感知更多需求和更多环境参数,实现更加精细化的算力调度。
5 特征三:增强算力网络
一个是技术层面的算力网络:指的是通过高速网络,把更多的算力中心连接起来,统一调度。更广泛的,这些算力网络包含的算力,既包括大规模和超大规模的云端算力中心,也包括中小规模的边缘算力中心,还包括各类智能化的海量的终端设备(算力调度主要体现在多元算力调度和跨集群、跨云边端算力调度)。 一个是业务层面的算力网络:指的是算力的统一运营和业务接入入口。算力网络是传统云计算发展到智能云计算时代的一个重要变化,实现了前端和后端的分工:
后端对应算力中心,聚焦算力建设,聚焦算力的低成本; 前端对应算力运营,聚焦算力落地。对算力客户来说,技术的高门槛,使得很多大算力(AI+)的业务场景难以落地。算力运营,聚焦帮助算力客户,实现热点场景的落地,反过来,才能实现云端和边缘端算力需求的爆发式增长。
5.1 技术层的算力网络
5.2 业务层的算力网络
(传统的)企业自建自用,也就是私有云集群资源; (新型的)企业自建闲置资源,可以加入算力网络。变支出为收益,为企业降本增效; (传统的)类似MSP,支持公有云算力资源接入; (新型的)对接各大主流算力网络,算力资源来源各大算力网络,算力的类型也不仅仅局限于云端,也包括边缘和终端算力; (创新的)终端算力接入。终端算力纳管,通过云边端协同,支持企业海量终端算力需求的场景落地。
算力中心 算力中心业务分析:核心竞争力在于给用户提供更低成本的算力。 KubeCASH技术支撑:挖掘算力价值,降低算力成本;软硬件综合解决方案,算力数量级提升。 KubeCASH业务对接:算力营销,一键接入主流算力网络,拓展更多商机;算力对接,为算力客户,推荐相关算力中心算力。 算力运营 算力运营业务分析:为轻型云计算公司,没有自建算力中心基础设施;需要海量低成本算力接入;需要实现算力价值最大化;还涉及PaaS,以及各类帮助客户业务落地的解决方案。 KubeCASH技术支撑:算力云PaaS服务体系;行业+场景+AI大模型+软硬件的综合解决方案;支持算力运营商特色解决方案定制开发。 KubeCASH业务对接:算力资源,协助对接优质算力中心资源,确保技术栈兼容和高效协同;算力客户,作为第三方ISV,协助算力运营平台,支持算力客户业务落地。 算力客户 业务分析:需要海量、优质、多样、低成本的算力;需要支撑业务的企业云边端管理平台,以及云边端场景落地的各类解决方案。 KubeCASH技术支撑:支持多类型集群的新一代企业云边端管理平台;低成本的边缘和终端硬件解决方案;云边端融合方案,解决终端算力瓶颈问题;打通软硬件壁垒,加速企业大算力业务场景的规模化落地。 KubeCASH业务对接:算力采购,帮助用户获取海量、优质、多样、极低成本的算力,帮助用户优选最合适的算力资源。
6 特征四:开放的软硬件接入平台
国内的许多智算中心建设运营,有两个误区:
第一个误区,算力芯片来源单一。选择某家芯片公司的芯片,此芯片对业务场景的覆盖情况,就成了制约智算中心业务发展的最大“短板”。此外,选择单一平台,智算中心对芯片公司形成依赖,会掣肘自身的发展;我们的建议是,最好是形成芯片平台无关的智算中心多样性算力的调度和运营平台。 第二个误区,对场景的支持,受大客户牵引。智算中心,即使支持了某个特定客户的某个场景,不一定能支持其他客户的类似场景,更无法做到对其他客户的其他场景的支持。我们的建议是,这里需要形成一个标准规范。这个标准谁来定?最好是开源软件(生态)来定。(因为,包括国际国内各个互联网大厂的业务系统,绝大部分都是基于开源系统,或基于开源系统优化。)
KubeCASH的核心是异构算力调度,它承上启下:
对下,不需要关心芯片的各种差异性,只要有开放的算力调度平台,就可以实现各类芯片的轻松接入。
KubeCASH提供开放的南向接口,对接主流的大厂的芯片,如x86 CPU、ARM CPU、NVIDIA GPU等。 对于其他芯片公司的芯片,平台方和芯片厂家可以建立深度合作关系,把其他的GPU/AI算力芯片逐步接入。 在此基础上,形成统一的、开放的南向接口和架构规范,从而支持更多硬件的接入。
对接主流的开源软件,包括基础设施层软件如Linux、 KVM、Kubernetes、CNCF软件、OVS、Ceph、DPDK/SPDK等,也包括计算框架如CUDA、ROCm等,还包括领域框架如PyTorch、TensorFlow等,以及其他各类主流开源框架。 因此,以开源软件为基础,KubeCASH提供统一的、开放的北向接口,提供开放的业务应用软件接入API规范,支持更多的客户自研软件接入。
加入《阿宝说车》知识星球,可获得这些模块的相关学习资料(目前有研究报告,线上大咖分享、线下闭门会),包括16大板块,详细清单如下: