融合算力调度：KubeCASH的四大高级特征

汽车 2024-10-04 17:42 广东

欢迎关注下方公众号阿宝1990，本公众号专注于自动驾驶和智能座舱，每天给你一篇汽车干货，我们始于车，但不止于车。

编者按

Kubernetes（K8S）是一个开源的容器编排平台，是基于容器进行算力调度的核心。AI大模型发展迅速，K8S对加速计算的支持力度明显不够，需要针对加速计算做全方位的优化和增强。

KubeCASH，是Kubernetes+CASH（Converged Architecture of Software and Hardware，软硬件融合架构）的整合。KubeCASH系统，主要从计算架构、云边端协同、算力网络、软硬件协同四个方面进行了优化增强；并且，不仅仅是技术层面的优化，还包含了对产品和业务层面的优化和支持。

本篇文章，我们详细介绍KubeCASH在这四个方面的优化。

1 融合计算的定义

算力是一个庞大的系统工程，从软硬件技术角度来说，就是要实现融合计算。融合计算指的是，异构融合 x 软硬件融合 x 云边端融合。

如上图所示，我们通过XYZ三个维度来进一步阐述：

X轴，异构融合：通过异构融合计算，把各类异构算力和融合算力的价值发挥到极致。
Y轴，软硬件融合：通过核心的开放一致性的跨集群管理系统，承上启下，融合软硬件堆栈，开源开放。
Z轴，云边端融合：跨算力中心、跨不同算力运营商、跨云边端的融合计算。

只有从微观到宏观，实现全方位的整合优化，实现融合计算，才能实现算力的最优性能和最低成本。

2 KubeCASH简介

Kubernetes（K8S）是一个开源的容器编排平台，是基于容器进行算力调度的核心。传统K8S仅基于CPU优化软件，而针对更多加速计算的支持力度不够。随着AI大模型的发展，加速计算已经成为主流，并且加速计算的类型和架构会越来越多，K8S已经力有不逮。

KubeCASH，则是在K8S基础上，针对加速计算所需的软硬件融合（CASH，Converged Architecture of Software and Hardware，软硬件融合架构）能力进行了优化增强，主要表现在如下四个方面：

（Scale Up，融合计算X轴）在计算的架构和芯片方面，增强了对异构融合和多元异构的支持。
（Scale Out，融合计算Z轴）在分布式计算方面，增强了对跨集群、跨数据中心、跨云边端协同计算的支持。
（算力网络增强）技术层面的算力网络，关键在于网络优化；而业务层面的算力网络，是算力行业逐渐走向分工协同的发展趋势。针对算力网络，针对客户业务需求，做了相应的增强。
（软硬件协同，开源开放，融合计算Y轴）提供南向和北向开放接口，对接各类软件和硬件。

KubeCASH的核心是算力优化，会针对算力的软硬件持续优化，目标是：同成本情况下，算力提升100-1000倍；反过来，同算力情况下，成本降低到1/100以下。

3 特征一：异构融合和多元异构

算力中心的算力多样性，主要体现在异构融合和多元异构两个方面：

异构融合，关注的是计算架构，关注的CPU、GPU以及多种DSA芯片的更多异构之间的协同计算。
而多元异构，重心在于（同类型）芯片的架构多元。以CPU芯片为例，多元异构关注的是x86、ARM以及RISC-v不同架构CPU的统一调度和多架构CPU的协同；以GPU为例，多元异构关注的是NVIDIA GPU及其他架构GPU的协同加速计算。

从计算架构的角度，KubeCASH对如下四个类型的计算架构进行了优化支持：

第一类（K8S默认支持），CPU同构计算。
第二类（已完成），CPU+GPU的异构协同。AI是目前最热点的加速计算，包括TPU在内的众多AI-DSA或AIPU，也是加速计算的重点，KubeCASH也进行了增强支持。
第三类（开发中），通过SOC（轻量计算）芯片级整合，或主板多芯片（重量计算）服务器级整合。实现对，包括GPU、AIPU在内的，更多加速处理器的支持。
第四类（长期目标），通过SOC芯片级的架构重构，或CPU、GPU、多种加速DSA芯片的芯片级交互优化以及定制服务器优化，实现对异构融合计算的支持。

实现对多元算力支持的核心在于算力调度，也就是把最合适的任务调度到最合适的计算平台上去。多元算力调度最基本的要求是架构和功能特征匹配。此外，还需要根据成本和剩余资源情况等动态更新优先级，从而达到最优的算力调度。

从云计算数据中心到AI智算中心，多样性算力越来越多。多元算力调度，是智算中心发展的重要特点之一。并且，多元算力调度，持续发展，未来会形成标准一致的算力调度平台，并对算力芯片形成反向约束，所有算力芯片资源按照既定接口接入，而平台不关心芯片架构实现的差异性。

对智算中心来说，统一标准的多元算力调度还有一个优势：标准统一的多元算力调度平台，智算中心不会被特定平台“绑架”，“谁性能好、效率高、价格低，就选谁”；没有了平台依赖，芯片公司真正“公平竞争”，智算中心不需要为生态溢价付费。

4 特征二：从跨集群到跨云边端

目前，边缘计算的发展并不是很顺利，云边端协同计算停留在样板阶段，难以规模化；云边端融合，更是遥不可及。我们简单分析一下问题症结所在：

云计算，通常仅关注到云端服务，无法涉及终端计算和边缘计算。
终端计算，通常也只能关注到终端本地。如果需要云端协作，需要把系统进行C/S架构划分，以及各自独立的终端和云端开发过程和业务运行环境。并且，系统划分是静态的，无法在运行期间动态调整。
如果涉及到边缘计算，问题就更复杂了。哪些工作该云端做？哪些工作该边缘做？哪些工作该终端做？在开发的早期阶段，对如此复杂的系统架构约束，要做好准确的系统划分非常困难，发现问题后修正的代价也很高。并且，云端、边缘和终端的开发进程和运行环境都各自独立，开发和协同的成本都非常的高。

要实现跨云边端的协同计算，甚至云边端融合，主要做两方面事情：

一方面，平台侧。也就是KubeCASH侧要做的工作：

把云端、边缘端和终端的开发和运行环境统一；
需要把云端、边缘端和终端的网络（灵活）打通，使得三者能够高效交互（云边端网络优化，可归属到算力网络的范畴，将在算力网络章节进行介绍）；
需要实现跨云边端（跨集群）的算力调度，调度算法需要能够感知更多需求和更多环境参数，实现更加精细化的算力调度。

另一方面，业务侧。业务应用微服务化。每个微服务的重要程度、带宽、延迟等因素，以及微服务间的耦合性等因素，都是算力调度所需的关键参数。

最终，通过大模型加持的KubeCASH智能化算力调度，实现业务无感的云边端融合计算。

5 特征三：增强算力网络

算力网络，包含两层含义：

一个是技术层面的算力网络：指的是通过高速网络，把更多的算力中心连接起来，统一调度。更广泛的，这些算力网络包含的算力，既包括大规模和超大规模的云端算力中心，也包括中小规模的边缘算力中心，还包括各类智能化的海量的终端设备（算力调度主要体现在多元算力调度和跨集群、跨云边端算力调度）。
一个是业务层面的算力网络：指的是算力的统一运营和业务接入入口。算力网络是传统云计算发展到智能云计算时代的一个重要变化，实现了前端和后端的分工：

后端对应算力中心，聚焦算力建设，聚焦算力的低成本；
前端对应算力运营，聚焦算力落地。对算力客户来说，技术的高门槛，使得很多大算力（AI+）的业务场景难以落地。算力运营，聚焦帮助算力客户，实现热点场景的落地，反过来，才能实现云端和边缘端算力需求的爆发式增长。

5.1 技术层的算力网络

云计算有区域（Region）和可用区（Available Zone）的概念，以亚马逊AWS为例，在34个区域（Region）运营108个可用区（Available Zone），并计划在墨西哥等地，增加18个可用区和6个区域。

一个可用区通常为物理上独立的机房，然后就近的多个可用区组成一个区域。上图为典型的公有云计算的基于区域和可用区的网络架构示意图。

网络，是大模型时代，最大的技术瓶颈。在传统的云计算，仅关注算力中心的网络。随着云边端进一步深度协同，需要考虑跨云边端的高性能网络解决方案。整体的网络架构，需要从传统云网络架构，向云边端网络架构持续转变。

5.2 业务层的算力网络

算力中心，是位于后端的算力生产工厂；算力运营，是位于前端的算力销售平台；算力客户，可以从算力工厂直接批发，也可以从算力运营平台获取更多优质的算力服务。

以算力需求方（企业侧）为例。传统的超融合，仅关注企业私有云；后来兴起了MSP系统，则在私有云基础上加入了公有云算力的接入。而KubeCASH提供了更加丰富的算力资源属性管理：

（传统的）企业自建自用，也就是私有云集群资源；
（新型的）企业自建闲置资源，可以加入算力网络。变支出为收益，为企业降本增效；
（传统的）类似MSP，支持公有云算力资源接入；
（新型的）对接各大主流算力网络，算力资源来源各大算力网络，算力的类型也不仅仅局限于云端，也包括边缘和终端算力；
（创新的）终端算力接入。终端算力纳管，通过云边端协同，支持企业海量终端算力需求的场景落地。

因此，相比传统的MSP企业云管理，KubeCASH升级成了企业云边端管理。

KubeCASH，针对算力网络三方（算力中心、算力运营和算力客户），提供相应的技术和业务支持。

算力中心

算力中心业务分析：核心竞争力在于给用户提供更低成本的算力。
KubeCASH技术支撑：挖掘算力价值，降低算力成本；软硬件综合解决方案，算力数量级提升。
KubeCASH业务对接：算力营销，一键接入主流算力网络，拓展更多商机；算力对接，为算力客户，推荐相关算力中心算力。

算力运营

算力运营业务分析：为轻型云计算公司，没有自建算力中心基础设施；需要海量低成本算力接入；需要实现算力价值最大化；还涉及PaaS，以及各类帮助客户业务落地的解决方案。
KubeCASH技术支撑：算力云PaaS服务体系；行业+场景+AI大模型+软硬件的综合解决方案；支持算力运营商特色解决方案定制开发。
KubeCASH业务对接：算力资源，协助对接优质算力中心资源，确保技术栈兼容和高效协同；算力客户，作为第三方ISV，协助算力运营平台，支持算力客户业务落地。

算力客户

业务分析：需要海量、优质、多样、低成本的算力；需要支撑业务的企业云边端管理平台，以及云边端场景落地的各类解决方案。
KubeCASH技术支撑：支持多类型集群的新一代企业云边端管理平台；低成本的边缘和终端硬件解决方案；云边端融合方案，解决终端算力瓶颈问题；打通软硬件壁垒，加速企业大算力业务场景的规模化落地。
KubeCASH业务对接：算力采购，帮助用户获取海量、优质、多样、极低成本的算力，帮助用户优选最合适的算力资源。

6 特征四：开放的软硬件接入平台

国内的许多智算中心建设运营，有两个误区：

第一个误区，算力芯片来源单一。选择某家芯片公司的芯片，此芯片对业务场景的覆盖情况，就成了制约智算中心业务发展的最大“短板”。此外，选择单一平台，智算中心对芯片公司形成依赖，会掣肘自身的发展；我们的建议是，最好是形成芯片平台无关的智算中心多样性算力的调度和运营平台。
第二个误区，对场景的支持，受大客户牵引。智算中心，即使支持了某个特定客户的某个场景，不一定能支持其他客户的类似场景，更无法做到对其他客户的其他场景的支持。我们的建议是，这里需要形成一个标准规范。这个标准谁来定？最好是开源软件（生态）来定。（因为，包括国际国内各个互联网大厂的业务系统，绝大部分都是基于开源系统，或基于开源系统优化。）

KubeCASH的核心是异构算力调度，它承上启下：

对下，不需要关心芯片的各种差异性，只要有开放的算力调度平台，就可以实现各类芯片的轻松接入。

KubeCASH提供开放的南向接口，对接主流的大厂的芯片，如x86 CPU、ARM CPU、NVIDIA GPU等。
对于其他芯片公司的芯片，平台方和芯片厂家可以建立深度合作关系，把其他的GPU/AI算力芯片逐步接入。
在此基础上，形成统一的、开放的南向接口和架构规范，从而支持更多硬件的接入。

对上，也不需要担心智算中心的硬件是否能够匹配客户的业务场景。开放的算力调度平台决定了，能够实现对绝大部分场景的支持。

对接主流的开源软件，包括基础设施层软件如Linux、 KVM、Kubernetes、CNCF软件、OVS、Ceph、DPDK/SPDK等，也包括计算框架如CUDA、ROCm等，还包括领域框架如PyTorch、TensorFlow等，以及其他各类主流开源框架。
因此，以开源软件为基础，KubeCASH提供统一的、开放的北向接口，提供开放的业务应用软件接入API规范，支持更多的客户自研软件接入。

（正文完）

一群志同道合的朋友齐聚知识星球

加入《阿宝说车》知识星球，可获得这些模块的相关学习资料（目前有研究报告，线上大咖分享、线下闭门会），包括16大板块，详细清单如下：

http://mp.weixin.qq.com/s?__biz=MzIyMzE2MTQxMQ==&mid=2648421720&idx=2&sn=f3867eb1f274f48fb81bfb9adaf46298

阿宝1990

本公众号专注于自动驾驶和智能座舱，每天给你一篇汽车干货，我们始于车，但不止于车。

最新文章

为什么墙裂推荐「阿宝说车知识星球」

Mobileye强烈diss特斯拉、端到端和英伟达

留给 Model Y 的时间，不多了

汽车常规可靠性试验道路&强化试验道路汇总

比亚迪的王朝和海洋，为什么没有互相伤害？

华为电子机械制动（EMB）技术解析

特斯拉Cybercab没有方向盘，还能跑滴滴，马斯克的梦终要实现了？

汽车电子测试之精专非一日之功

小鹏乘胜追击

汽车黑科技研究：碳纤维新型应用层出，未来5年市场将快速增长

理想汽车的100万辆，有啥了不起的？

四立柱台架加速试验案例

大众和特斯拉，不同的配方同样的味道

Mobileye端到端自动驾驶解决方案的深度解析

400+汽车人聚集地，分享了哪些内容？

2024 CSEAC：半导体设备国产化加速，竞争力在哪里？

Robotaxi商业前景如何?

计算架构：总结过去，展望未来——高通收购Intel有感

联发科推出全球首款3纳米汽车芯片CT-X1挑战高通SA8295

Tesla的Cybercab属于Level-5了吗？

比Model Y便宜7万，岚图知音死磕纯电

国产智驾芯片的机会窗

基于CAN的OTA测试用例梳理

400+汽车人聚集地，分享了哪些内容？

140W氮化镓充电器拆解：国产芯的恐怖渗透率

激光雷达与纯视觉方案，哪个才是自动驾驶最优选？

充电习惯对新能源整车能量消耗量、安全、电池寿命的影响到底有多大？

400+汽车人聚集地，分享了哪些内容？

欧美电动汽车 Lucid 怎么样了？

排气系统冷端后挂钩及消声筒焊缝台架试验规范的制定

集成化趋势下，DSP芯片会被取消吗？

3A游戏迎上新风口，多车企测试《黑神话：悟空》

重磅！奔驰推出全固态电池

电动车时代的智能化、网联化

计算生态的未来：开放？还是封闭？

电动车时代的智能化、网联化

计算生态的未来：开放？还是封闭？

重磅！奔驰推出全固态电池

智能座舱产品入门训练营

大众和现代向高通说No

汽车制动性能试验标准、试验方法全方位解析

15万纯电家轿配激光雷达！埃安要做高端智驾普及者

送1亿算力券、1亿模型券，北京亦庄人工智能产业的新玩法 | 智车星球

智能网联是否是自动驾驶落地的必要条件？

为什么墙裂推荐「阿宝说车知识星球」

提高焊接结构疲劳强度的措施!

中国品牌纯电SUV挑战特斯拉Model Y前赴后继，岚图知音要当TOP3

为什么墙裂推荐「阿宝说车知识星球」

20 多家端到端自动驾驶企业/研究机构方案盘点（2）理想、地平线、元戎启行

车圈嘴替魏建军，揭了谁的老底？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉