技术创想109| 优化 Kubernetes 成本：基于 Kubecost 实践与探索

文摘科技 2024-08-29 17:43 北京

Kubernetes（以下简称 K8s）已成为大中型企业调度和管理服务的事实标准。引入 K8s 的初衷之一是为了节省成本，通过减少云平台计算实例的数量，实现用更少的实例承载相同的业务负载，从而降低云计算成本。然而，随着业务的发展，为了保障业务的稳定性，我们通常会为一个服务设置多个副本，以避免在故障转移或扩容时，容器无法及时启动导致服务中断。这意味着，我们需要为同时运行的多个副本支付额外的费用。此外，由于 K8s 服务资源设置不合理，再加上多副本的影响，进一步加剧了费用的增加与资源的浪费。

在实际操作中，通常会在一个或多个 K8s 集群中部署大量的服务。这些服务从归属上来看，可能属于不同的业务线、产品或团队；从服务类型上看，可能涵盖 CICD、大数据、大模型、监控、Web 服务等多种形式。K8s 本身并未提供基于上述维度的成本拆分能力。同时，K8s 集群是一个高度动态的运行环境，节点数量、Pod 所在的节点、可用区（Zone）或区域（Region）都可能随着时间的推移而发生变化。这为 K8s 的成本分析带来了巨大的挑战。为了实现有效的成本管理和优化，我们需要更细致且动态的成本追踪和分析能力，以应对不断变化的集群环境和复杂的多租户架构。

在这种背景下，Kubecost 进入了我们的视野。Kubecost 是一款商业化工具，专为 K8s 集群的成本监控和优化而设计。该工具最早于 2019 年推出，旨在解决组织在使用 K8s 时面临的成本管理和资源优化问题。以下是它的主要功能介绍：

实时成本监控: 可以根据实际资源使用情况实时监控成本。
成本分配: 支持按 Namespace、Controller、服务以及标签等多种维度分配成本。
成本优化: 提供优化建议，例如调整资源请求和限制、节点池管理等。
多集群支持: 支持同时监控多个 K8s 集群。
云平台支持: 可以与 AWS、GCP、Alibaba 等多云环境集成，以提供更精准的价格。
报告和分析: 提供详细的成本报告和历史数据分析。

基于这些功能，Kubecost 可以帮助用户从 Cluster 到 Namespace 再到 Controller 层级，全面感知费用情况，并基于过去的使用数据，提供资源请求的合理建议。接下来，我们将结合 Kubecost 的功能界面截图，简要介绍其功能及使用方式。

Kubecost的功能及使用方式

1.1 Overview Dashboard

Overview 页面提供了 K8s 集群整体的费用概览及资源利用效率。具体来说，该仪表板展示了集群的总花费、过去 7 天的费用趋势以及集群资源的利用率等关键指标。通过这些指标，用户可以对集群的费用状况有一个初步的了解，从而更好地进行成本管理和资源优化。

图 1 Overview Dashboard 页面

1.2 Allocations

Kubecost Allocations 允许用户快速查看所有原生 K8s 概念（例如命名空间、K8s 标签和服务）的费用分配情况。该功能还支持将成本分配到团队、产品/项目、部门或环境等组织层面，并将这些分配保存为报告，方便后续查看和分析。用户可以根据时间、K8s 概念以及自定义过滤条件对数据进行筛选、聚合和统计。默认情况下，费用按命名空间进行聚合，点击具体名称后可以进一步下钻到 Controller 层级，以查看各类资源的详细花费情况。

图 2 Allocations Dashboard 页面

1.3 Assets

Kubecost Assets 显示了 K8s 集群中各类资产（如节点、磁盘和其他资源）的成本细分情况。通过此功能，用户可以识别随时间变化的支出因素，并对数据进行审计。该视图还支持选择性地显示集群外的资产，例如按服务、标签等维度进行分类。用户可以点击不同的资源，查看其详细规格和成本信息。

图 3 Assets Dashboard 页面

1.4 Efficiency

Efficiency 是 Kubecost 2.3 中引入的 K8s 效率仪表板，为用户提供了强大的效率分析工具，帮助用户识别其 K8s 环境中的集群、节点和工作负载的浪费支出。通过这些效率报告，用户可以全面了解所有 K8s 集群中的资源浪费情况。Kubecost 定义了三种空闲类型，用于评估基础设施的效率：

按类型的空闲：提供集群的浪费支出的高层次视图，按工作负载空闲和基础设施空闲进行细分。通过此视图，用户可以看到集群的总空闲、基础设施空闲、工作负载空闲以及集群效率。

按工作负载的资源空闲：针对所有 K8s 工作负载，提供工作负载空闲和工作负载效率的资源特定细分视图（如 CPU、RAM 等）。工作负载空闲被定义为已请求但未使用的资源成本。

按集群的资源空闲：针对所有集群和节点，提供基础设施空闲的资源特定细分视图（如 CPU、RAM 等）。

Efficiency 面板和接下来要介绍的资源优化建议是我们降低成本的利器。通过此面板，我们可以直观地看到所采取的降本措施的效果，并为后续的降本工作提供指导。通过不断重复“数据洞察 -> 采取行动”这一循环，我们可以持续并稳定地确保资源利用率保持在合理水平。

图 4 Efficiency Dashboard 页面

1.5 Network Monitoring

Network Monitoring 是一个用于监控网络成本的页面，帮助用户可视化与网络相关的支出。它支持按 Pod、命名空间或集群的连接分析网络成本，这对于大型团队或需要深入了解网络成本的复杂环境中的团队非常有用。

在网络监控页面上，网络由可拖动的图标组成，这些图标代表网络成本的来源及其与 Pod、命名空间或集群的连接。绿色边框的图标表示网络成本，蓝色边框的图标则表示推动支出的 K8s 对象。连接图标的箭头颜色区分内部支出和外部支出。

图 5 Network Monitoring 页面

1.6 Saving

Saving 页面提供了多项功能，帮助用户更有效地使用资源并评估浪费的开支。在页面中央，用户可以看到每月可预估的节省金额。该金额是通过页面右上角的下拉菜单，基于启用的所有节省功能，指定集群配置文件计算得出的。

图 6 Saving 页面

Saving 页面包含多个面板，提供了不同的建议，帮助用户减少 K8s 的支出。以下是 Kubecost 支持的节省建议类型：

调整集群节点的大小：Kubecost 根据历史资源使用情况，提出集群节点数量和规格的优化建议。
调整容器请求的大小：Kubecost 会根据容器过去一段时间的资源使用情况，提供资源请求的建议。通过调整过度预留的资源，用户可以显著降低成本。
解决被遗弃的工作负载：Kubecost 能检测在可配置的持续时间内未发送或接收有意义流量的工作负载。用户可根据收集的数据，自主处理这些没有负载的任务。
管理未声明的存储卷：Kubecost 能检测未被任何 Pod 使用的存储卷。用户可以考虑删除这些卷，或将它们移动到更便宜的存储层。
管理本地磁盘：Kubecost 能检测到使用率较低的本地磁盘，并提供调整大小的建议及预计的成本节省。

以上是 Kubecost 提供的一些常用功能介绍，更多功能详情可参考 Kubecost 官方文档。总体而言，该工具在费用洞察、分配和节省建议方面非常强大，是帮助我们降低 K8s 费用的有力工具。

Kubecost 的技术架构

Kubecost前端：运行 Nginx 并处理到 Kubecost 后端和 Prometheus/Grafana 的路由；
Kubecost后端（成本模型）：提供对 Prometheus 的读写成本分配计算和指标；
Prometheus 服务器：用于存储成本和健康指标的时间序列数据；
cAdvisor(Container Advisor) 收集正在运行的容器的资源使用情况和性能特征。它是一个运行守护进程，用于收集、汇总、处理和导出有关正在运行的容器的信息。

图 7 Kubecost 的架构

Kubecost 成本计算的原理

3.1 整体资源费用整体的数据收集计算的流程大致如下：

3.1.1 数据收集

资源（CPU、RAM、CPU 等）用量数据通过 Prometheus 收集。Prometheus 会定期抓取各个节点和容器的资源使用情况，并将这些数据存储为时间序列。

3.1.2 数据处理

资源利用数据被处理和聚合。具体步骤如下：

查询数据：通过 Prometheus 查询资源使用数据。常见的查询包括：源请求量（Request）、资源使用量（Usage）等。
聚合数据：将查询到的时间序列数据进行聚合，计算出每个时间段内的平均使用量和请求量。
处理缺失数据：在某些情况下，可能会有缺失的数据点。需要对这些缺失的数据进行处理，确保计算的准确性。

3.1.3 计算各个资源的花费数据

获取定价信息：从配置文件或云提供商 API 获取资源的定价信息。定价信息可能包括按小时计费的资源价格。
计算使用成本：根据聚合后的资源使用数据和定价信息，计算每个时间段内的资源使用成本。具体公式如下：

资源使用成本 = 资源使用量 × 资源单价

计算总成本：将所有时间段的资源使用成本累加，得到总的资源成本。

3.2 下面就资源定价及使用成本的计算进行进一步的解释

3.2.1 资源定价：

一些公有云平台会提供不同资源的单位时间的定价，Kubecost 会直接使用该数据用于成本的计算。但是，部分公有云提供商只提供实例规格的整体定价，而未单独提供 CPU、GPU 和 RAM 的单位时间定价。这时，Kubecost 会根据预设值，将实例的规格将总成本分摊到每个 CPU、GPU 和 RAM 单位上，这些预设值通常根据云提供商的典型定价来设置，以下为计算逻辑的描述：

我们以一个 2 个 CPU、4 GB 内存和 1 个 GPU 的实例为例，假设每个小时费用 2$ 。Kubecost 预设资源单位时间价格假设为：每个 CPU 的默认价格：$0.05/小时；每 GiB 内存的默认价格：$0.01/小时；每个 GPU 的默认价格：$1.00/小时。

计算示例总基础成本：

假设一个实例包含 v个 CPU、m GB 内存和g个 GPU，总实例成本为 $X/小时。基础总成本使用默认值计算为：

基础总成本=(默认 CPU 价格×v)+(默认 RAM 价格×m)+(默认 GPU 价格×g)

假设实例有 2 个 CPU、4 GB 内存和 1 个 GPU，使用上述默认值，基础总成本为：

基础总成本=(0.05×2)+(0.01×4)+(1.00×1)=0.10+0.04+1.00=1.14/小时

归一化资源价格：

接下来，Kubecost 会将基础总成本归一化，使其与实际实例的总成本 $X 匹配。归一化的比例保持资源价格之间的相对比例不变。

归一化后的价格为：

归一化 CPU 价格=默认 CPU 价格×归一化因子

归一化 RAM 价格=默认 RAM 价格×归一化因子

归一化 GPU 价格=默认 GPU 价格×归一化因子

计算示例：

假设实例的总成本为 $2.00/小时，基础总成本为 $1.14/小时，归一化因子为：

归一化后的价格为：

归一化 CPU 价格：0.05 × 1.754 ≈ $0.0877/小时

归一化 RAM 价格：0.01 × 1.754 ≈ $0.0175/小时

归一化 GPU 价格：1.00 × 1.754 ≈ $1.754/小时

经过 Kubecost 的归一化后， 2 个 CPU、4 GiB 内存和 1 个 GPU，每个小时费用为 2$ 的实例，其每个 CPU/小时价格为 $0.0877，每GB RAM/小时价格为 $0.0175，每个 GPU/小时价格为 $1.754。经过这样的转换后，每个资源的定价就独立了，方便了后续每个资源的费用的单独计算。

3.2.2 资源费用的整体计算逻辑：

通过执行预设的 Prometheus 查询语句，可以获取某一特定资源在指定时间窗口内的单位时间平均利用率。然后，将每个时间单位的利用率与相应的成本相乘，并对所有结果进行汇总，即可得出该资源在该时间窗口内的总成本。

其中是通过 Prometheus 查询得到的特定资源类型单位时间内的平均利用率。

3.2.3 CPU 成本计算：

通过查询 Prometheus 的 container_cpu_usage_seconds_total 和 kube_pod_container_resource_requests 指标来分别获取 CPU 的实际利用率和 CPU Request 的数据。

对应的查询语句：

# CPU Useage`avg(rate(container_cpu_usage_seconds_total{container!="", container_name!="POD", container!="POD", %s}[%s])) by (container_name, container, pod_name, pod, namespace, instance, %s)`# CPU Request`avg(avg_over_time(kube_pod_container_resource_requests{resource="cpu", unit="core", container!="", container!="POD", node!="", %s}[%s])) by (container, pod, namespace, node, %s)`

3.2.4 GPU  成本计算：

通过查询 Prometheus 的 DCGM_FI_DEV_GPU_UTIL 和 kube_pod_container_resource_requests 指标来分别获取 GPU 的实际利用率和 GPU Request 的数据。

对应的查询语句：

# GPU Useage`avg(avg_over_time(DCGM_FI_DEV_GPU_UTIL{container!=""}[%s])) by (container, pod, namespace, %s)`# GPU Request`avg(avg_over_time(kube_pod_container_resource_requests{resource="nvidia_com_gpu", container!="",container!="POD", node!="", %s}[%s])) by (container, pod, namespace, node, %s)`

3.2.5 内存成本计算：

通过查询 Prometheus 的 container_memory_working_set_bytes 和 kube_pod_container_resource_requests 指标来分别获取 RAM 的实际利用和 RAM Request 的数据。

对应的查询语句：

# RAM Useage`avg(avg_over_time(container_memory_working_set_bytes{container!="", container_name!="POD", container!="POD", %s}[%s])) by (container_name, container, pod_name, pod, namespace, instance, %s)`# RAM Request`avg(avg_over_time(kube_pod_container_resource_requests{resource="memory", unit="byte", container!="", container!="POD", node!="", %s}[%s])) by (container, pod, namespace, node, %s)`

3.2.6 网络成本计算：

Kubecost 网络费用分为三类：

区域内网络流量费用（Zone Network Egress Cost）
区域间网络流量费用（Region Network Egress Cost）
互联网网络流量费用（Internet Network Egress Cost）

通过查询 Prometheus 的 kubecost_network_zone_egress_cost、kubecost_network_region_egress_cost 和 kubecost_network_internet_egress_cost 指标来分别获取。

对应的查询语句：

# Zone Network Egress Cost`avg(avg_over_time(kubecost_network_zone_egress_cost{%s}[%s])) by (%s)`# Region Network Egress Cost`avg(avg_over_time(kubecost_network_region_egress_cost{%s}[%s])) by (%s)`# Internet Network Egress Cost`avg(avg_over_time(kubecost_network_internet_egress_cost{%s}[%s])) by (%s)`

当然，实际的计算还要考虑其他一些因素，为了方便理解，采取了简化的计算公式。详细的内容可以查看源码。

关于 Kubecost 的展望

Kubecost 使用平均数作为利用率的计算基础，尽管在学术上对平均数这个指标有很多批评，认为其不能准确反映数据的分布，进而影响统计的准确性。笔者认为这并不那么重要，有很多因素会影响成本的计算，难以精确计算，特别是对于 K8s 这种复杂且动态变化的系统而言。比精确成本更重要的是， Kubecost 提供了一个基准的计算模型，使得我们可以在同一基准下获取、优化和回顾 K8s 的成本。基于此，我们需要做的就是让资源的利用水平维持在一个合理的区间。随着业务的发展，服务器资源的需求是自然上升的，我们需要确保的不产生额外的浪费。

根据我们的业务实际情况，我们的资源利用目标为：CPU：35％-50％，内存：50%-60%，存储：20%-35%。利用率目标很大程度上取决于资源使用的可预测性和分布高利用率对核心产品、业务指标的影响等。虽然资源利用率过低是浪费的，但过高的利用率会导致延迟增加、可靠性问题和其他负面行为。因此，选择一个合适的利用水平是非常有必要的。

感谢领创集团运维团队对 Kubecost 项目的大力支持，特别感谢郭雨明和郭迎波同学在服务部署和调试过程中的帮助！

关于领创集团

（Advance Intelligence Group）

领创集团成立于 2016年，致力于通过科技创新的本地化应用，改造和重塑金融和零售行业，以多元化的业务布局打造一个服务于消费者、企业和商户的生态圈。集团旗下包含企业业务和消费者业务两大板块，企业业务包含 ADVANCE.AI 和 Ginee，分别为银行、金融、金融科技、零售和电商行业客户提供基于 AI 技术的数字身份验证、风险管理产品和全渠道电商服务解决方案；消费者业务 Atome Financial 包括亚洲领先的数字金融服务平台 Atome 等。2021年 9月，领创集团宣布完成超4亿美元 D 轮融资，融资完成后领创集团估值已超 20亿美元，成为新加坡最大的独立科技创业公司之一。

领创集团Advance Group

领创集团是亚太地区AI技术驱动的科技集团。

最新文章

领创集团荣获2024中国健康雇主企业文化建设卓越贡献奖

亿邦动力专访 I Atome的蜕变之路：从BNPL先锋到数字金融领航者

Atome Financial获得高达2亿美元银团贷款以支持东南亚金融普惠

技术创想111| BNPL白标项目中MockServer的应用详解

ADVANCE.AI 正式获得 iBeta Level2 认证，持续为客户安全保驾护航

技术创想110| 数据源系统策略组合模块的设计与实现

黑客松特辑 | Gets You: 用AI提升Atome APP的用户留存率和内容质量

领创集团荣膺东南亚顶尖高增长科技公司之一

ADVANCE.AI 发布《2024年墨西哥金融科技报告》

精彩回顾，领创集团第二届黑客马拉松上诞生了哪些绝妙点子？

ADVANCE.AI将于2024年第四季度在菲律宾推出新征信局

领创集团CEO陈斓杰专访 | 从一张共享办公桌到20亿美元AI独角兽

技术创想109| 优化 Kubernetes 成本：基于 Kubecost 实践与探索

ADVANCE.AI 受邀参加印尼金融服务管理局主办的线上研讨会，探讨AI技术对金融行业的革新影响

单表水平拆分实践随笔

联合早报专访 | ADVANCE.AI首席执行官寿栋：创业这支舞，要跳到99岁

黑客松百队突围：领创集团团队斩获4090及最佳多模态奖

技术创想106 | 源码剖析：理解Spring Cloud中的@RefreshScope

2024年印尼金融科技报告解读 | 市场成熟、合规加速：印尼金融科技新机会在哪？

技术创想105 | 触碰unsafe禁区：链接Rust与C

Atome先享后付方案登陆淘宝新加坡

36氪报道 | Ginee CEO康乐旸：AI爆发，跨境电商有哪些新玩法？

领创集团旗下Atome Financial今年一季度实现盈利，2023全年营业收入飙升至1.7亿美元

大热多年，竞争激烈—出海印尼还有金可淘吗？

Sora问世，企业如何利用大模型技术升级反欺诈能力？

技术创想104 |ClickHouse 日志收集方案

技术创想103 |Spring Cloud 全链路灰度发布详细指南

全球保险业巨头Chubb与Atome建立区域合作伙伴关系，共同推动东南亚地区的消费者保护

环球网专访 | 领创集团李蜜：考虑女性观点将为企业带来更多成功机会

技术创想102 |日志脱敏在实际项目中使用

技术创想101 |机器学习在Web应用日志攻击识别中的应用、落地与思考

东南亚资深征信专家Dennis Martin 加入ADVANCE.AI 领导信用报告业务

技术创想100 |高效查看网页信息 - 自定义浏览器扩展程序

技术创想99 | 浅析chat completion中token以及计费规则

ADVANCE.AI发布《2023菲律宾金融科技报告》 | 新出海首选地，金融科技行业的下一个机会？

领创集团高级副总裁刘华年：东南亚金融科技是机遇与挑战交织的律动

技术创想98 | 浅谈前端性能及异常监控

领创集团荣登福布斯2023全球数字贸易行业企业TOP 100

机器之心报道 | 这家从东南亚突围的AI初创独角兽，做对了什么？

技术创想：来一份前端日历

Spring MVC @RequestParam中Date参数的问题

一道题彻底理清 Browser Context 的 Event Loop

多图预警！领创6周年庆典回顾！

重磅签约 | ADVANCE.AI与SHOPLINE达成战略合作，共同助力独立站卖家出海

技术创想 | 模块化的发展历史

汇丰银行与Atome达成合作，授信1亿美元用于先享后付业务拓展

领创集团CEO陈斓杰荣登 2022福布斯中国·全球华人精英Top 100 榜单

Advancers专访：2022年，留学归来的他们为什么加入领创？

多团队不同开发流程体系下自动化源码审计的系统一实现

捷报！ADVANCE.AI星鉴解决方案荣获第二届BPAA金融算法赛道银奖

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉