eBay Cloud Network团队解决Kubernetes中CPU过载问题的案例分享

文摘 2023-09-22 11:00 上海

前序

Kubernetes是目前最流行的容器编排工具之一。它具备丰富的功能，用于管理和部署容器应用程序。在Kubernetes中，使用client-go来与Kubernetes API进行交互。client-go提供了简单易用的API，帮助用户轻松操作Kubernetes集群。然而，在使用client-go时，需要特别注意性能方面的问题。具体而言，client-go中的cache ListAll() 函数可能会引发CPU密集型操作。本文将分享eBay Cloud Network团队在实践过程中遇到的Kubernetes中处理CPU过载的案例，以便给同行提供有益的思考和指导。

eBay Cloud Network团队日常负责监控和维护各种Kubernetes控制器和服务的健康状态，并在出现故障、性能问题或安全问题时迅速响应并采取必要的措施。在最近的值班中，作者接到关于公司内部 tlb-service-controller 的告警电话，经快速调查后发现该问题源于CPU过载，导致了tlb-service-controller的重启。以下是对问题的排查过程和解决方案的记录。

问题排查

以下记录了我们对CPU过载问题的排查过程。

收到告警电话，扩容CPU

Unset

10-->20-->40 CPU 扩容的过程

当我们接到告警电话时，发现当前 tlb-service-controller 的 CPU 限制设置为 10。最初认为是由于 controller 需要处理的对象太多，导致其无法正常工作。为了暂时解决问题，我们将 CPU 限制从 10 增加到 20。然而，即使增加到 20，依然存在CPU过载的情况。于是我们将 CPU 再次增加到 40，这样 tlb-service-controller 的 CPU 使用率稳定下来，上下游用户暂时不受影响。接下来，我们将查找导致当前问题的原因。

上图是在Prometheus上查看的当前tlb-service-controller在CPU扩容后的CPU和内存分布图。CPU使用率在短短的10分钟内迅速上升至约33。这表明，CPU使用率可能出现了异常。需要进一步调查才能确定原因。

pprof 排查CPU 使用率罪魁祸首

pprof 是一款 Golang 性能剖析工具，可用于分析应用程序的 CPU 和内存占用率等性能问题。pprof 可以在应用程序运行时收集性能数据，然后使用可视化工具进行简单的分析和展示。下面是使用 pprof 对当前 tlb-service-controller 的 CPU 使用率采样生成的分析图。

从上面的图中，我们可以看到，罪魁祸首是lockAllocationForPods()和client-go中cache的ListAll()函数。通过查看源代码，我们发现该函数通过client-go提供的标签选择器（labelSelector）功能，为每一个pod创建了一个对应的label selector, 用来寻找对应的allocation（读者可以忽略"allocation"的具体含义，它是与IP绑定的资源，每个pod应该对应一个IP）。

Unset

func (p *TLBProvider) lockAllocationForPods(pods []v1.Pod, service *v1.Service) error {

if pods == nil {

return nil

}

for _, pod := range pods {

// Check if allocation already exists for this pod

labelSelector := labels.Set{

PodNodeNameLabel: pod.Spec.NodeName,

PodNamespaceLabel: pod.Namespace,

PodNameLabel: pod.Name,

PodUIDLabel: string(pod.UID),

}.AsSelector()

allocations, err := p.allocationLister.List(labelSelector)

client-go 中的cache提供的源码分析

client-go 是 Kubernetes 官方提供的 Go 客户端，它提供了丰富的功能，用于操作 Kubernetes API。标签选择器是 client-go 中的一个重要功能，它可以用于通过标签选择器来过滤 Kubernetes API 响应的对象。client-go 的 cache 是基于 store 实现的。store 提供对 Kubernetes API 对象的访问和操作的统一接口。cache 依赖于 store 来获取 Kubernetes API 对象。

client-go的cache为什么会导致ListAll()函数的 CPU过载？为了解决这个问题，我们决定查看pprof提示的ListAll()函数的源代码。

Unset

func ListAll(store Store, selector labels.Selector, appendFn AppendFunc) error {

selectAll := selector.Empty()

for _, m := range store.List() {

if selectAll {

// Avoid computing labels of the objects to speed up common flows

// of listing all objects.

appendFn(m)

continue

}

metadata, err := meta.Accessor(m)

if err != nil {

return err

}

if selector.Matches(labels.Set(metadata.GetLabels())) {

appendFn(m)

}

return nil

}

从上面的源码我们可以看出，ListAll()其实是client-go从自己的Store中，使用给定的selector筛选对象，并将它们附加到给定的列表(appendFn)中。该函数通过遍历Store中的所有对象，对每个对象执行以下操作：

如果给定的selector为空，则跳过标签匹配操作并将对象附加到列表中
否则，通过元数据访问器(meta.Accessor)，获取对象的元数据，然后将对象的标签转换为标签集，并将该集合与selector进行匹配。如果对象的标签匹配给定的selector，则添加该对象到列表中。

client-go 的 Store 是 client-go 提供的一种抽象的对象缓存机制。它提供了对 Kubernetes API 对象的访问和操作的统一接口。Store 依赖于 store 接口来实现，store 接口定义了 Store 的基本操作，如 List()、Get()、Update() 和 Delete() 等。Store 可以用于存储 Kubernetes API 对象的状态。应用程序可以使用 Store 来获取 Kubernetes API 对象，并监听对象状态的更改。Store 可以提高应用程序的性能，避免频繁地向 Kubernetes API Server 发送请求。

Unset

// Store is a generic object storage interface. Reflector knows how to watch a server

// and update a store. A generic store is provided, which allows Reflector to be used

// as a local caching system, and an LRU store, which allows Reflector to work like a

// queue of items yet to be processed.

// Store makes no assumptions about stored object identity; it is the responsibility

// of a Store implementation to provide a mechanism to correctly key objects and to

// define the contract for obtaining objects by some arbitrary key type.

type Store interface {

Add(obj interface{}) error

Update(obj interface{}) error

Delete(obj interface{}) error

List() []interface{}

ListKeys() []string

Get(obj interface{}) (item interface{}, exists bool, err error)

GetByKey(key string) (item interface{}, exists bool, err error)

// Replace will delete the contents of the store, using instead the

// given list. Store takes ownership of the list, you should not reference

// it after calling this function.

Replace([]interface{}, string) error

Resync() error

}

分析CPU过载原因

从前面的源码中，我们可以看到ListAll()的主要工作是从 Store中利用golang的for循环在逐一匹配对象是否特定的label，为什么会是过载的主要原因呢，笔者为此计算了一下当前对应的k8s上的allocation对象的数量。

Unset

(base) ~/ kubectl get allocation -A | wc -l

145457

原来有约14.5万个allocation对象。根据前面的代码，对于每个pod，都需要遍历这14.5万个allocation对象。假设每个K8s的service下有100个pod，而每个cluster仅有10个这样的K8s service，操作次数将达到1.45亿次。这些操作都需要在CPU中执行，直接使得该函数成为CPU密集型操作，进而导致了CPU限制。更复杂的情况是，每个cluster的service数量远远超过10个，在真实的环境中更加严重。

解决过程

通过比较Pod和allocation对象，我发现它们之间有一个交叉字段，即IP。因此，可以通过IP将这两个对象关联起来。由于 client-go提供了添加了自定义 AddIndexers的功能，具体可查看An introduction to Go Kubernetes' informers 我们可以通过自定义Indexers来加快访问速度，比如下面是一个通过pod的IP而不是name和nameSpace来获取pod的例子。

Pod AddIndexers例子

Unset

// arbitrary unique name for the new indexer

const ByIP = "IndexByIP"

func podIPIndexFunc(obj interface{}) ([]string, error) {

pod, ok := obj.(*v1.Pod)

if !ok {

return nil, fmt.Errorf("object is not a Pod")

}

// Extract the IP addresses from the Pod and return them as a list of strings.

var ipList []string

for _, ip := range pod.Status.PodIPs {

ipList = append(ipList, ip.IP)

}

return ipList, nil

}

给informeer添加indexer：

Unset

podsInformer.AddIndexers(map[string]cache.IndexFunc{ByIP: podIPIndexFunc})

通过给pod的IP来获取pod

Unset

items, err := podsInformer.GetIndexer().ByIndex(ByIP, ip)

实现IpamIndexByIPFunc

我仿照上面的方式实现了IpamIndexByIPFunc，并配置了相应的informer。

Unset

const (

IpamIndexByIP = "IpamIndexByIP"

Slash32SubnetSize = 32

)

func IpamIndexByIPFunc(obj interface{}) ([]string, error) {

alloc, ok := obj.(*ipamv1.Allocation)

if !ok {

return nil, fmt.Errorf("object is not a Allocation")

}

// Extract the IP addresses from the ipamv1.Allocation and return them as a list of strings.

var ipList []string

for _, subNet := range alloc.Status.Subnets {

if subNet != "" {

ip, ipNet, err := net.ParseCIDR(subNet)

if err != nil {

return nil, fmt.Errorf("failed to parse subnet %s: %s", subNet, err.Error())

}

subnetSize, _ := ipNet.Mask.Size()

if subnetSize == Slash32SubnetSize {

ipList = append(ipList, ip.String())

}

return ipList, nil

}

最后改变lockAllocationForPods()即可

Unset

func (p *TLBProvider) lockAllocationForPods(pods []v1.Pod, service *v1.Service) error {

if pods == nil {

return nil

}

for _, pod := range pods {

alloc:=allocationInformer.Informer().GetIndexer().ByIndex(common.IpamIndexByIP, pod.Status.PodIP)

上述方案需要注意的是，通过AddIndexers添加索引可能会带来一定的内存消耗。每个索引都需要占用一定的内存空间来存储索引数据结构。索引的内存消耗随着索引的数量、索引字段的数量和索引数据量的增加而增加。在决定是否使用索引时，应该权衡查询性能的提升和额外内存消耗之间的关系，以确保整体系统的性能和可用性。

最终效果对比

上图是使用了上面的AddIndexers方法后，tlb-service-controller的CPU使用率。通过对比，使用AddIndexers方法后，tlb-service-controller的CPU使用率已经稳定在了1~4左右，和之前的40相比的话，性能提升了10倍以上。这验证了我们的IpamIndexByIP修复是正确的。同时我们看到内存使用率的没有明显变化，这证明我们通过AddIndexers来通过空间换时间的方法，并不会带来额外的内存消耗。

总结

本文详细介绍了Kubernetes中处理CPU过载的问题排查和解决过程，包括 CPU 扩容、分析 client-go 的 ListAll() 函数以及解决方案的实施。通过自定义索引器。团队成功提高了性能，将 CPU 使用率从高峰值 40 降低到稳定的 1~4 左右，同时没有带来额外的内存消耗。这个案例为类似问题的处理提供了有价值的参考。

参考文章：

client-go：Indexer 源码分析
An introduction to Go Kubernetes' informers
client-go/tools/cache/index_test.go
https://githclient-go/tools/cache/shared_informer.go
k8s client-go源码分析 informer源码分析(1)-概要
https://cloudnative.to/blog/client-go-informer-source-code/

http://mp.weixin.qq.com/s?__biz=MzA3MDMyNDUzOQ==&mid=2650516446&idx=1&sn=aa54a97608c1f3d1dcb31eb05c1834d0

eBay技术荟

eBay技术荟，与你分享最卓越的技术，最前沿的讯息，最多元的文化。

最新文章

“亿”想天开AI｜LLM在eBay推理平台的工程实践与应用

“亿”想天开AI｜eBay 云原生人工智能推理平台：模型可观测性

CDT Data 团队关于HDFS小文件的处理方案

Kubernetes 架构学习笔记（下）

Kubernetes 架构学习笔记（上）

BMS: 基于Airflow的分布式工作流调度管理平台

“亿”想天开系列之eBay模型服务性能及资源优化实践

eBay万台规模Hadoop集群3.3 升级实践

eBay CAL日志服务存储优化

eBay 实验平台的网站性能优化实践

“亿”想天开AI｜eBay 云原生人工智能推理平台：模型全生命周期管理

eBay数据中心内网基于Istio的L7规则的生产化实践

eBay支付核心账务系统之“稳”如泰山｜强一致系统在高可用方面遇到的挑战与实践

通用集群管理：弹性扩缩容在eBay的实现和落地

“亿”想天开AI｜eBay 云原生人工智能推理平台：推理智能，推演“亿”生

eBay Cloud团队关于Kubernetes 控制器高延迟问题排查的分享

深入eBay推荐系统：如何利用多模态理解和GNN技术提升用户体验

保障安全交易的背后：探究eBay风控数据实时监控平台

利用istio 出口网关实现eBay应用微隔离之实践分享

eBay卖家专属优惠业务基于Federated GraphQL的工程实践

数据之道：eBay DSS团队基于SQL的数仓数据血缘研究实践

eBay最佳实践：Spark SQL优化之物化视图

BES2：打造eBay下一代高可靠消息中间件

eBay Cloud Network团队解决Kubernetes中CPU过载问题的案例分享

eBay基于Istio的高可用的两层应用网关架构

揭秘eBay Kafka跨数据中心高可用方案

eBay支付账务系统之从“容”不迫——一种简化的Raft集群扩容策略

eBay最佳实践：Spark Join优化之Partial Aggregation下推

退换无忧，让您放心买买买—退款系统设计与思考

eBay推荐系统的多样性优化

探索性实践：基于异常业务指标的归因探查

eBay数据边缘和数据中心统一流量管理模型实践

Hadoop YARN降本增效之动态超卖技术

ClickHouse集群在eBay事件监控平台的可用性和扩展性探索

HDFS Router-based Federation在eBay的应用

eBay支付核心账务系统之混沌不摧

一探究竟 | eBay流量管理之Hot LB流量平衡全自动化之路

实践分享｜流式系统集成服务的十倍速优化

一探究竟 | eBay流量管理之LB上下游报文追踪

顶会论文！缓解推荐系统中的样本标注偏差

“亿”论AI之四 | eBay离线特征仓库的构建与应用

“亿”论 AI ｜统一在线特征服务

加入eBay创造你的“亿”倍可能 | CCOE新员工培训完美落幕

“亿”论 AI ｜近实时特征工程

“亿”论AI｜基于中心化元数据及配置驱动的eBay AI特征工程管理平台

浅谈 eBay 智能营销大数据开发中的一些最佳实践

Maven依赖解析之倍增提速！eBay Velocity实践的开源新算法

eBay如何30天安全实现云平台服务器的系统升级？

eBay关于Spark push based shuffle 的调研及优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉