Pulsar升级自动化：一键搞定集群升级与测试

科技 2024-08-07 08:08 重庆

背景

由于我在公司内部负责维护 Pulsar，需要时不时的升级 Pulsar 版本从而和社区保持一致。

而每次升级过程都需要做相同的步骤：

安装一个新版本的集群
触发功能性测试
触发性能测试
查看监控是否正常

应用有无异常日志
流量是否正常
各个组件的内存占用是否正常
写入延迟是否正常

命令行工具

以上的流程步骤最好是全部一键完成，我们只需要人工检测下监控是否正常即可。

于是我便写了一个命令行工具，执行流程如下：

pulsar-upgrade-cli -h                                                                                                  ok | at 10:33:18 
A cli app for upgrading Pulsar

Usage:
  pulsar-upgrade-cli [command]

Available Commands:
  completion  Generate the autocompletion script for the specified shell
  help        Help about any command
  install     install a target version
  scale       scale statefulSet of the cluster

Flags:
      --burst-limit int                 client-side default throttling limit (default 100)
      --debug                           enable verbose output
  -h, --help                            help for pulsar-upgrade-cli
      --kube-apiserver string           the address and the port for the Kubernetes API server
      --kube-as-group stringArray       group to impersonate for the operation, this flag can be repeated to specify multiple groups.
      --kube-as-user string             username to impersonate for the operation

真实使用的 example 如下：

pulsar-upgrade-cli install \                                                   
        --values ./charts/pulsar/values.yaml \
        --set namespace=pulsar-test \
        --set initialize=true \
        --debug \
        --test-case-schema=http \
        --test-case-host=127.0.0.1 \
        --test-case-port=9999 \
    pulsar-test ./charts/pulsar -n pulsar-test

它的安装命令非常类似于 helm，也是直接使用 helm 的 value.yaml 进行安装；只是在安装成功后（等待所有的 Pod 都处于 Running 状态）会再触发 test-case 测试，也就是请求一个 endpoint。

这个 endpoint 会在内部处理所有的功能测试和性能测试，具体细节就在后文分析。

同时还提供了一个 scale（扩、缩容）命令，可以用修改集群规模：

# 缩容集群规模为0
./pulsar-upgrade-cli scale --replicase 0 -n pulsar-test
# 缩容为最小集群
./pulsar-upgrade-cli scale --replicase 1 -n pulsar-test
# 恢复为最满集群
./pulsar-upgrade-cli scale --replicase 2 -n pulsar-test

这个需求是因为我们的 Pulsar 测试集群部署在了一个 servless 的 kubernetes 集群里，它是按照使用量收费的，所以在我不需要的使用的时候可以通过这个命令将所有的副本数量修改为 0，从而减少使用成本。

当只需要做简单的功能测试时便回将集群修改为最小集群，将副本数修改为只可以提供服务即可。

而当需要做性能测试时就需要将集群修改为最高配置。

这样可以避免每次都安装新集群，同时也可以有效的减少测试成本。

实现原理

require (  
    github.com/spf13/cobra v1.6.1  
    github.com/spf13/pflag v1.0.5   
    helm.sh/helm/v3 v3.10.2
)

这个命令行工具本质上是参考了 helm 的命令行实现的，所有主要也是依赖了 helm 和 cobra。

下面以最主要的安装命令为例，核心的是以下的步骤：

执行 helm 安装（这里是直接使用的 helm 的源码逻辑进行安装）
等待所有的 Pod 成功运行
触发 test-case 执行
等待测试用例执行完毕
检测是否需要卸载安装的集群

func (e *installEvent) FinishInstall(cfg *action.Configuration, name string) error {  
    bar.Increment()  
    bar.Finish()  
  
    clientSet, err := cfg.KubernetesClientSet()  
    if err != nil {  
       return err  
    }  
    ctx := context.Background()  
    ip, err := GetServiceExternalIp(ctx, clientSet, settings.Namespace(), fmt.Sprintf("%s-proxy", name))  
    if err != nil {  
       return err  
    }  
  
    token, err := GetPulsarProxyToken(ctx, clientSet, settings.Namespace(), fmt.Sprintf("%s-token-proxy-admin", name))  
    if err != nil {  
       return err  
    }  
    // trigger testcase  
    err = e.client.Trigger(context.Background(), ip, token)  
    return err  
}

这里的 FinishInstall 需要获取到新安装的 Pulsar 集群的 proxy IP 地址和鉴权所使用的 token(GetServiceExternalIp()/GetPulsarProxyToken())。

将这两个参数传递给 test-case 才可以构建出 pulsar-client.

这个命令的核心功能就是安装集群和触发测试，以及一些集群的基本运维能力。

测试框架

而关于这里的测试用例也有一些小伙伴咨询过，如何对 Pulsar 进行功能测试。

其实 Pulsar 源码中已经包含了几乎所有我们会使用到的测试代码，理论上只要新版本的官方镜像已经推送了那就是跑了所有的单测，质量是可以保证的。

那为什么还需要做功能测试呢？

其实很很简单，Pulsar 这类基础组件官方都有提供基准测试，但我们想要用于生产环境依然需要自己做压测得出一份属于自己环境下的性能测试报告；

根本目的是要看在自己的业务场景下是否可以满足（包括公司的软硬件，不同的业务代码）。

所以这里的功能测试代码有一个很重要的前提就是：需要使用真实的业务代码进行测试。

也就是业务在线上使用与 Pulsar 相关的代码需要参考功能测试里的代码实现，不然有些问题就无法在测试环节覆盖到。

这里我就踩过坑，因为在功能测试里用的是官方的 example 代码进行测试的，自然是没有问题；但业务在实际使用时，使用到了一个 Schema 的场景，并没有在功能测试里覆盖到（官方的测试用例里也没有😂），就导致升级到某个版本后业务功能无法正常使用（虽然用法确实是有问题），但应该在我测试阶段就暴露出来。

实现原理

以上是一个集群的功能测试报告，这里我只有 8 个测试场景（结合实际业务使用），考虑到未来可能会有新的测试用例，所以在设计这个测试框架时就得考虑到扩展性。

AbstractJobDefine job5 =  
        new FailoverConsumerTest(event, "故障转移消费测试", pulsarClient, 20, admin);  
CompletableFuture<Void> c5 = CompletableFuture.runAsync(job5::start, EXECUTOR);  
AbstractJobDefine job6 = new SchemaTest(event,"schema测试",pulsarClient,20,prestoService);  
CompletableFuture<Void> c6 = CompletableFuture.runAsync(job6::start, EXECUTOR);  
AbstractJobDefine job7 = new VlogsTest(event,"vlogs test",pulsarClient,20, vlogsUrl);  
CompletableFuture<Void> c7 = CompletableFuture.runAsync(job7::start, EXECUTOR);  
  
CompletableFuture<Void> all = CompletableFuture.allOf(c1, c2, c3, c4, c5, c6, c7);  
all.whenComplete((___, __) -> {  
    event.finishAll();  
    pulsarClient.closeAsync();  
    admin.close();  
}).get();

对外提供的 trigger 接口就不贴代码了，重点就是在这里构建测试任务，然后等待他们全部执行完毕。

@Data
public abstract class AbstractJobDefine {
    private Event event;
    private String jobName;
    private PulsarClient pulsarClient;

    private int timeout;

    private PulsarAdmin admin;

    public AbstractJobDefine(Event event, String jobName, PulsarClient pulsarClient, int timeout, PulsarAdmin admin) {
        this.event = event;
        this.jobName = jobName;
        this.pulsarClient = pulsarClient;
        this.timeout = timeout;
        this.admin = admin;
    }

    public void start() {
        event.addJob();
        try {
            CompletableFuture.runAsync(() -> {
                StopWatch watch = new StopWatch();
                try {
                    watch.start(jobName);
                    run(pulsarClient, admin);
                } catch (Exception e) {
                    event.oneException(this, e);
                } finally {
                    watch.stop();
                    event.finishOne(jobName, StrUtil.format("cost: {}s", watch.getTotalTimeSeconds()));
                }
            }, TestCase.EXECUTOR).get(timeout, TimeUnit.SECONDS);
        } catch (Exception e) {
            event.oneException(this, e);
        }
    }


    /** run busy code
     * @param pulsarClient pulsar client
     * @param admin pulsar admin client
     * @throws Exception e
     */
    public abstract void run(PulsarClient pulsarClient, PulsarAdmin admin) throws Exception;
}

核心代码就是这个抽象的任务定义类，其中的 start 函数用于定义任务执行的模版：

添加任务：具体实现是任务计数器+1
开始计时
执行抽血的 run 函数，具体实现交给子类
异常时记录事件
正常执行完毕后也记录事件

下面来看一个普通用例的实现情况：

就是重写了 run() 函数，然后在其中实现具体的测试用例，断言测试结果。

这样当我们需要再添加用例的时候只需要再新增一个子类实现即可。

同时还需要定义一个事件接口，用于处理一些关键的节点：

public interface Event {  
  
    /**  
     * 新增一个任务  
     */  
    void addJob();  
  
    /** 获取运行中的任务数量  
     * @return 获取运行中的任务数量  
     */  
    TestCaseRuntimeResponse getRuntime();  
  
    /**  
     * 单个任务执行完毕  
     *  
     * @param jobName    任务名称  
     * @param finishCost 任务完成耗时  
     */  
    void finishOne(String jobName, String finishCost);  
  
    /**单个任务执行异常  
     * @param jobDefine 任务  
     * @param e 异常  
     */  
    void oneException(AbstractJobDefine jobDefine, Exception e);  
  
    /**  
     * 所有任务执行完毕  
     */  
    void finishAll();  
}

其中 getRuntime 接口是用于在 cli 那边查询任务是否执行完毕的接口，只有任务执行完毕之后才能退出 cli。

监控指标

当这些任务运行完毕后我们需要重点查看应用客户端和 Pulsar broker 端是否有异常日志。

同时还需要观察一些关键的监控面板：

包含但不限于：

消息吞吐量
broker 写入延迟
Bookkeeper 的写入、读取成功率，以及延迟。

当然还有 zookeeper 的运行情况也需要监控，限于篇幅就不一一粘贴了。

以上就是测试整个 Pulsar 集群的流程，当然还有一些需要优化的地方。

比如使用命令行还是有些不便，后续可能会切换到网页上就可以操作。

最后夹带一点私活，最近做了一个知识星球，已经试运行一段时间，效果还不错（具体详情可以扫码查看）；感兴趣的朋友可以扫码领取优惠券以 49 元的价格加入（支持三天内无条件退款）。

往期推荐

我是如何从零到成为 Apache 顶级项目的 Committer

开源项目如何做集成测试

载均衡技术全解析：Pulsar 分布式系统的最佳实践

Nginx监控不再难：简化部署流程，提升监控效率

Pulsar客户端消费模式揭秘：Go 语言实现 ZeroQueueConsumer

点分享

点收藏

点点赞

点在看

crossoverJie

技术、生活、观点、原创。原创公众号；主要关注 Go、JVM、并发、分布式、网络等相关技术。

最新文章

如何在平淡的工作中整理出有价值的简历

邀请函 | Pulsar Developer Day 2024 开发者大会邀您报名！

完整议程释出 | 30+全球技术大咖齐聚 StarRocks Summit Asia 2024，共论 Lakehouse 未来

如何选择可以搞钱的技术栈

永久激活GPT4.0！有效期至2296年！我上车了！！

推荐一些值得学习的开源项目和框架

StarRocks 物化视图刷新流程和原理

时隔五年 9K star 的 IM 项目发布 v2.0.0 了

线上高延迟请求排查

深入理解 StarRocks 的元数据管理

IM系统重构到 SDK 设计的最佳实践

StarRocks 开发环境搭建踩坑指北

如何为复杂的 Java 应用编写集成测试

OpenTelemetry 实战：从 0 到 1 编写一个 Instrumentation

我用我的270篇文章做了一个数字 AI 替身

OpenTelemetry在企业内部应用所需要的技术栈

邀请函 | Pulsar Meetup 北京 2024

日志与追踪的完美融合：OpenTelemetry MDC实践指南

业界首个OpenTelemetry结合eBPF的向导式可观测性平台APO正式开源

OpenTelemetry 实战：gRPC 监控的实现原理

OpenTelemetry 实战：从零实现应用指标监控

OpenTelemetry 实战：从零实现分布式链路追踪

深入理解单元测试：技巧与最佳实践

Pulsar升级自动化：一键搞定集群升级与测试

Pulsar客户端消费模式揭秘：Go 语言实现 ZeroQueueConsumer

Nginx监控不再难：简化部署流程，提升监控效率

案例实践 | 如何做好 Apache Pulsar 的运维？ASP 产品简介

载均衡技术全解析：Pulsar 分布式系统的最佳实践

我是如何从零到成为 Apache 顶级项目的 Committer

开源项目如何做集成测试

从Helm到 Operator：Kubernetes应用管理的进化

五个我最近在 Go 里学到的小技巧

如何找到并快速上手一个开源项目

OpenTelemetry 深度定制：跨服务追踪的实战技巧

Go 1.23：拥抱iter包，简化你的迭代逻辑

Rust 在许多方面都优于 Go，但为什么没有 Go 流行？

从 Prometheus 到 OpenTelemetry: 指标监控的演进与实践

从 Dapper 到 OpenTelemetry：分布式追踪的演进之旅

几个你或许并不知道 kubernetes 技巧

stack overflow 与 OpenAI 的合作引起了巨大争议

实操 OpenTelemetry：通过 Demo 掌握微服务监控的艺术

程序员如何提升个人技术影响力

OpenTelemetry 实践指南：历史、架构与基本概念

Google 如果把 Go 团队给裁了会怎么样？

OpenTelemetry agent 对 Spring Boot 应用的影响：一次 SPI 失效的调查

自动化测试在 Kubernetes Operator 开发中的应用：以 OpenTelemetry

深入剖析：如何使用Pulsar和Arthas高效排查消息队列延迟问题

Pulsar Meetup 深圳 2024 大咖推荐

日志架构演进：从集中式到分布式的Kubernetes日志策略

实战：如何编写一个 OpenTelemetry Extensions

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉