如何全面洞察集群状态?Zilliz Cloud 发布监控告警系统新特性

文摘   2024-09-25 18:30   上海  
Zilliz 致力于为用户提供构建和维护高性能向量数据库应用所需的工具。在过去的几个月里,我们的工程团队持续开发了一系列指标监控相关的新特性。现在,我们很高兴地宣布发布这些新特性。这些新功能能够帮助用户实时监控集群性能、设置自定义的告警规则,使得用户能够更快速地采取行动。

01.

集群指标:可视化的向量数据库性能

Zilliz Cloud 推出全新的指标面板,针对集群在几个关键领域的性能,提供了全面视图:
  • 3个资源指标:监控 CPU 使用情况、内存利用率和存储用量。
  • 9个性能指标:追踪 QPS、VPS 以及读写操作的延时。
  • 4个数据指标:监控 Collection 数量、Entity 数量和已加载 Entity 数量。
Zilliz Cloud 提供直观的指标面板,允许您查看在自定义时间范围内的指标变化情况,从而进行细致的分析。

02.

可定制的告警规则:及时发现潜在问题

Zilliz Cloud 除了指标面板以外,还提供了配套的告警系统。主要有两类告警:
  • 4 个组织级别的告警:关注与账单相关的问题,包括用量余额、现金余额、 免费额度有效期和免费额度告警。
  • 34 个项目告警:监控集群操作,包括 CU 使用情况、QPS、延时和请求异常告警。
Zilliz Cloud 告警系统附带预定义的告警对象和告警条件,但也支持用户根据需求灵活调整——您可以设置阈值、持续时间,选择告警等级。

03.

监控与告警系统的关键特点

Zilliz Cloud 的监控与告警系统旨在为您提供对 Zilliz Cloud 集群的全面洞察。以下为监控与告警系统的特点:
实时监控帮助您即刻了解集群的性能状况。这种即时反馈机制使您能够快速识别并响应出现的性能问题。
定制化的指标面板让您可以根据用例关注最重要的指标。无论您是更关注查询性能、资源利用率还是数据增长,您都可以配置面板来查看相关指标。
灵活的告警配置系统让您可以自定义设置告警阈值和持续时间。这种细粒度的配置能帮助您及早发现潜在问题,提前管理集群。
为确保您不会错过任何重要告警,我们集成了多个告警渠道。您可以通过电子邮件、企业微信、短信、钉钉、飞书、自定义 webhook 集成接收告警,整合现有的工作流程和监控系统。
最后,我们的系统支持访问历史数据,让您能够分析一段时间内的性能趋势。这一特性对于长期优化和容量规划至关重要。
这些特性共同支撑起了一个强大的监控和指标系统,帮助您充分发挥 Zilliz Cloud 集群的强大性能。

04.

使用监控与告警系统

您可以通过 Zilliz Cloud 控制台轻松访问监控与告警系统。
  • 查看指标:切换至集群的“指标”页签,查看详细的集群性能指标
  • 设置告警:前往“组织告警”或“项目告警”页面来配置和管理告警设置
如需深入了解监控和告警系统,以及使用指南和最佳实践,请访问我们的文档页面。这些资源将帮助您充分利用这些强大的工具,并提升您的 Zilliz Cloud 使用体验。

05.

监控告警系统路线图

我们致力于不断增强指标和告警系统。以下是路线图:
  1. 告警模板:我们正在开发告警模板,以方便用户快速设置模版并轻松应用于多个告警,简化告警配置的流程。
  2. Pod 资源指标:即将推出的新指标将包括详细的 Pod 级别信息,如 CPU 使用情况、内存使用情况和网络流量等。
  3. 增强数据操作指标:我们将推出更多指标,为您提供更深入的数据洞察,包括已创建索引的 Entity 数量、集群连接数等指标。
  4. 第三方集成:为支持高级监控设置,我们正在开发与主流监控平台(如 Datadog、Prometheus)的集成。
这些即将推出的功能将为您提供对 Zilliz Cloud 集群更细粒度的控制和洞察,使您能够更有效地优化性能和迅速响应问题。
我们将在几个月内推出上述新功能。您的反馈意见十分宝贵,欢迎通过 Zilliz 技术交流群或 Zilliz 技术支持中心分享您的使用反馈!

作者介绍

Steffi

Director of Product Marketing at Zilliz

推荐阅读


Zilliz
Simply The Fastest Vector Database for AI. Period.
 最新文章