平台实操指南|在骞云平台上通过SNMP对物理设备进行监控

文摘   科技   2024-08-22 11:00   上海  

引言

许多客户在运营中依赖于各种物理设备,包括物理服务器、网络设备和安全设备等,这些设备的正常运行对业务的稳定性至关重要。

骞云平台不仅提供了全面而完善的云资源监控解决方案,还具备强大的物理设备监控和告警能力。通过这一功能,客户可以实时监控其物理设备的运行状态,及时获取性能指标和健康信息,从而快速识别潜在问题并采取必要的措施。

无论是监测服务器的CPU和内存使用情况,还是跟踪网络流量和安全设备的状态,骞云平台都能为客户提供全面的可视化数据和智能告警,确保企业的IT基础设施高效稳定地运行。这种集成的监控能力使得客户能够更好地管理其混合环境,提升整体运营效率,降低故障风险,从而更专注于业务的核心发展。

骞云平台物理设备监控方案

骞云平台通过SNMP协议,支持对硬件设备的监控和告警。SNMP(简单网络管理协议)是一种广泛应用于网络管理的协议,旨在通过集中管理系统对设备进行监控和管理。SNMP的工作原理主要依赖于代理和管理系统的协同作用。每个被监控设备上运行一个SNMP代理,负责收集设备的状态信息并将其存储在管理信息库(MIB)中。管理系统通过SNMP协议向代理发送请求,以获取设备的运行状态、性能指标以及其他重要信息。通过SNMP,平台可以集成和管理来自各类物理设备的性能数据,包括物理服务器、路由器、交换机、安全设备等,实时分析和可视化设备性能数据,确保各类设备的健康状态得到实时监控。

骞云平台的监控代理采用Prometheus的Exporter方案,灵活地实现对多种物理设备的监控。SNMP Exporter作为数据采集代理,可以从SNMP代理获取信息,平台配置多个代理,监控多个数据中心的各种设备。

本文将为您介绍,如何在骞云平台安装和使用SNMP监控物理设备,并在发生故障时及时获取告警。

基于SNMP的物理设备监控告警配置步骤

01

纳管物理设备


您可以以创建或者导入方式,在骞云平台纳管您的物理设备。

在「云资源」详情页选择创建或导入,选择需要创建/导入的物理设备类型,填写对应的设备参数,即可将该物理设备添加到骞云平台进行纳管。

另外,骞云平台还支持通过文件批量导入物理设备,您可以下载csv文件模板填写相应信息后上传,批量纳管您的物理设备。

02

配置监控


完成设备纳管后,您可以在骞云平台通过在指定云主机安装SNMP监控代理来采集物理设备的监控数据。监控代理的安装和配置有如下两种方式:

1、组件监控

2、云主机详情

一、 通过组件监控菜单安装

1、通过「组件监控」菜单,选择Public SNMP Exporter进入安装界面,Public SNMP Exporter可以用于对所有开启了SNMP的设备进行监控。

2、选择您需要监控的对象,可以是包括物理服务器、网络设备和安全设备在内的物理设备,您可以选择一个或多个物理设备进行监控。 

3、您可以为每一个监控的设备指定监控代理服务,并配置监控代理服务的参数。

a.如果您已经安装了SNMP代理监控,可以选择一个已存在的SNMP Exporter来监控指定的物理设备。

b.您也可以选择新装监控代理,选择一个安装SNMP Exporter的主机,根据物理设备实际的参数,修改参数默认值,完成安装代理并监控指定物理设备。

二、通过云主机详情页面安装

1、您可以选择在已纳管的云主机上安装SNMP Exporter,用对您的物理设备进行监控。

2、安装SNMP Exporter成功后,在Exporter上可以添加和删除监控对象

a.添加需要监控的对象,您可以选择一个或多个需要监控的设备

b.若您不再需要监控该物理设备,您可以选择删除监控对象

03

查看监控数据


当SNMP Exporter采集了物理设备的监控数据后,骞云平台能够在云资源的详情界面、监控仪表盘以及监控大盘等统一的界面可视化展示已监控的物理设备的监控信息。

一个SNMP Exporter监控多个物理设备的效果如下图所示:

04

定义告警规则


骞云平台支持针对物理设备的监控指标进行告警规则配置。您可以自定义创建使用SNMP监控指标的告警规则,在所监控设备的指标达到触发条件时系统将及时通知指定的用户。默认的告警类型有如下三种:

  • 宕机告警:可检测物理设备失去响应时间,当达到一定时间限制后即触发告警。

  • 阈值告警:针对物理设备的性能监控,可设置依据时间段的具体阈值(如在过去五分钟内网络接口发送错误次数高于5次)。

  • 预测告警:骞云平台提供基于机器学习的预测告警,可设置依据时间段的阈值(如在过去1天内的原始系统CPU使用时间)来预测未来一段时间内(在未来1天内的原始系统CPU使用时间)达到某个阈值将触发告警。

例:配置阈值告警规则,在过去五分钟内网络接口发送错误次数若高于五次,将发送警报给平台管理员。

05

处理告警


告警规则指定的通知用户在收到告警通知后,可以登录平台查看已触发的物理设备警报,追溯警报的详细情况,并对警报进行恢复、暂停、解除操作,或者提交工单进行处理。

在告警规则配置时允许为告警配置修复操作建议,在触发告警时支持自动执行自愈操作、人工根据操作建议修复资源或者提交工单请求实现自愈。

若您选择提交工单处理告警,骞云平台的工单服务将自动带入告警相关信息,协助您快速提交工单。

总结

通过使用骞云平台的SNMP监控功能,用户能够:

  • 实时监控:及时获取物理设备的CPU使用率、内存占用、网络流量等性能指标,确保设备在最佳状态下运行。

  • 故障告警:在物理设备出现异常时,系统能够快速发出告警,帮助用户及时采取措施,降低潜在的业务风险。

  • 集中管理:支持多数据中心的物理设备监控,用户可以通过统一的界面查看和管理不同数据中心的设备,提升管理效率。

骞云平台提供的基于Prometheus Exporter的SNMP监控解决方案,不仅为客户提供了全面的设备监控能力,还通过强大的数据分析和可视化工具,帮助客户更好地理解其IT基础设施的运行状况,从而优化资源配置,提高整体运营效率。

更多详细功能,您可登录骞云官网www.cloudchef.io,或扫描下方二维码,即刻免费体验骞云SmartCMP SaaS平台的强大功能!如您在使用过程中遇到任何问题,欢迎致电400-036-1181或E-mail至support@cloudchef.io联系我们,我们将竭诚为您服务。

 SmartCMP SaaS 2024 Update 4|更新至骞云平台8.0.1版本
● VMware Aria云管理套件不单独售卖了该怎么办?
 今日直播| 统一运维管理平台V8.0新版本功能特性讲解
 平台实操指南|VMware VM属性详情查看分析
 SmartCMP SaaS 2024 Update 3|更新至骞云平台8.0版本
 骞云统一运维管理平台V8.0正式发布
 降本增效,某新能源车企平台工程和FinOps案例介绍

骞云科技CloudChef
中国云原生管理领域领导者,建设数字化企业,释放云上生产力!
 最新文章