每工作日一、三、五早上07:45
准时为你带来最新产品资讯
面对突如其来的系统故障,如何快速解决?如何提升系统后续运行稳定性?本文将带你深入了解A客户如何通过构建高效的监控与预警体系,全方位守护其业务运行。通过一键部署gPaaS监控服务产品,实现了从应用层到IaaS层的全链路监控,及时发现并解决潜在故障,推荐阅读。
业务背景
A客户日常主要使用星瀚系统处理其订单数据。某日,该业务系统突然出现大面积瘫痪,影响客户业务订单的处理。经过现场工程师的紧急排查,发现是由于PostgreSQL数据库日志文件持续增长,导致数据库主机磁盘被占满,进而引发系统故障。对多余的数据库日志文件进行清理,预留足够的磁盘空间后,系统才得以恢复正常。
因此,客户希望能对业务系统建立一套全面的监控与预警体系,及时发现并解决潜在故障,确保系统的稳定运行。
解决方案
方案整体思路
通过安装器一键部署gPaaS监控服务产品,对业务系统环境的应用层-苍穹应用指标、PaaS层-容器/中间件/数据库指标和IaaS层-主机指标,进行全链路的监控及预警。
关键步骤及效果展示
1、安装部署
通过安装器,将业务系统开发环境和gPaaS监控服务一起安装(图1)。安装完成后,在监控服务的环境管理页面可查询到该业务系统开发环境信息。接着,再使用安装器依次安装业务系统SIT、UAT和 生产环境,然后通过监控服务的环境管理页面,手工将这三套新装环境的信息配置上去(图2)。最后,用户便可以通过一套gPaaS,同时监控项目上的所有业务系统环境。
安装器一键安装(图1)
gPaaS监控服务环境配置(图2)
2、指标查询
gPaaS监控服务为星瀚业务系统预置了针对性的监控模板。gPaaS监控服务部署好后,即可通过监控服务对环境的全链路(苍穹应用、数据库、中间件、容器和主机)指标数据进行查询(图3和图4)。
监控座舱(图3)
左右滑动查看更多>>
各维度模块指标(图4)
3、报警通知
配置好接收报警的运维人员邮箱和云之家信息。当业务系统环境出现潜在故障时,监控服务能及时生成对应的报警事件(图5),并将报警通知同步发送至运维人员的邮箱和云之家(图6)。
针对客户环境运行情况,对默认报警策略进行更新(图7),使得报警更具针对性。
报警事件(图5)
报警通知(图6)
更新报警策略(图7)
4、自定义监控
监控服务基于Prometheus对所有环境运行数据进行自动采集和存储。默认采集500+运行指标(图8),若当前默认指标图表无法满足监控需求,可通过界面新增指标图表,并引用这些指标(图9)。
采集的指标(图8)
指标图表配置(图9)
方案的可推广价值
对客户的价值:
A客户项目使用该方案后,提前发现了多起主机磁盘、内存不足的问题,然后及时进行了处理,有效地避免出现业务故障。
行业的普适程度:
该方案可应用于苍穹、星瀚、星空产品的私有云及公有云环境监控运维场景中。
为客户提供提简单易用、全链路覆盖的指标监控及预警能力。目前已有超过50+家客户使用了该监控服务。据不完全统计,该方案使客户系统运行稳定性平均提升了40%以上。
相关资料
1. gPaaS监控服务整体功能介绍
https://vip.kingdee.com/link/s/lnYny
2. 监控服务安装部署介绍
https://vip.kingdee.com/link/s/lnYnV
#往期推荐#
对文章有任何疑问或建议,欢迎评论区留言~