实践案例 | 全方位守护业务的运行,构建高效监控与预警体系

科技   2024-10-16 07:45   广东  

每工作日一、三、五早上07:45

准时为你带来最新产品资讯


面对突如其来的系统故障,如何快速解决?如何提升系统后续运行稳定性?本文将带你深入了解A客户如何通过构建高效的监控与预警体系,全方位守护其业务运行。通过一键部署gPaaS监控服务产品,实现了从应用层到IaaS层的全链路监控,及时发现并解决潜在故障,推荐阅读。















业务背景














A客户日常主要使用星瀚系统处理其订单数据。某日,该业务系统突然出现大面积瘫痪,影响客户业务订单的处理。经过现场工程师的紧急排查,发现是由于PostgreSQL数据库日志文件持续增长,导致数据库主机磁盘被占满,进而引发系统故障。对多余的数据库日志文件进行清理,预留足够的磁盘空间后,系统才得以恢复正常。

因此,客户希望能对业务系统建立一套全面的监控与预警体系,及时发现并解决潜在故障,确保系统的稳定运行



解决方案














方案整体思路


通过安装器一键部署gPaaS监控服务产品,对业务系统环境的应用层-苍穹应用指标、PaaS层-容器/中间件/数据库指标和IaaS层-主机指标,进行全链路的监控及预警。



关键步骤及效果展示


1、安装部署


通过安装器,将业务系统开发环境和gPaaS监控服务一起安装(图1)。安装完成后,在监控服务的环境管理页面可查询到该业务系统开发环境信息。接着,再使用安装器依次安装业务系统SIT、UAT和 生产环境,然后通过监控服务的环境管理页面,手工将这三套新装环境的信息配置上去(图2)。最后,用户便可以通过一套gPaaS,同时监控项目上的所有业务系统环境。


安装器一键安装(图1)


gPaaS监控服务环境配置(图2)


2、指标查询


gPaaS监控服务为星瀚业务系统预置了针对性的监控模板。gPaaS监控服务部署好后,即可通过监控服务对环境的全链路(苍穹应用、数据库、中间件、容器和主机)指标数据进行查询(图3和图4)。


监控座舱(图3)


左右滑动查看更多>>

各维度模块指标(图4)


3、报警通知


配置好接收报警的运维人员邮箱和云之家信息。当业务系统环境出现潜在故障时,监控服务能及时生成对应的报警事件(图5),并将报警通知同步发送至运维人员的邮箱和云之家(图6)。

针对客户环境运行情况,对默认报警策略进行更新(图7),使得报警更具针对性。


报警事件(图5)


报警通知(图6)


更新报警策略(图7)


4、自定义监控


监控服务基于Prometheus对所有环境运行数据进行自动采集和存储。默认采集500+运行指标(图8),若当前默认指标图表无法满足监控需求,可通过界面新增指标图表,并引用这些指标(图9)。


采集的指标(图8)


指标图表配置(图9)



方案的可推广价值














对客户的价值:


A客户项目使用该方案后,提前发现了多起主机磁盘、内存不足的问题,然后及时进行了处理,有效地避免出现业务故障。


行业的普适程度:


  • 该方案可应用于苍穹、星瀚、星空产品的私有云及公有云环境监控运维场景中。


  • 为客户提供提简单易用、全链路覆盖的指标监控及预警能力。目前已有超过50+家客户使用了该监控服务。据不完全统计,该方案使客户系统运行稳定性平均提升了40%以上。



相关资料














1. gPaaS监控服务整体功能介绍


https://vip.kingdee.com/link/s/lnYny


2. 监控服务安装部署介绍


https://vip.kingdee.com/link/s/lnYnV



#往期推荐#

# 实践案例 | 对接第三方CI/CD平台,实现苍穹代码自动构建与发布

实践案例 | 业务流之可监控的数据同步,助力企业高效协同

实践案例|轻轨线(CI/CD)助力苍穹定制化研发项目管理

实践案例|单据关系图,为你呈现脉络清晰的单据关系



对文章有任何疑问或建议,欢迎评论区留言~

PaaS平台那些事
分享苍穹最新特性、功能使用和开发小技巧、最佳实践等,做苍穹用户的知心朋友
 最新文章