告警平台V1.0版本

科技   2024-11-08 16:50   浙江  


!! 大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。


作者:乔克
公众号:运维开发故事
博客:www.jokerbai.com



监控无数,告警乱飞,历史难查,进度难寻。

随着接入监控的团队和集群越来越多,告警管理也变的异常重要。由于网络的限制,无法使用类似快猫睿象云SAAS告警系统,所以就自己开发一套简单的告警平台,满足日常的业务需求。

该平台主要有以下特性:

  • 告警分组:借鉴快猫协作空间的理念,这里使用协作空间进行告警分组。
  • 灵活配置通知模板:不同的团队和业务对通知模板有不同的需求,这里将通知模板可配置话,便于日常工作的自定义。
  • 多种通知渠道:目前仅实现企业微信这一个渠道,后续会增加短信、邮箱甚至电话等,以满足不同的告警场景。
  • 通知策略可选:目前支持单渠道 和多渠道通知策略,主要是为了满足将不同级别的告警推送到不同的接收人。
  • 告警屏蔽
  • 告警认领
  • 排班管理

后续还希望实现的主要功能有:

  • 初因判断:希望对每次告警都做基本的初因判断,帮助SRE快速定位问题。
  • 故障自愈:对于可以自动化处理的告警希望不耗费人力介入处理。
  • 告警源集成:目前仅接入Prometheus告警,还可以集成其他数据源,比如zabbix、阿里云、腾讯云等。
  • 分派策略:目前仅有按告警级别的分派策略,希望可以基于Label、时间段等进行分派,满足更复杂的告警需求。

所以,目前监控平台V1.0版本的架构流程大致如下:


其中主要涉及:

  • 管理端:便于SRE工作期间的告警管理,包括不限于接入配置、告警处理、历史查询等。
  • 移动H5端:便于使用手机查看、认领、屏蔽告警信息。

另外,管理端又分前后端,其主要使用gin-vue-admin框架实现。

目前成果展示如下:

(1)仪表盘


(2)协作空间


(3)故障列表


(4)通知模板


(5)通知渠道


(6)通知策略


(7)排班管理


另外,每一个协作空间里面也会单独列出该空间的告警信息,如下:


通知策略目前仅可以按告警级别进行通知,如下:


告警通知端接收到的告警信息如下:


其中点击未解决告警,即进入H5页面,也会展示相关的告警信息,如下:


以上就是目前告警平台实现的主要功能,有些功能不够完善,有些功能还缺失,各位大佬如果有好的建议欢迎留言。


最后,求关注。如果你还想看更多优质原创文章,欢迎关注我们的公众号「运维开发故事」。

如果我的文章对你有所帮助,还请帮忙点赞、在看、转发一下,你的支持会激励我输出更高质量的文章,非常感谢!

你还可以把我的公众号设为「星标」,这样当公众号文章更新时,你会在第一时间收到推送消息,避免错过我的文章更新。




我是 乔克,《运维开发故事》公众号团队中的一员,一线运维农民工,云原生实践者,这里不仅有硬核的技术干货,还有我们对技术的思考和感悟,欢迎关注我们的公众号,期待和你一起成长!



运维开发故事
由一群志同道合的小伙伴共同维护,有运维也有开发,内容不限于Linux运维,devops工具链,k8s容器化技术,监控,日志收集,网络安全,Python或GO开发,团队成员有乔克、wanger、冬哥、素心、华仔、郑哥、夏老师
 最新文章