大多 IT 运营支撑同学都有过深夜业务应用突然故障的经历,监控系统准确告警,但是白天筋疲力尽的运维同学在熟睡中,经常会遗漏告警提醒;往往是接到主管电话(用户投诉了)才处理。有什么办法解决该问题呢?大多人是这么做的:
建立7x24小时的一线值班团队,搞一个监控室,值班人员随时警备,负责告警响应和协调调度工作。一年至少花费:4人(2班)x15万/年=60万/年,也就土豪公司的可以搞搞,中小型公司肿么办?
我们部分赞同该思路:
建立7x24小时的 on-call 机制,随时响应解决,通过团队协作的机制来进行保障。
但在具体的方法和形式上,需要一个好的工具是可以支撑起7x24小时的 on-call 团队,重点之一是:
有效的告警通知,而且是通知必达(如主管电话)。
##如何通知必达?
OneAlert 之前已经支持了微信、短信、邮件、移动APP、页面级提醒,新版4.1.2.0新增电话通知,再也不怕深夜故障啦。
这次优化包括2部分:
-
新增电话提醒,智能语音播报告警内容,即使是深夜,你也能够及时唤醒,第一时间处理故障。避免手机网络不稳定引起的微信、邮件、移动 APP 不及时现象,基本上电话是不可抗拒的,除非关机。当然如果关机的话(7x24不允许关机),OneAlert 的升级分派策略会同时通知其他同学。
-
阶梯式延迟提醒通知。告警事件过来后,多个渠道可以延迟的方式通知。如果在这个过程中有人响应该告警了,那么就没有必要进行后续的提醒通知了。例如同时通知给2名值班同学 A 和 B,其中同学 A 收到微信提醒后,确认(响应)该告警了,那么同学 B 就不会继续收电话通知了。
##7x24 on-call
回到原先的话题,如何构建7x24 on-call 机制去及时响应故障。
中小企业运维支撑同学就可构建一个 on-call 团队,告警事件的处理会逐渐进入正轨,并有序处理。
##结束语
这次新版本发布, OneAlert 已经实现两个中国领先:通知渠道领先和接入监控平台领先。
OneAlert 作为中国领先的云告警平台,后续版本将在以下方面发展:
- 更多的国内外主流监控工具,以及主流 IT 协作工具。
- 更多的通知运营商和集成商,提升渠道可靠性。
OneAlert 是北京蓝海讯通科技有限公司旗下产品,中国第一个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性。想了解更多信息,请访问 OneAlert 官网 。
来源:oschina
链接:https://my.oschina.net/u/2365986/blog/503519