告警信息大爆炸,运维解放秘籍!
信息大爆炸的时代,互联网企业的运维人员每天都要处理成千上万的信息。如何处理这种纷繁复杂的情况?面对各种运维事件,想获得足够的告警信息,单一的监控系统往往是不够的。而告警的问题若得不到及时的发现与处理,就很容易受到用户投诉。 告警风暴来临,信息无法聚合 日新月异的专业监控软件陆续问世,越来越多的工具在监测告警方面变得越发的专注、极致。91%的运维团队同时用着多种监控工具,这些工具每天都会发出成百上千个告警。不幸的是,在这些告警触发之前,只有27%的团队会做一些有关聚合与过滤的事情。那么由此会产生什么后果呢?运维团队面对冗杂且繁复的告警信息,会加重每位成员的负担,经常处于精疲力尽的状态中。 这样下去,团队会被大量无休止的告警所湮没。运维工程师们很难了解,哪些告警信息才是最关键的?哪些告警信息是重复可替代的?哪些告警信息又是可以忽略且清除掉的?于是处理告警就成了最头疼的事情,而且把时间都耽误在了处理错综复杂的无效告警上,错失掉真正需要关注的信息。后果就是,把用户的怒火点燃了,难以被补救。 如上所述,大部分的运维团队购买了若干个监控系统用以监测应用性能,然而却会导致网络故障,服务器不堪重负,人员配置跟不上等。除了监控系统的安装数量过多,传统的监控方式也是一直以来很大的问题。由于手动效率过于低下,尽管 Email 在高风险的事件报警传达中传播的速度很慢