当然不是指像上图那样一边开着车听着歌,握着男/女朋友的手,一边查看告警邮件的时候要慢一点。原因大家都懂的,我就不拆了(因为你们都是单身狗啊!单身狗啊!单身狗啊!)。这里要说的是,如果你们选择了用 OneAlert 来接收告警邮件,查看的时候可一定要慢一点,慢一点,再慢一点啊!为啥呢?
######在你还没有用 OneAlert 的时候……
我们责任心爆棚的运维菌们,为了让用户有更好的体验,为了系统不挂,为了不被领导骂,为了升职加薪,为了迎娶白富美……通常会使用各种各样的监控工具来对系统性能进行全方位的监控,比如功能强大又免费的 Nagios,Zabbix。你想用它们来监测 CPU 使用率,磁盘利用率,网卡吞吐量等等。你设定好了阈值,想让它们在故障发生时给你发封邮件通知一下。然后,噩梦开始了……
镜头一:初入职场的运维菌小张负责维护公司里的一台服务器。小张对她呵护备至,第一天就配置好了 Nagios,希望能第一时间知道她哪不舒服了。某天半夜1点,她终于宕机了。告警邮件如约而至,然而早上7点起床睁眼抓起手机的小张却当场石化了。新邮件通知设置成了静音的他一共收到了:1台服务器x1条进程x1次/分钟发出告警x6小时x60分钟=360封邮件……小张草草扫了一眼,内容实在懒得看,快速点击全部勾选,一页一页地直接全部删除掉。然而这其中还夹杂着几封关于磁盘已写满的告警以及老板明天早上请喝茶的邮件……
镜头二:后来小张开始负责10台服务器的维护,每台服务器100条进程。某天机房停电了……看到第一封宕机告警邮件后小张立即打开 Nagios,关闭告警。然而接下来的十几分钟他并不孤单,因为他一共收到了:10台服务器x100条进程x1次/分钟发出告警x1分钟=1000封邮件……手机、电脑「bibibi」响个不停,邮件一封封地往邮箱里蹿。十几分钟后终于「bibi」完了,世界终于安静了下来。邮件量太大,小张还是不看内容,直接快速点击全部勾选,一页一页不停地删除邮件……然而这其中仍旧夹杂着几封其他类型的告警以及重要的工作邮件。
镜头三:现在的小张手下已经有100台服务器了,每台服务器还是100条进程。某天小张正在开会的时候,机房又停电了……收邮件的过程太过残酷,就不详述了。不过这次小张吸取了之前的教训,决定翻翻看里面有没有其他告警或者工作邮件。翻了几十封后,小张呵呵哒了,决定还是直接一页一页全都删了吧。其他的告警通知和重要的工作邮件也只好一块拜拜了。
小张很苦恼,发现自己绝大部分精力都耗费在了这些告警噪音上不说,好多正事儿还都被耽误了。但又不能因噎废食,完全把告警系统停用掉。小张该怎么办?
######发现问题了吗?
监控工具自带的告警系统其实并不实用,它只会按照你之前设置好的规则机械性地持续发出告警,不会考虑告警信息的重复性、关联性,更不会考虑你当前是否方便查收邮件,是不是需要通知其他同事。一系列过多,重复,冗余的告警通知形成的告警风暴,不仅会使我们的运维人员产生告警疲劳,疲于应对成百上千封邮件,只想赶快把它们都删除掉。还会因此漏掉一些重要的告警,导致故障不能及时解决。日常工作也会受到影响。
######如果你用了 OneAlert!
如果小张使用了「OneAlert 告警平台」来对监控工具发出的告警进行处理,将会是怎样的呢?
因为 OneAlert 会按照时间序列对告警进行压缩,初入职场的小张会收到:1台服务器x1条进程x1次/分钟发出告警x6小时x60分钟x1分钟=1封告警邮件;
因为 OneAlert 会按照关联关系对告警进行压缩,后来的小张会收到:10台服务器x100条进程x1次/分钟发出告警x1分钟=10封邮件;
因为 OneAlert 会按照时间序列和关联关系对告警进行压缩,现在的小张会收到:100台服务器x100条进程x1次/分钟发出告警x N分钟x1分钟=100封邮件。
看到没,邮件量瞬间就少了99%!留下来的都是经过压缩合并后的告警信息,每一条都很重要,所以查看的时候一定要慢一点哦~
(机器学习&人工智能压缩模式正在开发 ing,敬请期待~)
但是小张又有疑问了:每个故障你只通知我一次,感觉很不靠谱呀,万一我又刚好错过了那一次,岂不是完蛋了?!
没错,监控工具自带的告警系统通常只支持邮件通知,顶多再加个短信通知。但是 OneAlert 不同!邮件通知后没反应?没关系,两分钟后再通过微信推一次。还是没反应?网断了?没关系,两分钟后通过短信再推一次。还没反应?没关系,两分钟后再打电话通知一下。还是没反应?那你已经关机或是睡着了吧,这个时候恐怕再发100封邮件也叫不醒你了。。况且为了能在第一时间解决故障,我们也来不及等到你醒了再去处理了。赶紧推送给小李吧!四种方式挨个儿通知一遍,小李也睡了?接着推送给小王。如此升级,直到团队内有人响应为止。
通过多种方式的可靠通知以及告警信息的有序分发,及时响应故障的重担不再是完全压在一个人身上了,能够确保整个团队能在第一时间内采取应对措施。现在你还认为监控工具一封又一封没完没了的邮件是必要的吗?
所以,用了 OneAlert 后,你收到的都将会是重要的,不重复的,需要帮助队友解决的告警邮件。查看的时候一定不要草草了事,匆匆删除,要慢一点,仔细看好了再处理呀!~
(PS:一想到这么实用又免费的产品还有好多运维菌都还没开始用呢,就好捉急啊!好想问问叶璇和郭富城他们的降头是在哪团购的,我也好想买一个下给屏幕前的各位小张,让你们一看到这儿就忍不住要立即猛戳免费使用体验一把啊!)
免费使用←请猛戳它!
免费使用←请猛戳它!
免费使用←请猛戳它!
来源:oschina
链接:https://my.oschina.net/u/2365986/blog/541703