研发团队

对抗不可执行告警的四种措施

一世执手 提交于 2019-12-30 17:13:36
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 对于运维团队而言,很多告警其实并不能帮助他们解决掉实际的问题,相反有时会加重多余的负担,这主要是因为大多数的告警并不具备足够的可执行性: 它们指出的问题压根儿不需要响应 它们缺少关键的信息,迫使你需要花费很长的时间去寻找更多的源头,用以来估量它们的紧迫性 过量的不可执行告警会造成 告警疲劳 ,浪费时间和资源,从而耽误你解决实质性的问题,可能这些已经在你身边正悄无声息地发生着: 你是否自动忽略收到的多余告警? 你是否收到很多与你无关的告警? 每当你收到告警时,是否为了获得你真正需要的信息而采取一系列常规的行动? 如果有以上这样的情况,就能确定你是在遭受着告警疲劳,本篇将会列出四种常见的不可执行告警及其解决办法。 #### 1、无益的标题 问题:标题是告警的重要组成部分,因为它是你第一眼看到的东西。含糊不清的标题会迫使人们为了获取更多的信息而对告警主体进行不必要的挖掘,而当不同的告警使用相似的标题时,会使你感到更加沮丧、困惑,导致时间和精力上的浪费。 例子:在收到标题为「CPU LOAD 1.90」的告警后,你又收到一个标题为「CPU LOAD 1.80」的告警。这俩告警是否是关于同一个服务器的呢?负载1.80是否关键?这个问题会有什么影响?如果告警能提供解答而不是添加更多的问题,岂不是更好吗? 改进措施