如何把关联性的告警智能添加到 Nagios 上?(2)
######上节回顾 对于许多 IT 和运维团队来说,Nagios 既是一个福音也是一个诅咒。一方面,Naigos 在 IT 应用的工作领域中,给予了你可以实时查看告警数据的可能性;但是另一方面, Nagios 也能够生成超级多的告警,对于任何一个运维人员或是运维团队来说都是 hold 不住的。 由于告警浪潮的原因,我们收件箱时常会爆满,移动电话也会被逼调成静音状态。更令人沮丧的是,这些告警只不过仅仅是噪音而已。 Nagios 所欠缺的就是一个智能的管理系统,可以在噪音背景中,帮助运维人员挑选出真正的有意义的告警。 当然,说起来容易做起来难。 在上一篇文章中,我们讨论了为什么 Naigos 起初会生成如此之多的告警,并且很少是需要实际执行的。 那么现在,让我们来讨论下该如何把告警智能化。 ######告警关联 唯一使监控和报警都步入正轨的好办法,就是通过告警关联。如果成百上千个告警都潜在的指向着同一个根本问题「当然情况也常常如此」,我们需要的就是一种能够瞬间查找到关联这些告警的方法,这才是真正的问题所在。 以下这个例子,可以很好的理解告警关联,并告诉你如何提升应用监控。 例如一个 MySOL 集群,这里面一些主机的页面上有着很高的错误率,而其余一些只是发出低内存的警告。此时你的 Nagios 图表盘在30分钟里,会接受到不止20个独特的告警,这其实看起来没有太大的意义