信息大爆炸的时代,互联网企业的运维人员每天都要处理成千上万的信息。如何处理这种纷繁复杂的情况?面对各种运维事件,想获得足够的告警信息,单一的监控系统往往是不够的。而告警的问题若得不到及时的发现与处理,就很容易受到用户投诉。
告警风暴来临,信息无法聚合日新月异的专业监控软件陆续问世,越来越多的工具在监测告警方面变得越发的专注、极致。91%的运维团队同时用着多种监控工具,这些工具每天都会发出成百上千个告警。不幸的是,在这些告警触发之前,只有27%的团队会做一些有关聚合与过滤的事情。那么由此会产生什么后果呢?运维团队面对冗杂且繁复的告警信息,会加重每位成员的负担,经常处于精疲力尽的状态中。
这样下去,团队会被大量无休止的告警所湮没。运维工程师们很难了解,哪些告警信息才是最关键的?哪些告警信息是重复可替代的?哪些告警信息又是可以忽略且清除掉的?于是处理告警就成了最头疼的事情,而且把时间都耽误在了处理错综复杂的无效告警上,错失掉真正需要关注的信息。后果就是,把用户的怒火点燃了,难以被补救。
如上所述,大部分的运维团队购买了若干个监控系统用以监测应用性能,然而却会导致网络故障,服务器不堪重负,人员配置跟不上等。除了监控系统的安装数量过多,传统的监控方式也是一直以来很大的问题。由于手动效率过于低下,尽管 Email 在高风险的事件报警传达中传播的速度很慢,但在团队的沟通中也经常迫于无奈被广泛的使用。电子邮件的方式不仅没有一个清晰的告警提醒概念,也无法让用户有效的去追踪报警侵袭的源头。
而且从电子邮件中,往往得不到太多有用的价值去分析,也就无法真正意义上去衡量系统的健康状况。有很多 IT 团队还经常依靠 Excel 表格做记录、管理监控告警事件。这样做势必会在监管体系里,浪费掉大量而又宝贵的时间。据不完全统计,有一半以上的运维团队对他们的告警监控系统苦不堪言。
无法筛选重要的告警事件,对业务带来巨大挑战
研究调查表明,85%的运维团队都曾错失过极为严重的告警事件,并且99%的人都承认遗漏掉的告警,对他们的业务发展有着潜在且巨大的风险。丢失掉的报警往往会引发一系列的问题,处理不掉就会很容易造成停工懈怠,而此类问题会急速地降低用户体验,大幅度缩减企业收益,甚至导致企业面对更大的商业威胁。可见,强大的告警监控武器,在商业化数据化的今天,起着关键性的作用。那么面对这样的问题,运维人员能做些什么呢?是不是所有的监控系统除了性能单一,就是复杂难懂?有没有一种简单的告警,集百家之长,排万家之短,对告警信息做些分类和分工,并且能够自动化的升级呢?
告警压缩工具呼之欲出,运维人员或可尝试 OneAlert
以下两个特性尤为关键:一是需要一栈式地为告警事件的响应做出统一且合理的安排和规划,最大限度的将告警压缩,合并信息的根源,避免低端无效的告警信息。二是具备自动化的升级功能,能够把最佳的方案放到最合适的环境中去运用,并逐层分级指派给特定的人选。不断的调整优化时间管理流程,以确保能够为运维团队发挥最大的益处。国内有一款叫 OneAlert 的工具,就具备了这样的功能,运维人员可以一试。
告警监控的重要性是不言而喻的,找到痛点并有序的进行下一步工作,才能够更好的改善告警响应机制。
OneAlert 是应用性能管理领军企业 OneAPM 公司旗下产品,也是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性。想了解更多信息,请访问 OneAlert 官网 。
来源:oschina
链接:https://my.oschina.net/u/2365986/blog/538991