运维告警管理困难重重,我是怎么做到的
随着IT基础设施的云化,应用运行环境的容器化,系统架构的微服务化,越来越多的企业不得不引入更多的工具、更复杂的流程和更多的运维人员,来提升IT系统管理的精细度,但新的问题也随之而来。 在如此庞杂的环境下,数据间紧密相连,一个指标的变化,可能引发一系列的告警连锁反应。不同监控平台的红色标识、不断涌入的告警邮件和短信,紧牵着运维人员的神经,告警管理挑战重重。 充满挑战的运维告警管理: 如何抑制告警风暴? 如何保障重要告警不漏不丢? 如何快速地甄别根因告警? 如何沉淀告警处置经验? 如何快速恢复业务运行? 这些都是每一个运维团队在工作中面临的最棘手的问题。 到底是什么原因 导致如此频发的告警风暴,给告警管理带来如此之高的复杂度呢? 1.应用系统间关系更加紧密 完成一笔业务往往需要跨越多个应用系统,应用调用链路上每个IT单元的问题,都有可能导致业务故障。系统中任何一个监控对象的告警都可能引发其他多个相关策略的告警,海量告警的相关度高达90%,也就是说90%的告警都是可以被归因到一个根源告警上。 2.告警策略设置难以找到平衡点 过高的告警阈值,容易漏掉系统运行故障;而过低的告警阈值,又会带来大量的无效告警,影响运维团队的工作效率。同样,告警检查周期的长短设置也存在类似的问题。往往运维团队为了不落掉告警,不得不提升告警的灵敏度,而这样告警重复率可能高达60%。 3.告警响应的及时性不高