事件风暴

企业处理事件风暴的 2 种最佳管理方法

浪子不回头ぞ 提交于 2019-11-27 13:35:11
Moogsoft 的员工 Steve Burton 曾分享过一个非常极端但不少见的事例:有个服务提供商 4 万台服务器每小时生成超过 60 万个事件,而且其中有 4.7 万张帮助工单,每月有 2000 次以上的二级升级。也就是说,每天都有 66 次升级,不过这还不是最糟糕的。最糟的是,这 4.7 万张帮助工单须由几百号人进行手动分析、排列优先级以及分类。 ##### 现阶段事件管理现状 目前,IT运营中的事件管理 ( Event management ) 是手动的、劳动密集型的(因此成本高昂)活动,难以扩展。企业每年要在事件风暴管理上花掉 7000 万 rmb 以上,以期能在生产业务受到冲击之前发现异常现象和意外事件。 过去,事件数量相对较小且变化幅度不大,企业通常采用 IBM Netcool 或 CA Spectrum 等传统管理系统进行事件管理。IT 运营团队会制定并维护一些基本规则和筛选方法,从而聚合事件或使事件关联(例如,若事件 A 和事件 B 同时发生,则将两个事件合并以创建事件 C )。在 IT 运营仅需处理几百个熟知的事件时,这种事件管理形式是可行的。不幸的是,如今的 IT 运营团队面临的是几百万个事件,没有一个人能足够迅速地制定规则或筛选方法来处理这些庞大的事件。这就解释了为什么如今 IT 运营非常重视机器学习和数据科学,以及 LZ 在 Steve Burton