勇攀监控高峰-EMonitor之根因分析 背景
背景 阿里集团针对故障处理提出了“ 1/5/10 ”的目标-- 1 分钟发现、5 分钟定位、10 分钟恢复,这对我们的定位能力提出了更高的要求。 EMonitor 是一款集成 Tracing 和 Metrics ,服务于饿了么所有技术部门的一站式监控系统,其覆盖了 前端监控、接入层监控; 业务 Trace 和 Metric 监控; 所有的中间件监控; 容器监控、物理机监控、机房网络监控。 每日处理总数据量 近 PB ,每日写入指标数据量 上百 T ,日均几 千万 的指标查询量,内含 上万个 图表、 数千个 指标看板,并且已经将所有层的监控数据打通并串联了起来。但是在故障来临时,用户仍然需要花费大量时间来查看和分析 EMonitor 上的数据 比如阿里本地生活的下单业务,涉及到诸多应用,每个应用诸多 SOA 服务之间错综复杂的调用关系,每个应用还依赖 DB、Redis、MQ 等等资源,在下单成功率下跌时,这些应用的负责人都要在 EMonitor 上查看指标曲线以及链路信息来进行人肉排障以自证清白,耗时耗力,所以自动化的根因分析必不可少。 根因分析建模 业界已经有好多在做根因分析的了,但是大都准确率不高,大部分还在 40% 到 70% 之间,从侧面说明根因分析确实是一个难啃的骨头。 根因分析看起来很庞大,很抽象,无从下手,从不同的角度(可能是表象)去看它,就可能走向不同的路