趣店线上监控报警系统设计与实现
理想很丰满,现实很骨感,线上业务系统,绝对不会万事如意,外在因素太多,总会出现这样那样的问题,所以,智能监控和报警,变得尤为重要;线上问题永远都是最重要的问题,必须尽早发现尽早解决。 一、背景 一张网络图,比较形象的描述线上业务系统的状况,虽然有点儿夸张,但这不假: 二、大纲 业务监控系统架构分析 监控模块的设计与优化 监控智能化的一些尝试 三、业务监控系统架构 没有完美的架构,任何架构都是平衡妥协的结果 3.1 设计背景 监控项不完善,需要快速完善监控项(痛点:快速实施) 运营活动频繁,报警收到麻木(痛点:报警太多) 上线调整时无实时直观的参考(痛点:不及时,不直观) 3.2 主流架构 3.2.1 案例 阿里: 蘑菇街: 3.2.2 特点 架构的核心关键字是:海量、实时 侧重于大数据的处理,报警分析偏弱,没有解决当时的痛点问题 公司已有大数据部门在做类似的事情 监控人手紧张且缺乏相关经验,存在一定风险 思考:大数据是否应该属于监控系统的一部分? 3.3 趣店当前监控架构 基于现有业务监控开发,利用已有资源 利用队列将系统拆分成不同模块,方便升级 利用现有的优秀开源软件 四、监控模块设计与优化 各个模块可以随时被更优的方案替换 4.1 采样模块 采集源: SQL、API、ElasticSea ch (实时日志收集)、其他更多 运行方式: crontab定时运行