#研发解决方案介绍#基于StatsD+Graphite的智能监控解决方案
郑昀 基于李丹和刘奎的文档 创建于2014/12/5 关键词: 监控 、dashboard、PHP、graphite、statsd、whisper、carbon、grafana、influxdb、Python 本文档适用人员:研发和运维员工 提纲: 监控平台要做到什么程度?为什么要自己做? 几个通用技术问题 绘图所依赖的数据如何收集?如何加工?如何存储? 图形如何绘制,各种指标如何叠加? 拓扑关系如何绘制? 技术选型哲学 最终选了statsd+graphite 数据的采集 数据存储的粒度 天机的技术选型 一,监控平台要做到什么程度?为什么要自己做? 运维监控满满都是着各种开源系统以及它们的 Dashboard: Zabbix Nagios Centreon Logstash Ganglia+Cacti 以及各种业务指标趋势的 Dashboard。 我们认为,监控不能只是各种数据的采集和罗列,不仅仅是弄若干个报表并进一步配置成仪表盘, 而是有一定智能,仿照我们日常的排查问题思路,建立一定规则,自动检查,深度检查,友情提示 。 随手举一个例子: 规则:模仿我们发现问题后先检查数据库主从同步是否有问题的习惯 天机系统发现成单金额或验证券数或短信发送条数环比大幅下降后,启动检查规则, 自动逐一检查各种从库的主从同步情况。 如果发现主从延迟超过阈值,则天机 DashBoard