第四章 监控
作者: Steven Thurgood、David Fergusonwith 翻译:李佩京 编辑: Alex Hidalgo、Betsy Beyer 校验:张胜楠,臧万顺,樊帅宇,刁冰雪 监控涉及到多种类型的数据,包括监控指标,纯文本日志,结构化日志,分布式跟踪日志, event introspection。 以上各种数据都有它们各自的用处,但是本章主要讨论监控指标和结构化日志。根据我们的经验,这两种数据最适合SRE的基础监控需求。 从根本上讲,监控系统应当能够透视系统的内部,当需要判断服务的健康状态和诊断服务问题时,这是最关键的需求。在第一版SRE的第6章中给出了一些基本的监控方法,并且提到SRE监控他们系统的主要目的有: 当达到阈值时触发报警 诊断和分析服务问题 展示系统的可视化信息 获取系统资源使用情况或服务健康状况的变化趋势,以便做长期计划 比较变更前后的系统变化或一个实验的两组样本的不同 这些用例的不同重要程度能指导你在选择或构建一个监控系统时做出权衡。 本章讨论Google如何管理监控系统,并提供一些如何选择和运行监控系统的指导意见。 监控策略的特征 在选择监控系统时,理解那些你关心的功能并对它们进行一个优先级的排序很重要。如果你正在评估一个监控系统,本节提到的这些特性可以帮助你思考哪种方案最适合你。如果你已经有一个在运行的监控系统了