sre

第一章 SRE与DevOps之间的联系

旧时模样 提交于 2020-02-05 05:22:37
作者:By Niall Richard Murphy,Liz Fong-Jones, and Betsy Beyer,with Todd Underwood, Laura Nolan,and Dave Rensin 翻译:张翔 校验:妙晓光 王运祥 王文勤 徐梦茹 齐凯华 郭晓东 运维是一门很难的学科。 不但没有解决如何很好地运行系统,即便那些已经在使用的最佳实践也是高度依赖环境且未被广泛采纳的。 并且最重要的,没有解决如何良好地管理运维团队这一问题。人们普遍认为,对这些问题的详细分析源于二战期间致力于改善盟军军事进程和产出的作战研究,但事实上,长期以来我们一直都在思考如何更好地实践。 尽管有这么多的努力和想法,可靠的生产运维仍然是难以保障的,特别是在信息技术和软件可操作性领域, 例如: 企业通常将运维视为成本中心, 这使得对结果进行有意义的改进变得困难甚至不可能。 这种短视的方法还没有被广泛理解, 但对它的不满却已经引发了IT领域对如何组织工作方面的一场革命。 这场革命源于试图解决一系列普遍问题, 并诞生了两个不同的解决方案: DevOps 和 SRE(Site Reli‐ability Engineering)。 尽管单从描述上看,他们是企业完全不同的两个方面,需要单独讨论,但事实上,它们的相似之处,要远比我们想象的多。 但首先,我们需要来了解一下每种原则的背景。

第四章 监控

巧了我就是萌 提交于 2020-01-14 19:25:09
作者: Steven Thurgood、David Fergusonwith 翻译:李佩京 编辑: Alex Hidalgo、Betsy Beyer 校验:张胜楠,臧万顺,樊帅宇,刁冰雪 监控涉及到多种类型的数据,包括监控指标,纯文本日志,结构化日志,分布式跟踪日志, event introspection。 以上各种数据都有它们各自的用处,但是本章主要讨论监控指标和结构化日志。根据我们的经验,这两种数据最适合SRE的基础监控需求。 从根本上讲,监控系统应当能够透视系统的内部,当需要判断服务的健康状态和诊断服务问题时,这是最关键的需求。在第一版SRE的第6章中给出了一些基本的监控方法,并且提到SRE监控他们系统的主要目的有: 当达到阈值时触发报警 诊断和分析服务问题 展示系统的可视化信息 获取系统资源使用情况或服务健康状况的变化趋势,以便做长期计划 比较变更前后的系统变化或一个实验的两组样本的不同 这些用例的不同重要程度能指导你在选择或构建一个监控系统时做出权衡。 本章讨论Google如何管理监控系统,并提供一些如何选择和运行监控系统的指导意见。 监控策略的特征 在选择监控系统时,理解那些你关心的功能并对它们进行一个优先级的排序很重要。如果你正在评估一个监控系统,本节提到的这些特性可以帮助你思考哪种方案最适合你。如果你已经有一个在运行的监控系统了

谷歌运维新书《网站可靠性工作手册,SRE最佳实践》

风流意气都作罢 提交于 2019-12-01 01:02:27
最近谷歌发布了一本关于运维新书《The Site Reliability Workbook — Practical Ways to Implement SRE》(网站可靠性工作手册,SRE最佳实践)。这是继《Site Reliability Engineering》后,谷歌推出的关于SRE系列的第二本书。它与前书有什么不同呢? 目标 谷歌SRE工程师David Rensin评价:"这是一本全新的书。它被设计成坐在书架旁边的原件上,让人们在它们之间弹跳,在原理和练习之间移动"。 本书的前言也指出第二本SRE书的目有两个:一、在第一卷中概述的原则中添加更多实现细节;二、消除仅在"Google规模"或"Google文化"中实现SRE的想法。 概述 网站可靠性工作手册的共有达508页,大致遵循第一本书的结构。全书分为三个不同的部分:Foundations(基础),Practices(实践)和Processes(流程)。还有有三个附录:Example SLO Document (SLO文档实例);Example Error Budget Policy(错误处理流程策略实例);事后分析结果(Results of Postmortem Analysis.)。 章节目录 内容表非常详细,下面是具体章节,供大家参考: 1. SRE如何与DevOps相关联。 2.实施SLO(Service level