最近谷歌发布了一本关于运维新书《The Site Reliability Workbook — Practical Ways to Implement SRE》(网站可靠性工作手册,SRE最佳实践)。这是继《Site Reliability Engineering》后,谷歌推出的关于SRE系列的第二本书。它与前书有什么不同呢?
目标
谷歌SRE工程师David Rensin评价:"这是一本全新的书。它被设计成坐在书架旁边的原件上,让人们在它们之间弹跳,在原理和练习之间移动"。
本书的前言也指出第二本SRE书的目有两个:一、在第一卷中概述的原则中添加更多实现细节;二、消除仅在"Google规模"或"Google文化"中实现SRE的想法。
概述
网站可靠性工作手册的共有达508页,大致遵循第一本书的结构。全书分为三个不同的部分:Foundations(基础),Practices(实践)和Processes(流程)。还有有三个附录:Example SLO Document (SLO文档实例);Example Error Budget Policy(错误处理流程策略实例);事后分析结果(Results of Postmortem Analysis.)。
章节目录
内容表非常详细,下面是具体章节,供大家参考:
1. SRE如何与DevOps相关联。
2.实施SLO(Service level objectives,服务水平目标)。
3.SLO工程案例研究。
4.监测。
5.警告SLO。
6.消除辛劳。
7.简单。
8.On-Call随时待命。
9.事件响应。
10.死后文化(鞭尸?):从失败中学习。
11.管理负载。
12.介绍非抽象大型系统设计。
13.数据处理管道。
14.配置设计和最佳实践。
15.配置细节。
16. Canarying Releases 灰度发布。
17.识别并从过载中恢复。
18. SRE参与模式。
19. SRE:超越你的墙壁。
20. SRE团队生命周期。
21. SRE中的组织变革管理。
遵旨和介绍
是什么使这本书让你值得对厚厚的500页大部头和那许多例子案例自己研读下去呢?虫虫认为主要是谷歌在SER中坚持地高水准的原则,并且对具体工作实例使原则的细化描述。要实现这些宗旨,需要做很多工作。
在第2章实现SLO中,有一个涉及手机游戏架构的详细示例。首先,你必须学习如何思考"用户如何与系统交互,以及哪种SLI(服务水平指标)将衡量用户体验的各个方面。"然后,你将了解一些SLI以及如何实施和衡量它们。基于SLI,你将学习如何计算SLO(服务级别目标)。一旦你有SLO,你就会看到如何推导出错误预算。那不是结束。你必须记录SLO和错误预算策略。然后,你需要能够及时提供服务SLO合规性快照的报告和仪表板。
结束了吗?然而不是。你必须不断改进SLO目标,并学习如何使用该信息做出决策。
在第3章-SLO工程案例研究中,Evernote和Home Depot讲述了他们进入SRE的故事。
在第4章 监控中,有一些示例可以将信息从日志移动到指标,改进日志和指标,并将日志保留为数据源。
在第6章消除劳动力,有关于使用自动化和停用过滤支持的主目录在数据中心减少劳动力的详细案例研究。
。。。
所以这些遵旨几乎贯穿了每一章。
正如你所看到的,这是一本非常详细和全面的书。前言谦虚地认为它是一本必然有限的书,但我不想看到无限版本中会有多少页。
限期免费下载
虫虫推荐这本书给你,还有一个最大原因,免费,现在谷歌联合出版社做活动,在今年8月23日之前这本书都可以免费下载(landing.google.com/sre/book.html 当然需要翻墙,留言我可以发给你)
来源:oschina
链接:https://my.oschina.net/u/95248/blog/1865122