阿里10年:一个普通技术人的成长之路
一 关于我 宋健,花名宋意,2008年开始参加工作,至今12年多一直专注在运维领域。2010年6月加入支付宝,做过监控、SRE、资源管理、运维产品等方面的工作,经历并参与了阿里运维从脚本到工具化再到自动智能化的演进过程,在阿里的10年根据部门变化有三个阶段: 2010.6-2013.1,支付宝(系统运维部) 2013.2-2015.12,技术保障(支付宝、阿里云、淘宝、B2B等运维部门统一后的新BU) 2016.1-至今,天基(负责阿里全球数据中心和运维体系的“数字化、自动化、智能化”建设) 二 我的经历 1 支付宝 关键词:开源监控、监控值班、应急响应 入职后加入的团队是运维部的监控组,那个时候团队刚刚开始组建,所有的东西从零开始,好在有B2B的兄弟团队可以借鉴经验,利用nagios快速构建了支付宝第一代监控系统。过了几个月由于双11的原因,我们的上班地点由华星时代搬到了电信二枢纽机房,因为支付宝当时的核心机房在那里,我们需要7*24在现场以便快速处置紧急事件。当时小组应该是6个同学,一白班一晚班一正常班,我们一边值班一边维护监控系统。 随着业务的快速发展服务器不断增加,很快一台nagios已无法满足需求,调研后引入centreon解决了nagios的水平扩展问题。监控项的添加和维护以编辑nagios配置文件为主,没有办法开放所有人员,因此监控项的维护工作也是由监控团队负责