运维工程师

运维工作应该掌握哪些技能?

杀马特。学长 韩版系。学妹 提交于 2019-12-01 03:02:31
运维工作应该掌握哪些技能? 运维中关键技术点解剖:1 大量高并发网站的设计方案 ;2 高可靠、高可伸缩性网络架构设计;3 网站安全问题,如何避免被黑?4 南北互联问题,动态CDN解决方案;5 海量数据存储架构 一、什么是大型网站运维? 首先明确一下,全文所讲的”运维“是指:大型网站运维,与其它运维的区别还是蛮大的;然后我们再对大型网站与小型网站进行范围定义,此定义主要从运维复杂性角度考虑,如网站规范、知名度、服务器 量级、pv量等考虑,其它因素不是重点;因此,我们先定义服务器规模大于1000台,pv每天至少上亿(至少国内排名前10),如sina、baidu、 QQ, http:// 51.com 等等;其它小型网站可能没有真正意义上的运维工程师,这与网站规范不够和成本因素有关,更多的是集合网络、系统 、开发工作于一身的“复合性人才”,就如有些公司把一些合同采购都纳入了运维职责范围,还有如IDC网络规划也纳入运维职责。所以,非常重要一定需要明白:运维对其它关联工种必须非常了解熟悉:网络、系统、系统开发、存储,安全,DB等;我在这里所讲的运维工程师就是指专职运维工程师。 我们再来说说一般产品的“出生”流程: 1、首先公司管理层给出指导思想,PM定位市场需求(或copy成熟应用)进行调研、分析、最终给出详细设计。 2、架构师根据产品设计的需求,如pv大小预估、服务器规模

标准化

末鹿安然 提交于 2019-12-01 02:57:46
标准先行 标准先行 标准先行 虽然这个事情比较枯燥和繁琐,但是于纷繁复杂中抽象出标准规范的东西,是我们后续一系列自动化和稳定性保障的基础。 万丈高楼平地起 ,所以请你一定不要忽略这个工作。 标准化流程:(四板斧) ( 1)识别对象 ( 2)识别对象的属性 ( 3)识别对象间的关系 ( 4)识别对象的使用场景 基础设施层面的标准化 第一步,识别实体对象,主要有服务器、网络、IDC、机柜、存储、配件等。 第二步,识别对象的属性,比如服务器就会有 SN 序列号、IP 地址、厂商、硬件配置(如 CPU、内存、硬盘、网卡、PCIE、BIOS)、维保信息等;网络设备如交换机也会有厂商、型号、带宽等信息。 第三步,识别对象之间的关联关系,比如服务器所在的机柜,虚拟机所在的宿主机、机柜所在 IDC 等简单关系;复杂一点就会有核心交换机、汇聚交换机、接入交换机以及机柜和服务器之间的级联关系 等,这些相对复杂一些,也就是我们常说的网络拓扑关系。 第四步,识别出针对运维对象所实施的日常运维操作有哪些,也就是识别出运维场景是什么。 以服务器为例,我们针对服务器的日常操作有采购、入库、安装、配置、上线、下线、维修等等。另外,可能还会有可视化和查询的场景,如拓扑关系的可视化和动态展示,交换机与服务器之间的级联 关系、状态(正常 or 故障)的展示等,这样可以很直观地关注到资源节点的状态。 第五步

运维工作内容

十年热恋 提交于 2019-11-30 20:01:02
互联网运维工作,以服务为中心, 以稳定、安全、高效为三个基本点 ,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。 什么是运维和运维工程师: 一、初入运维领域的头衔: 运维实习生 系统管理员 网络管理员 二、使用频率最高的运维头衔: 运维工程师 IT运维工程师 Linux运维工程师 运维开发工程师 应用运维工程师 三、侧重某项技能或行业的运维头衔: 系统运维工程师 数据库运维工程师 网络运维工程师 安全运维工程师 桌面运维工程师 软件运维工程师 业务运维工程师 CDN运维工程师 IDC运维工程师 存储运维工程师 硬件运维工程师 游戏运维工程师 与业务强相关的岗位,如:直播运维工程师、中间件运维工程师 四、新兴的运维头衔: 自动化运维软件开发工程师 DevOps运维开发工程师 五、资深的运维头衔: 高级运维工程师 运维专家 六、走上管理岗位的运维头衔: 运维主管 运维经理 高级运维经理 运维总监 七、最洋气的运维头衔 SRE(Site Reliability Engineer) 运维人员对公司 互联网业务所依赖的基础设施、基础服务、线上业务进行稳定性加强,进行日常巡检发现服务可能存在的隐患,对整体架构进行优化以屏蔽常见的运行故障,多数据中接入提高业务的容灾能力 。 运维的手段=》 通过监控、日志分析等及时发现和响应服务故障,减少服务中断的时间,

Linux系统运维之修炼秘法

前提是你 提交于 2019-11-30 16:11:51
在这个现如今的互联网高速发展的时代,如何才能保持住一门铁的饭碗。无疑最稳妥的自然就是选择一门任何时代都不会落伍的技能,来选择深入学习研究。大家可能觉得这一期的Linux就该这么学的话题比较世俗。但是不得不说,当下时代唯有一定的经济能力,才可稳当的在这个社会上立足。 而接下来要给大家介绍的就是一门发展延伸了很多年且越来越火的技能,那就是我们今天的猪脚——Linux运维。而想要拿到铁饭碗乃至高薪。那唯有将Linux运维这部功法修炼到至高境界。才有拿到高薪的机会。而本期讨论的就是如何修炼Linux运维。 首先先给大家看一下 Linux 运维工程师必备技能: Linux系统基础 网络服务 Shell脚本语言 数据库 防火墙 监控工具 集群于热备 数据备份 文本处理 正则表达式 然后在这里给大家罗列出几条Linux运维修炼心经: 1 、从思维上摆脱传统 Windows 系统思维模式。 相信绝大部分人使用计算机时所接触到的首个操作系统仍然是Windows系列操作系统,而且可能在接触Linux操作系统之前已经使用了很长时间的Windows系统操作系统了。这样,就很容易在我们的脑海里形式Windows系统操作系统的操作习惯和思维习惯。 虽说Linux和Windows均是操作系统,功能上没有太大的差别。但是,Linux的操作习惯和思维方式与Windows还是有很大差别的。如,笔者第一次安装好“蓝点

运维工程师学习知识点(技能)

送分小仙女□ 提交于 2019-11-30 11:56:32
基本知识 linux系统、常用命令、应用软件(特别是nginx,tomcat,redis,mysql)、shell 高级知识 性能测试、集群搭建、python、防火墙、容器化平台、开源 熟练主流Linux系统(centos)管理、网络管理,TCP/IP协议,相关网络调试工具; 熟练主流应用软件(特别是nginx,tomcat,redis,mysql)的安装、配置和优化; 熟练CI CD流程; 熟练监控告警系统; 熟练shell编程; 熟悉python者优先; 熟悉性能测试者优先; 有mysql等数据库维护经验者优先。 精通Linux操作系统的使用与维护 精通linux各种常用命令 能用Shell脚本语言编程 熟练掌握Python者 各种应用lvs/nginx/tomcat/LAMP/ 配置和性能优化 至少熟练使用Shell、Perl、Python等脚本编程语言的一种,熟练使用 shell/bash,应用shell解决相关问题 熟悉常见IT监控运维产品(如:nagios/cacti/zabbix软件等配置与使用) 熟悉虚拟服务器的配置与优化vmware/kvm/Docker等 深入理解TCP/IP的通讯原理,掌握各种路由协议的技术原理及部署方式,熟悉VPN、防火墙、NAT等网络技术和应用 --数据库 熟悉Mysql、Kafka、Redis、Mongodb等常见 熟悉Redis

Linux 运维入门到跑路书单推荐

。_饼干妹妹 提交于 2019-11-29 21:39:12
一、基础入门 《鸟哥的Linux私房菜基础学习篇》 :最具知名度的Linux入门书《鸟哥的Linux私房菜基础学习篇》,全面而详细地介绍了Linux操作系统。 https://book.douban.com/subject/4889838 《鸟哥的Linux私房菜服务器篇》 :从系统基础以及网络基础讲起,再谈到网络攻击与防火墙防护主机后,才进入服务器的架设。全面了解如何维护与管理您的服务器。 https://book.douban.com/subject/10794788/ 《Linux命令行与shell脚本编程大全》 :非常适合Linux小白的入门教程,内容通俗易懂、深入浅出,除了日常工作中用的基础命令之外,像正则表达式、sed、awk 这样的高级命令也有介绍,书上还配有大量的实例,如果你想精通 shell 编程,那么这本书就是为你准备的。 https://book.douban.com/subject/26854226/ 《UNIX/Linux 系统管理技术手册》 :三大部分内容:第一部分全面介绍了运行单机Linux系统涉及的各种管理知识和技术;第二部分从详细讲解TCP/IP协议基本原理开始,深入讨论了网络的两大基本应用——域名系统和路由技术,然后逐章讲解Linux上的各种Internet关键应用;第三部分包括了多种不容忽视的重要主题。 https://book.douban

作为一名合格的运维工程师,必须掌握的基础技能有哪些?

孤者浪人 提交于 2019-11-29 17:03:55
作为一名合格的 运维工程师 应该具备哪些技能呢?今天与大家一起分享运维工程师必备技能。 1. Linux 基础 包括对Linux整体的理解/使用和基本命令: 了解Linux FHS : Filesystem Hierarchy Standard; 入门Linux: http://edu.51cto.com/course/course_id-1965.html 这是很好的入门课程;基本操作命令:Google,如Linux command cheat sheet;熟悉至少一个内置编辑器: vi, nano;至少熟悉一个发行版(或系列),建议作为服务器常用的如Centos, Debian, Ubuntu,可以了解多个常用发行版;个人使用/开发尽量在Linux上,可以学到很多东西。 2. 运维的命令: 运维相关的工具(命令),了解它能解决很多问题。如何才能更深入的学习linux?先给大家看一张图: 3. 基础服务 LAMP 或LNMP :Apache/Nginx,MySQL,PHP/Python/Perl LAMP (software bundle)、FTP、DNS、SAMBA、EMAIL、NTP、DHCP… 可以本地搭建练练手,推荐 Linux 高级服务器架设视频课程 4. 运维平台工具 Nagios Puppet Zabbix Cacti SaltStack.... 5. 脚本 必备

Linux 运维工程师的六类好习惯

筅森魡賤 提交于 2019-11-28 22:15:36
一、线上操作规范 1.测试使用 当初学习Linux的使用,从基础到服务到集群,都是在虚拟机做的,虽然老师告诉我们跟真机没有什么差别,可是对真实环境的渴望日渐上升,不过虚拟机的各种快照却让我们养成了各种手贱的习惯,以致于拿到服务器操作权限时候,就迫不及待的想去试试。 记得上班第一天,老大把root密码交给我,由于只能使用putty,我就想使用xshell,于是悄悄登录服务器尝试改为xshell+密钥登录,因为没有测试,也没有留一个ssh连接,所有重启sshd服务器之后,自己就被挡在服务器之外了,幸好当时我备份了sshd_config文件,后来让机房人员cp过去就可以了,幸亏这是一家小公司,不然直接就被干了……庆幸当年运气比较好。 第二个例子是关于文件同步的,大家都知道rsync同步很快,可是他删除文件的速度大大超过了rm -rf,在rsync中有一个命令是,以某目录为准同步某文件(如果第一个目录是空的,那么结果可想而知),源目录(有数据的)就会被删除,当初我就是因为误操作,以及缺乏测试,就目录写反了,关键是没有备份……生产环境数据被删了 没备份,大家自己想后果吧,其重要性不言而喻。 Enter前再三确认 关于rm -rf / var 这种错误,我相信手快的人,或者网速比较慢的时候,出现的几率相当大。 当你发现执行完之后,你的心至少是凉了半截。 大家可能会说,我按了这么多次都没出过错

Linux运维精华常见基础面试题

痞子三分冷 提交于 2019-11-28 11:20:24
尽管运维是做的最苦最累的活,最容易背锅的一个岗位,大家还是应该在工作中不断提高自己。 下面是一名资深Linux运维求职数十家公司总结的Linux运维面试精华,助力大家跳槽找个高薪好工作。 1、你理解的运维是什么,什么是游戏运维? 1)运维是指大型组织已经建立好的网络软硬件的维护,就是要保证业务的上线与运作的正常, 在他运转的过程中,对他进行维护,他集合了网络、系统、数据库、开发、安全、监控于一身的技术 运维又包括很多种,有DBA运维、网站运维、虚拟化运维、监控运维、游戏运维等等 2)游戏运维又有分工,分为开发运维、应用运维(业务运维)和系统运维 开发运维:是给应用运维开发运维工具和运维平台的 应用运维:是给业务上线、维护和做故障排除的,用开发运维开发出来的工具给业务上线、维护、做故障排查 系统运维:是给应用运维提供业务上的基础设施,比如:系统、网络、监控、硬件等等 总结:开发运维和系统运维给应用运维提供了“工具”和“基础设施”上的支撑 开发运维、应用运维和系统运维他们的工作是环环相扣的 2、在工作中,运维人员经常需要跟运营人员打交道,请问运营的人员是做什么工作的? 游戏运营要做的一个事情除了协调工作以外 还需要与各平台沟通,做好开服的时间、开服数、用户导量、活动等计划 3、现在给你二三百台服务器,你怎么对他们进行管理? 管理3百台服务器的方式: 1)设定跳板机,使用统一账号登录

深入解析和反思携程宕机事件【转自https://www.infoq.cn/】

狂风中的少年 提交于 2019-11-28 05:02:46
宕机时间 2015 年 5 月 28 日 携程网宕机事件还在持续,截止 28 号晚上 8 点,携程首页还是指向一个静态页面,所有动态网页都访问不了。关于事故根源,网上众说纷纭。作为互联网运维老兵,尝试分析原因,谈谈我的看法。 宕机原因分析 网上有各种说法,有说是数据库数据和备份数据被物理删除的。也有说是各个节点的业务代码被删除,现在重新在部署。也有说是误操作,导致业务不可用,还有说是黑客攻击甚至是内部员工恶意破坏的。 先说一下最早传出来的“数据库物理删除”,其实这个提法就很不专业,应该是第一个传播者,试图强调问题之严重和恢复之困难,所以用了一个普通电脑用户比较熟悉的“物理删除”的概念。实际上,任何一个网站的数据库,都分为本地高可用备份、异地热备、磁带冷备三道防线,相应的数据库管理员、操作系统管理员、存储管理员三者的权限是分离的,磁带备份的数据甚至是保存在银行的地下金库中的。从理论上而言,很难有一个人能把所有的备份数据都删除,更不用说这个绘声绘色的物理删除了。 第二个则是黑客攻击和内部员工破坏的说法,这个说法能满足一些围观者猎奇的心理,因此也传播的比较快。但理性分析,可能性也不大。黑客讲究的是潜伏和隐蔽,做这种事等于是在做自杀性攻击。而内部员工也不太可能,我还是相信携程的运维人员的操守和职业素养,在刑法的威慑下,除非像“法航飞行员撞山”那种极个别案列