运维工程师

运维里的人工智能

北城以北 提交于 2020-01-01 10:38:57
J 网易游戏高级开发工程师,负责智能运维的算法和工程开发 运营维护的重要性 说到运维,很多人可能会很陌生,运维是什么,为什么我们需要运维? 21 世纪的今天,我们已经离不开各式各样的游戏,网站和软件。这些服务的背后,是一个又一个的服务器,运行着形形色色的程序。这些服务器只不过是普通的电脑,他们也有普通电脑的烦恼,例如内存泄露,磁盘满了和系统出错等。就算服务器本身没有出问题,服务器里运行的程序,也是会出故障的。 想象一下,你在火车上吃着火锅,唱着歌,突然间游戏的服务器崩溃了,并且长时间都没有恢复,你可能会气得再也不玩这游戏了。现实中服务器总是会出现未知的故障,我们无法完全避免这样的情况,所以运营维护,是提供稳定服务的重要基础。 运维遇到的问题 运营维护中,我们为了检测服务器的故障,会记录下很多的指标来帮助我们识别服务器的异常,例如游戏的在线人数,服务器的 CPU 占用率,内存占用率,磁盘占用率,磁盘写入速度等。这些指标所提供的信息,可以在很大程度上帮助我们识别我们提供的服务是否还在正常状态。但是大量的服务器和指标是无法靠纯人工进行检测的,所以我们借助了电脑程序来进行自动化的异常检测。 异常检测 异常检测可以利用程序检测大量的指标,例如 CPU 暴增,内存暴增,内存占用比例超过了一定的数值等单一指标的规则,来检测服务器是否出现了异常。但是这些检测只能应对简单的情况

崔立强:Dev无感Ops,如何做到高效软件交付

空扰寡人 提交于 2019-12-28 18:32:03
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 在2018第二届研发效能嘉年华上,阿里巴巴云效技术专家崔力强带来了如何做到高效软件交付的精彩演讲,首先介绍了阿里巴巴在近几年在交付平台上的技术经验,以及目前云上工具平台交易的趋势,其次分享了阿里巴巴内部交付平台如何帮助我们统一步调、并行工作,最后详细讲述了Dev无感Ops可以解决DevOps遇到的一些问题。 数十款阿里云产品限时折扣中, 赶快点击这里 ,领券开始云上实践吧! 视频观看请点这 PPT下载请点这 以下为精彩视频内容整理: 阻碍开发者前进的问题 对于一个普通的工程师而言,第一要务是完成需求交付,我们的最终诉求是保障编码、测试、部署的高效。但实际发现我们在交付的过程中并不顺畅,研发流程的混乱经常出现代码错合,漏和,丢代码的现象;质量化下降最主要是代码有bug,线上环境交付不稳定,会有严重问题出现,测试环境不稳定指的是在做集成测试时需有一套环境,若环境不稳定,开发测试工作会被block;团队之间沟通不畅,开发和开发之间,开发和测试之间,没有统一规则或流程约定;一堆开源工具攒出来的开发工具链,不但提高了学习成本,还导致过程数据无法统一存储。几年前,几乎都使用开源工具模式做持续交付,后续发现存在许多问题,于是开始做自建平台过程。 上图为知名公司的一份统计数据,统计持续交付是否能帮助我们提升研发效率

从运维角度看中大型网站架构的演变之路

非 Y 不嫁゛ 提交于 2019-12-20 03:30:37
前言 网上有很多文章类似于我今天要分享的课程,有架构师写的,有运维写的,还有开发些的,偏重点都不同,今天我以咱们运维角度全面讲解。 一个成熟的网站架构并不是一开始设计就具备高可用、高伸缩、高性能等特性的,它是随着用户量和业务线不断增加,基础架构才逐渐健壮的。在发展初期,一般都是从0到1,不会一上来就整一些大而全的架构,也很少人这么任性。 说明 适用业务: 电商/门户/招聘网站 开发语言: PHP和JAVA Web服务: Nginx/Tomcat8 数据库: MySQL 操作系统: CentOS 物理服务器: Dell R730/R430 一、单台服务器部署 项目开发完成上线,用户访问量寥寥无几。 二、WEB与数据库独立部署 有一定用户访问量,单台服务器性能有些吃力,想提高并发能力,增加一台服务器,将HTTP请求与SQL操作负载分散不同服务器。 三、动静分离-初期 什么是动静分离?静态页面与动态页面分离部署。 四、数据库主从与查询缓存 RedisCache 使用Redis缓存数据库查询结果,将热数据放到内存中,提高查询速度,减少数据库请求。 MySQL主从 基于binlog异步复制。 HA MySQL:Keepalived 怎么保证Redis缓存时效性? a) 增加中间件,在主从同步延迟时间内,中间件将SQL读操作还路由到主。 b) 主从同步延迟时间后,再异步发起一次淘汰Cache。

运维的出路

末鹿安然 提交于 2019-12-17 18:16:19
   最近几年感觉压力越来越大了,要学习的东西太多了,几天不学习就感觉要落后了,学习的脚步赶不上新的知识的出现,未来我们的发展在哪里?   论知识的存储量我们是不如电脑的,电脑想存多少都可以,但我们人不行,很多时候我们脑子存储不了那么多,想用的时候也一时半会也取不出来。   想拼知识量,我们人类是干不过电脑的,但总有大批的工程师,总喜欢跟人炫耀知识,以为他懂得多,看到现在的中学生每天还在不停的记各种知识以应付考试,这样学出来有什么用呢,你比得过电脑吗?   那什么是我们擅长而电脑不行的呢?   方法,思维,创造力,这是我们人类强于电脑的,在这方面可以说电脑是一点也没有的。   这么多年从事运维行业以来,感觉最重要的是想法,方法与实施能力,知识点没有,可以百度么,大量的知识性的东西都放在了网上,不需要记,上网查就好了,方法是最重要的,实践能力是最重要的,但作为人类来讲,好逸恶劳的习惯是改不掉的,说总是比做要容易,所以大批工程师就喜欢记各种知识来人前卖弄,以抬高自己。   这样的人多了,风气就不好了。 来源: https://www.cnblogs.com/zyyw/p/10811959.html

什么是运维工程师?运维工程师应该具备的素质

限于喜欢 提交于 2019-12-17 04:25:51
一、什么是大型网站运维? 首先明确一下,全文所讲的”运维“是指:大型网站运维,与其它运维的区别还是蛮大的;然后我们再对大型网站与小型网站进行范围定义,此定义主要从运维复杂性角度考虑,如网站规范、知名度、服务器 量级、pv量等考虑,其它因素不是重点;因此,我们先定义服务器规模大于1000台,pv每天至少上亿(至少国内排名前10),如sina、baidu、 QQ等等;其它小型网站可能没有真正意义上的运维工程师,这与网站规范不够和成本因素有关,更多的是集合网络、系统 、开发工作于一身的“复合性人才”,就如有些公司把一些合同采购都纳入了运维职责范围,还有如IDC网络规划也纳入运维职责。所以,非常重要一定需要明白:运维对其它关联工种必须非常了解熟悉:网络、系统、系统开发、存储,安全,DB等;我在这里所讲的运维工程师就是指专职运维工程师。 运维工程师的职责 : ”确保线上稳定“,看似简单,但实属不容易,运维工程师必须在诸多不利因素中进行权衡:新产品模式对现有架构及技术的冲击、产品高频度的升级带来的线上BUG隐患、运维自动化管理承度不高导致的人为失误、IT行业追求的高效率导致流程执行上的缺失、用户增涨带来的性能及架构上的压力、IT行业宽松的技术管理文化、创新风险、互联网安全性问题等因素,都会是网站稳定的大敌,运维工程师必须把控好这最后一关,需具体高度的责任感、原则性及协调能力

运维分类

。_饼干妹妹 提交于 2019-12-13 00:00:14
系统运维 主要负责:系统运维负责IDC、网络、CDN和基础服务的建设(LVS、NTP、DNS);负责资产管理,服务器选型、交付和维修 IDC数据中心建设 收集业务需求,预估未来数据中心的发展规模,从骨干网的分布,数据中心建筑,以及Internet接入、网络攻击防御能力、扩容能力、空间预留、外接专线能力、现场服务支撑能力等方面评估选型数据中心。负责数据中心的建设、现场维护工作。 == 网络建设== 设计及规划生产网络架构,这里面包括:数据中心网络架构、传输网架构、CDN网络架构等,以及网络调优等日常运维工作 LVS负载均衡和SNAT建设 LVS是整个站点架构中的流量入口,根据网络规模和业务需求,构建负载均衡集群;完成网络与业务服务器的衔接,提供高性能、高可用的负载调度能力,以及统一的网络层防攻击能力;SNAT集中提供数据中心的公网访问服务,通过集群化部署,保证出网服务的高性能与高可用。 CDN规划和建设 CDN工作划分为第三方和自建两部分。建立第三方CDN的选型和调度控制;根据业务发展趋势,规划CDN新节点建设布局;完善CDN业务及监控,保障CDN系统稳定、高效运行;分析业务加速频道的文件特性和数量,制定最优的加速策略和资源匹配;负责用户劫持等CDN日常故障排查工作。 服务器选型、交付和维护 负责服务器的测试选型,包含服务器整机、部件的基础性测试和业务测试,降低整机功率

从自动化到智能化,网易杭研的AIOps探索与实践

风流意气都作罢 提交于 2019-12-11 07:51:53
在大数据时代下,我们借助机器学习、数据仓库、大数据平台等大数据技术手段,将运维产生的数据进行分析、处理,得出最佳运维策略,以期实现对故障的事先干预,将风险降低到最低,从而降低运维成本,提升运维效率,最终实现运维智能化。本文分享网易杭州研究院在这个领域的实践经验。 本文由作者授权发布,未经许可,请勿转载。 作者:席晶晶,网易杭州研究院运维与账号中心工程师 一、运维面临问题与挑战 眼下,随着信息化、数字化的深入发展,技术飞速迭代,应用服务也不断升级,企业面临的运维压力也越来越大,传统运维受到了前所未有的挑战。 (1) 运维内容:传统的互联网运维的内容仅是关注软硬件、网络、应用系统及基础设备的运维,而当前将面临数十万台主机、容器,复杂的网络环境,以及复杂的部署环境:私有云、公有云、跨IDC混合部署。 (2) 运维工具:传统的互联网运维尽管也利用了工具实现了部分工作的自动化,但主要依赖人力,工作量较大,并效率低下,业务快速增长,技术飞速迭代,意味着工具也要顺势升级。 (3) 运维模式:7*24小时服务模式,PE\SA\DBA 成为了“救火式”英雄,监听着成千上万的监控指标,一旦故障出现,SA、PE、DBA、开发童鞋齐上阵,被故障牵着走,被动性强且风险高。 面对新的挑战,网易杭州研究院运维服务团队不仅要打造信息化、数字化的综合管理体系,为企业带来全方位IT运维服务,同时还要提供定制化、专业化

从自动化到智能化,网易杭研的AIOps探索与实践

荒凉一梦 提交于 2019-12-10 16:19:55
在大数据时代下,我们借助机器学习、数据仓库、大数据平台等大数据技术手段,将运维产生的数据进行分析、处理,得出最佳运维策略,以期实现对故障的事先干预,将风险降低到最低,从而降低运维成本,提升运维效率,最终实现运维智能化。本文分享网易杭州研究院在这个领域的实践经验。 本文由作者授权发布,未经许可,请勿转载。 作者:席晶晶,网易杭州研究院运维与账号中心工程师 一、运维面临问题与挑战 眼下,随着信息化、数字化的深入发展,技术飞速迭代,应用服务也不断升级,企业面临的运维压力也越来越大,传统运维受到了前所未有的挑战。 (1) 运维内容:传统的互联网运维的内容仅是关注软硬件、网络、应用系统及基础设备的运维,而当前将面临数十万台主机、容器,复杂的网络环境,以及复杂的部署环境:私有云、公有云、跨IDC混合部署。 (2) 运维工具:传统的互联网运维尽管也利用了工具实现了部分工作的自动化,但主要依赖人力,工作量较大,并效率低下,业务快速增长,技术飞速迭代,意味着工具也要顺势升级。 (3) 运维模式:7*24小时服务模式,PE\SA\DBA 成为了“救火式”英雄,监听着成千上万的监控指标,一旦故障出现,SA、PE、DBA、开发童鞋齐上阵,被故障牵着走,被动性强且风险高。 面对新的挑战,网易杭州研究院运维服务团队不仅要打造信息化、数字化的综合管理体系,为企业带来全方位IT运维服务,同时还要提供定制化、专业化

Linux运维工程师简历项目经验

强颜欢笑 提交于 2019-12-06 16:50:35
如何做好一个合格的运工程师,运维工程师前景怎么样呢?就这些问题,与大家交流一下。首先对于运维工程师的要求是十分严苛的了,运维工程师不但要针对不同的问题做出响应,而且需要不断的补充自己的知识面,并不继提高自己的。与时俱进,不断学习新的技术。 在运维工程师初级阶段,合格优秀运维人员要休现出积极的主动性与责任心,在面对陌生的业务时,要主动快速的学习业务对认识,并拓展相应的知识范畴,以便能够足够胜任并做支独立维护。在这个阶段基础知识要十分炸实,并不断充实自己的。形成自己的知识体系。 在运维逐步的发展阶段中,运维工程师要注重总结反省,并逐渐成长为高阶运维工程师,高级运维工程师,他们都会有自己比较体系化的运维理解。这也是也有一部分运维工程师,由于出色的项目管理方方面面的能力,逐渐成长为项目经理的原因。 随着再进一步的发展,高阶的运维工作工程师,对于产品的方方面面理解将会十分的透彻,因此在这种情况下,高阶运维工程师,甚至可以成为优秀的产品的产品经理,并在产品功能的设计、开发中起到十分重要的角色。 合格的运维工程师,要负责维护并确保整个服务系统的高可用性,同时要不断优化系统架构,并不断提升部署效率、优化资源利用率、进面提高整体系统的ROI。说起来很容易,这需要很多的知识积累。随着技术的日新月异,运维工程师面临的最大挑战,越来越多。大规模集群的管理问题就是其中最棘手之一。如何能够管理好几万台

Linux运维工程师简历项目经验

痴心易碎 提交于 2019-12-06 15:07:38
如何做好一个合格的运工程师,运维工程师前景怎么样呢?就这些问题,与大家交流一下。首先对于运维工程师的要求是十分严苛的了,运维工程师不但要针对不同的问题做出响应,而且需要不断的补充自己的知识面,并不继提高自己的。与时俱进,不断学习新的技术。 在运维工程师初级阶段,合格优秀运维人员要休现出积极的主动性与责任心,在面对陌生的业务时,要主动快速的学习业务对认识,并拓展相应的知识范畴,以便能够足够胜任并做支独立维护。在这个阶段基础知识要十分炸实,并不断充实自己的。形成自己的知识体系。 在运维逐步的发展阶段中,运维工程师要注重总结反省,并逐渐成长为高阶运维工程师,高级运维工程师,他们都会有自己比较体系化的运维理解。这也是也有一部分运维工程师,由于出色的项目管理方方面面的能力,逐渐成长为项目经理的原因。 随着再进一步的发展,高阶的运维工作工程师,对于产品的方方面面理解将会十分的透彻,因此在这种情况下,高阶运维工程师,甚至可以成为优秀的产品的产品经理,并在产品功能的设计、开发中起到十分重要的角色。 合格的运维工程师,要负责维护并确保整个服务系统的高可用性,同时要不断优化系统架构,并不断提升部署效率、优化资源利用率、进面提高整体系统的ROI。说起来很容易,这需要很多的知识积累。随着技术的日新月异,运维工程师面临的最大挑战,越来越多。大规模集群的管理问题就是其中最棘手之一。如何能够管理好几万台