运维工程师

告警信息大爆炸,运维解放秘籍!

给你一囗甜甜゛ 提交于 2019-11-27 09:01:17
信息大爆炸的时代,互联网企业的运维人员每天都要处理成千上万的信息。如何处理这种纷繁复杂的情况?面对各种运维事件,想获得足够的告警信息,单一的监控系统往往是不够的。而告警的问题若得不到及时的发现与处理,就很容易受到用户投诉。 告警风暴来临,信息无法聚合 日新月异的专业监控软件陆续问世,越来越多的工具在监测告警方面变得越发的专注、极致。91%的运维团队同时用着多种监控工具,这些工具每天都会发出成百上千个告警。不幸的是,在这些告警触发之前,只有27%的团队会做一些有关聚合与过滤的事情。那么由此会产生什么后果呢?运维团队面对冗杂且繁复的告警信息,会加重每位成员的负担,经常处于精疲力尽的状态中。 这样下去,团队会被大量无休止的告警所湮没。运维工程师们很难了解,哪些告警信息才是最关键的?哪些告警信息是重复可替代的?哪些告警信息又是可以忽略且清除掉的?于是处理告警就成了最头疼的事情,而且把时间都耽误在了处理错综复杂的无效告警上,错失掉真正需要关注的信息。后果就是,把用户的怒火点燃了,难以被补救。 如上所述,大部分的运维团队购买了若干个监控系统用以监测应用性能,然而却会导致网络故障,服务器不堪重负,人员配置跟不上等。除了监控系统的安装数量过多,传统的监控方式也是一直以来很大的问题。由于手动效率过于低下,尽管 Email 在高风险的事件报警传达中传播的速度很慢

Linux 运维经典面试题(四)

拈花ヽ惹草 提交于 2019-11-26 20:38:43
Linux 运维经典面试题 1、什么是运维?什么是游戏运维? 1)运维是指大型组织已经建立好的网络软硬件的维护,就是要保证业务的上线与运作的正常, 在他运转的过程中,对他进行维护,他集合了网络、系统、数据库、开发、安全、监控于一身的技术 运维又包括很多种,有DBA运维、网站运维、虚拟化运维、监控运维、游戏运维等等 2)游戏运维又有分工,分为开发运维、应用运维(业务运维)和系统运维 开发运维:是给应用运维开发运维工具和运维平台的 应用运维:是给业务上线、维护和做故障排除的,用开发运维开发出来的工具给业务上线、维护、做故障排查 系统运维:是给应用运维提供业务上的基础设施,比如:系统、网络、监控、硬件等等 总结:开发运维和系统运维给应用运维提供了“工具”和“基础设施”上的支撑 开发运维、应用运维和系统运维他们的工作是环环相扣的 2、在工作中,运维人员经常需要跟运营人员打交道,请问运营人员是做什么工作的? 游戏运营要做的一个事情除了协调工作以外 还需要与各平台沟通,做好开服的时间、开服数、用户导量、活动等计划 3、现在给你三百台服务器,你怎么对他们进行管理? 管理3百台服务器的方式: 1)设定跳板机,使用统一账号登录,便于安全与登录的考量。 2)使用salt、ansiable、puppet进行系统的统一调度与配置的统一管理。 3)建立简单的服务器的系统、配置、应用的cmdb信息管理

高级运维工程师的打怪升级之路

假装没事ソ 提交于 2019-11-26 03:43:44
人生就像一场游戏,这场游戏给我们带来了的许多困难,但是我们为了梦想,为了家人,为了自己不断奋斗着,努力工作。 今天就让我带着大家一起回顾高级运维工程师打怪升级之路。 运维工程师在刚入行阶段是一很苦逼的,可能干着修电脑、掐网线、搬机器的活,显得没地位!时间也很碎片化,各种零碎的琐事围绕着你,也很难体现个人价值,渐渐的对行业很迷茫,觉得没什么发展前途。 这些枯燥无味工作的确会使人匮乏!技术是枯燥无味的,这些基本工作并非是多余的,这些经验会对后期的运维工作带来一定的帮助。所以在这个时期一定要保持积极向上的心态,持续的学习,争取找一个更锻炼人的工作! 职业发展 技术专家 发展规划:初中级工程师 -> 高级工程师 -> 架构师 -> 专家 适宜人群:比较喜欢挑战,热爱技术,有较强钻研精神,在某一领域有深入的理解,性格比较内向。 技术管理 发展规划:初中级工程师 -> 高级工程师 -> 主管/经理 -> 总监 -> CTO(首席技术官) 适宜人群:技术知识面广,有一些管理思维,善于交际,表达沟通能力强,经常关注行业内动态和主流技术。 初级 主要工作 修电脑,设备巡检 服务器上下架 网络服务部署 网站平台搭建与维护 1、Linux基础 刚开始阶段需要熟悉Linux操作系统安装,目录结构、启动流程等。 2、系统管理 主要学习Linux系统,生产环境中基本都在字符界面完成工作

运维工程师总结

吃可爱长大的小学妹 提交于 2019-11-26 03:42:49
运维工程师对一个公司来说是非常重要的岗位,它本身所覆盖的运维职责就很重要,所以,运维对其它关联工种必须非常了解熟悉:网络、系统、系统开发、存储,安全,DB等。作为一个运维工程师我认为是集合网络、系统、开发工作于一身的“复合型人才”,就如有些公司把一些合同采购都纳入了运维职责范围,还有如IDC网络规划也纳入运维职责。 一.运维工程师岗位职责 1、参与设计、审核、优化公司IT系统以及各应用系统的体系架构; 2、全面负责公司运维项目的系统升级、扩容需求与资源落实,配合开发需求,测试、调整运维平台; 3、负责网络以及服务器的网络设置、维护和优化、网络的安全监控、系统性能管理和优化、网络性能管理和优化; 4、建立面向开发部门,业务部门的服务流程和服务标准; 5、负责IT运维相关流程的规划、设计、推行、实施和持续改进; 6、响应及解决客户的技术要求、疑问以及系统使用过程中遇到的各种问题; 7、负责日常网络及各子系统管理维护。 8、负责设计并部署相关应用平台,并提出平台的实施、运行报告。 9、负责配合开发搭建测试平台,协助开发设计、推行、实施和持续改进。 10、负责相关故障、疑难问题排查处理,编制汇总故障、问题,定期提交汇总报告。 11、负责网络监控和应急反应,以确保网络系统有7*24小时的持续运作能力。 12、负责日常系统维护,及监控,提供IT软硬件方面的服务和支持,保证系统的稳定。 13

京东数据库运维自动化体系建设之路

删除回忆录丶 提交于 2019-11-25 22:02:10
运维自动化来源于工作中的痛点,京东数据库团队面对的是商城成千上万的研发工程师,这种压力推动我们不断变革,然而变革不是一蹴而就,也经历过从手工到脚本化、自动化、平台化、智能化的艰难转变,所以说是需求在驱动运维体系的建设,而运维自动化的真谛在于解放运维人员,促进人率提升,减少人为故障,要学会培养自己“懒”这个好习惯。京东的自动化运维体系建设始于2012年,下面从两个方面进行介绍。 1. 京东数据库智能运维平台 京东业务每年都在以爆发的形式在增长,数据库服务器的数量众多,产品线也多达上千条,要支持如此庞大的业务体系,需要一套完善的运维自动化管理平台。目前京东MySQL数据库管理平台简称DBS,主要涵盖以下内容:完善的资产管理系统、数据库流程管理系统、数据库监控系统、数据库故障管理系统、数据库报表系统、弹性数据库系统以及数据库辅助运维工具,涉及DBA运维的方方面面,实现了DBA对MySQL的自动化、自助化、可视化、智能化、服务化管理,避免DBA因手工操作失误带来的生产事故,保障京东数据库的安全、稳定、高效运行。这里着重介绍以下部分核心功能组件。 1.1. 元数据管理 作为自动化运维的基石,它的准确性直接关系到整个数据库管理平台的可靠性。京东数据库管理平台从数据库业务方、DBA的运维习惯等方面出发,涵盖机房、主机、业务、集群、实例、库、表等多个维度。  机房和主机维度

分布式主动感知在智能运维中的实践|分享实录

泄露秘密 提交于 2019-11-25 20:29:50
内容来源:宜信研发架构师肖云朋老师于WOT峰会分享《分布式主动感知在智能运维中的实践》 导读:企业数字化使得运维智能化转型成为必然,宜信积极推动 AIOps 在科技金融企业的落地实践。本次主题是探索 AIOps 落地的一种形式:通过行为采集、仿真模拟、主动感知等手段,从用户侧真实系统使用体验出发,结合全维监控数据,更加有效的实现智能异常检测和根因分析。 一、运维的发展 1.1 运维的价值 早期的运维工作比较简单,一般是先由系统集成工程师及研发工程师研发完项目后交付出来,再由负责运维工作的人员从后台做一些操作,保证系统正常运行。 图1 随着软件研发行业和技术的发展,运维的工作也变得越来越丰富。现阶段运维的工作与价值主要集中在三个方面: 1)效率 大量业务上线,运维人员需要保障快速高效地为系统提供资源、应对业务变更、响应操作请求。 2)质量 运维的目标是保障质量及系统的稳定性。也就是说,要保障业务和系统7*24小时在线上稳定运行,为用户提供流畅舒适的体验。为实现这个目标,运维的相关工作包括: 故障预测:没出现问题之前预测到故障发生的可能。 异常检测:出现问题时很快检测并定位到异常点。 根因分析:分析问题的诱因,找出真正导致问题的根本原因。 动态扩容:问题处理的过程中可能受到复杂因素的影响,需要对系统进行动态扩容。 服务降级:不影响核心业务的边缘业务可能需要做服务降级处理。 3)成本

网络运维 - 你与真相就差一层窗户纸

空扰寡人 提交于 2019-11-25 20:13:13
回归,带着满满的干货回来了 大家好,我是姜汁啤酒。 你可能觉得莫名其妙,从今年二月份这个经常上头版的网工兄弟,居然突然从51cto消失了,博客也不更新了?莫非,哥们,不会,和埃隆马斯克去火星了吧? 其实,需要给大家解释解释,我消失了三个月一共完成了两件大事。 我在51cto写了一个专栏:《老司机网络运维干货集锦》,里面涵盖了路由、交换、安全、QOS四大模块知识点,大家感兴趣的可以猛戳此链接详细了解: https://blog.51cto.com/cloumn/detail/2 。目前专栏还剩路由篇待更新,其他模块已经完毕。 这三个月跳了个槽,从资深工程师摇身一变成为首席设计网络师,事情相对也多了起来。加上刚到一个新地方怎么都得装一装样子,老油条们,你懂的。 因为上述两件事,搞得最近忙的没来得及更新博客。 今天正式回归后,本来想继续更新我之前的数据中心系列。但是考虑再三,索性想和大家聊聊我对于网络运维的看法,以及写这个专栏的出发点,同时也希望和志同道合的朋友们一起分享分享网络运维的见解。 网络运维,痛并快乐着 当你因为这篇文章的标题,尤其是网络运维这四个字把你吸引进来时。 我大概知道你也是网络运维同行的一份子,相信你有着对网络技术的狂热爱好和对技术细节的极致追求。 可是,有时候现实的工作和理想的追求往往会不小心就差了好远,日常的网络运维工作不仅繁琐,而且出的故障都是千奇百怪