it运维自动化

企业IT服务的反脆弱能力建设

泄露秘密 提交于 2020-02-28 14:32:48
一场突如其来的疫情让我的生活节奏慢了下来,有更多时间学习和思考,这两天有些想法一直在我的脑海中萦绕,现在整理成文字与大家分享。 纳西姆·塔勒布写过一本《反脆弱》,说的是如何应对不确定性,从不确定性中获利。IT是企业业务的核心支柱与保障,但IT服务的连续性如何保障呢?企业IT是否具有脆弱性?如何提升企业IT应对突发事件的能力? 总体而言,反脆弱能力建设的目标有以下几点:第一是系统健壮性建设,尽力降低内部和外部事件对系统的影响,确保系统的完整性不被破坏,企业的数字资产得到保护;第二是IT服务可用性建设,为服务对象提供不间断服务,以保障企业业务连续性;第三是系统可管理性建设,确保管理人员可随时执行系统管理任务,如策略管理、配置变更、故障响应和性能优化等。第四是系统持久性建设,即系统的技术升级和改造,基于即发事件的经验总结和潜在风险预测来改进系统。 鉴于企业IT的复杂性及个人能力所限,下面我将围绕四个关键组件来展开话题,他们分别是:应用的开发与运维,企业级网络与安全,云服务与平台建设,以及最终用户的服务体验。 第一节 应用的开发与运维 在与脆弱性的斗争中,应用的转型是非常积极且富有成效的。大家经常用“宠物”和“牲畜”来比喻传统企业应用和新型的云原生应用。“宠物”型应用无疑是脆弱的,非常依赖底层平台的呵护。转型为“牲畜”型应用就是为了反脆弱。云原生应用的设计原则中有几条与反脆弱有关

科技战“疫”系列(二)丨神州信息远程运维服务为企业保驾护航,7*24守候等您咨询!

谁说胖子不能爱 提交于 2020-02-26 19:00:06
疫情的发展和蔓延给传统的IT运维工作带来很大挑战。神州信息以高质量、低成本的远程智能运维服务解决方案,帮助企业远程7*24小时进行各类IT系统的实时监控和运维服务,高质量、低成本的确保客户业务稳定运行,顺利渡过难关。 企业普遍面临的运维挑战: 1、IT人员无法及时到岗,如果缺乏完善的监控系统,故障实时响应、实时解决怎样解决?如何支持怎么修复故障? 2、IT运维工作繁重,聚焦巡检、监控、例行操作等重复工作,释放不出多余精力赋能业务。 3、运维流程化规范化程度低。未严格遵守和执行ITIL流程,事件管理、变更管理、问题管理等不规范操作,造成故障多发、复发。 4、缺少专业的二线高端技术支持,复杂问题解决时间长。 5、IT运维成本持续增高。 神州信息远程智能运维解决方案 提供全方位、高可靠、高可用的运行环境! 神州信息远程智能运维解决方案,以客户各类IT系统为运维服务对象,在数据中心“远程集中式服务台+例行/按需现场服务”的工作思路下,用平台化方式,为客户提供7*24小时的数据中心远程实时监控及远程运维支持服务。 服务优势 专业的IT服务管理团队和管理工具,保障远程运维服务质量。将远程运维管理方式、智能化运维工具与远程运维服务软件包括智慧运维平台(ITS-SMART)、服务自动化系统(ServiceJet)、IT服务管理系统(ServiceJet-iTSM)等相结合,智能化实现IT系统的构建

怎么做好企业IT运维工作

好久不见. 提交于 2020-02-15 12:35:08
维的工作层次来分,又分为硬件运维、桌面运维、系统运维、数据库运维和应用运维。他们运维的设备,小的从个人电脑,大的到数以亿计的高精尖计算设备(比如 大型机 )。 根据公司 IT 系统规模的不同,运维团队小至1 人,大至数百人。每晚通宵达旦,为 IT 系统保驾护航。 有句行话“累成狗,起的比鸡早,睡得比猪晚”。就这样还是种种抱怨和不满。我对运维总结成了两句话:“技术只是手段,业务才是王道”。 运维的好坏评定标准其实就是你给公司及业务带来了哪些价值及哪些影响。通过这些方法让运维变得更灵敏、让运维人员更好的理解用户的需求。 但是万变不离其宗的道理是,这些行为都是围绕着不同的业务需求而展开,为了满足不同阶段业务的发展而设计。做好企业 IT 系统的运维,体现运维的真正价值给公 司。 一、运维方法: 技术层面: 随着信息技术的发展以及企业业务的不断扩张,运维人员所面临的系统架构越发的复杂,关联度越发紧密。对运维人员的要求也会越来越高,打造个个都是高手,对业务系统了如指掌。 1、需要运维人员快速转变观念,学会通过主动运维的方式应对复杂多变的 IT 问题,保证业务系统的稳定。 2、更多的站在客户的层面思考问题,解决问题。 3、使用集成的运维平台,在业务系统没有感知的情况下实现了业务的变更、升级。 运维文档层面: 一个好的系统或者项目,必定有很多的文档进行支撑。 1、系统建设前期

IT基础架构运维规划

∥☆過路亽.° 提交于 2020-01-22 23:06:29
这是之前规划设计的IT基础架构运维规划方案,总结自己一段时间的运维经验 相关敏感信息已经去除 学无止境啊 XX运维工作架构规划 从2016年10月XX的运维工作到现在已经有两年多了,期间进行了很多调整,部署了很多业务系统,从一开始的混乱无序,到现在算是小有成效了。现在我们需要进一步完善现有运维工作,规划完整的架构,方便日后进行调整,保证能够科学而又高效的完成运维工作,提高客户满意度。 1.整体架构设计 整体架自下而上分为两个部分,基础环境和上层业务应用。 基础环境主要是提供的基础虚拟机化环境和存储支持,同时包括各种网络基础环境。 上层应用由客户业务、运维支撑和第三方业务系统构成,主要是基于虚拟机的应用软件和解决方案。 广电的基础环境主要构建是基于kvm虚拟化解决方案的超融合nutanix环境和基于vmware的vsphere虚拟化解决方案环境组成,两者为不同的异构的虚拟化,中间底层网络全部连通,相互共享网络资源和存储资源,为整体的架构提供一个虚拟化层从而支撑上层其他业务系统。值得说明的是,目前我们无法两种不同的虚拟化环境进行统一管理和调度,虽然他们都可以提供完整的虚拟机生命周期管理。 1.1. nutanix的虚拟化环境 Nutanix的虚拟化环境组网如下所示: 这是一个稳定的组网架构,从2017年3月部署后,基本没有变更过,运行可靠,可用性高,性能强悍

为跨云管理而生:行云管家助力企业高效管理云资源

China☆狼群 提交于 2019-12-16 08:08:14
随着云成为越来越多企业不可或缺的IT基础设施,为了满足不同的业务需求,许多企业存在多云并存的局面。而多云带来的问题也显而易见,包括多种云平台难以统一管理,资源运维效率大幅降低,企业成本居高不下等。 在这样的环境之下,要想让企业高效管理云计算资源,实现易上云、用好云、管好云的目标,一套运维简单、可一站式管理的跨云管理解决方案就显得尤为重要,由此,行云管家云管平台应运而生。 作为针对跨云管理量身打造的一站式解决方案,行云管家为企业提供了以下功能: 1、多云纳管、混合式管理 支持业界主流的公有云厂商和OpenStack、VMware等私有云设施,以及物理服务器、虚拟机、网络设备、存储设备等。 2、云资源全生命周期管理 对云资源从申请、创建、交付、运维以及最终的释放销毁,均可在一个主控台中获得全生命周期的管理,而无需分别登录不同的系统。 3、合规运维与审计 承担起用户在管理IT资产时的运维中枢、会诊平台、以及“事前授权、事中监控、事后审计”的黑匣子等职责。 4、成本分析与优化 多维度分析云资源的成本结构,并通过对应用负载进行数据挖掘分析,提供云资源的增减配优化建议 。 5、自动化运维 提供指令/脚本批量执行、批量文件分发与采集等特性。 6、工单系统 申请或销毁资源等业务流程,都能够通过电子工单完成。 在打造多云管理整体解决方案的战略下

运维管理平台设计概述

两盒软妹~` 提交于 2019-12-05 14:40:53
自动化运维体系包括三个3个功能模块:系统预备 配置管理 监控报警 : 一. 系统初始化 1. 自动化安装操作系统及常用软件包 二. 配置管理 1. 自动化部署业务系统软件包并完成配置 2. 远程管理服务器(开关等 ) 3. 变更回滚 三. 监控 报警 1,服务器可用性、性能,安全监控 2,向管理员发送报警信息 运维自动化规划 1,基础数据库的建设(CMDB) 2,配置环境和业务部署一键安装 3,自动监控 4,自动发布,上下线 运维体系的组成部分 一,资源管理:服务器,虚拟机,网络设备,存储,ip/vip,域名等 二,配置管理:系统配置,网络配置,应用配置,应用分组,SLA级别配置 三,监控:系统监控,网络监控,应用监控,安全监控, 四,应用管理:上下线,发布 五,集群管理:扩容,缩容 六,事件管理:业务变更,问题管理,故障管理,IDC管理 监控及自动化 1,系统监控:所有服务器上线自动添加基本监控 2,网络监控:网络设备上线后,自动添加基本监控 3,应用监控:所有java应用上线,添加基本监控 4,用户监控:类似基调系统,监控应用在客户端的表现 5,容量监控:根据采集的数据,针对应用,集群进行容量监控和规划 6,辅助监控:辅助故障分析定位 运维审计 1,支持主机分组管理 2,支持主机分组管理 3,可为运维人员分配指定服务器、指定账号的操作权限 4

IT运维大会精华回顾 等保2.0时代掌控万物互联

前提是你 提交于 2019-12-02 18:31:08
10月24日,由《网络安全和信息化》杂志社、IT运维网联合主办的“2019(第十届)IT运维大会”在北京新世纪日航酒店成功举行。 随着大数据、云计算、物联网、互联网+等快速发展,IT系统架构日益复杂,业务需求的多样化,海量数据激增且无法及时分析并有效利用,企业面临着前所未有的IT运维挑战,传统的运维手段已经无法满足如今业务系统运维管理的需求。而伴随着 AI 技术的崛起,基于大数据和算法的智能运维应运而生,并逐渐成为一种新的发展趋势。 本届大会以“智能+时代的新运维”为主题,邀请了政府、制造、金融、互联网、能源、教育、交通、医疗等各行业运维主管、企业代表、业内专家,共同解读在智能+时代背景下中国IT运维发展的趋势,以及IT运维市场的发展方向。 以下是大会演讲观点摘录: 北塔软件技术总监 魏玉雄 智慧( AI )运维初探 随着人工智能在信息技术发展中扮演的角色越来越重要,它与运维的结合已是必然。北塔软件技术总监魏玉雄认为人工智能进入运维领域,不应是炒概念,要将概念落地,从定框架到改进系统,实实在在地改善运维工作。魏玉雄还认为智能是通过学习得到知识,而智慧是不通过学习就可得到知识。因此智慧运维是智能运维的深化。 汉得信息技术总经理 孙帆 泛服务运维与企业运营自动化融合 由于汉得信息早年是做高端ERP业务的,近些年才逐步转向做数字化工作。所以积累了很多管理服务的经验

20款开发运维必备的顶级工具

你离开我真会死。 提交于 2019-11-30 01:55:17
开发运维工具与软件开发领域的最佳实践密切相关,也与必要的规范密切相关。在整个开发生命周期涉及到一大批新旧工具,从规划、编码、测试、发布到监控。本文介绍你应该考虑添加到工具箱中的20种开发运维工具,供大家参考。 开发运维是那些还没有得到明确定义,就流传开来的科技时髦词之一。这种情况时不时出现,某个好的概念问世后,人们还无法实际上解释它为何物,就趋之若鹜。 所以,考虑到开发运维本身在大家的头脑中还是一片模糊,开发运维工具怎么样呢? 有必要说清一点:开发运维是开发和运维的混合体,因为它代表了开发实践方面的文化变化,非开发人员也参与到软件开发过程中。开发人员之外的IT专业人员参与到构建应用程序的协作和沟通过程,让产品开发完毕后使用产品的人有机会在开发过程中,而不是在开发结束后,对应用程序的构建发表意见。 成熟的开发运维环境往往遵循一种常见模式:一种灵活的软件定义平台上的迭代自动化。所以,许多开发运维工具采用了某种迭代动作。采用开发运维工具的 成功的流程既需要公司里面的文化变化,又需要实现这种变化的新工具。这意味着,在整个开发生命周期涉及到一大批新旧工具,从规划、编码、测试、发布到监 控。下面是你应该考虑添加到工具箱中的20种开发运维工具,但绝不是全部。 1.Jira Software 来自Altassian的JIRA软件是一款流行的软件开发工具,用于开发运维的一个关键部分:敏捷开发

睿象云高科 | 浅谈告警管理能力成熟度模型

有些话、适合烂在心里 提交于 2019-11-27 04:49:33
随着 IT基础设施的云化,应用运行环境的容器化,系统架构的微服务化,越来越多的企业不得不引入更多的工具、更复杂的流程和更多的运维人员,来提升IT系统管理的精细度,但新的问题也随之而来。 犹如蝴蝶效应,在如此庞杂的环境下,数据间紧密相连,一个指标的变化,可能引发一系列的告警连锁反应。不同监控平台的红色标识、不断涌入的告警邮件和短信,紧牵着运维人员的神经,告警的精细化管理势在必行。 充满挑战的运维告警管理 如何抑制告警风暴?如何保障重要告警不漏不丢?如何快速的甄别根因告警?如何沉淀告警处置经验?如何快速恢复业务运行? 这些都是每一个运维团队在工作中面临的最棘手的问题。到底是什么原因导致如此频发的告警风暴,给告警管理带来如此之高的复杂度呢? l 应用系统间关系更加紧密 完成一笔业务往往需要跨越多个应用系统,应用调用链路上每个 IT单元的问题,都有可能导致业务故障。系统中任何一个监控对象的告警都可能引发其他多个相关策略的告警,海量告警的相关度高达90%,也就是说90%的告警都是可以被归因到一个根源告警上。 l 告警策略设置难以找到平衡点 过高的告警阈值,容易漏掉系统运行故障;而过低的告警阈值,又会带来大量的无效告警,影响运维团队的工作效率。同样,告警检查周期的长短设置也存在类似的问题。往往运维团队为了不落掉告警,不得不提升告警的灵敏度,而这样告警重复率可能高达 60%。 l

分布式主动感知在智能运维中的实践|分享实录

泄露秘密 提交于 2019-11-25 20:29:50
内容来源:宜信研发架构师肖云朋老师于WOT峰会分享《分布式主动感知在智能运维中的实践》 导读:企业数字化使得运维智能化转型成为必然,宜信积极推动 AIOps 在科技金融企业的落地实践。本次主题是探索 AIOps 落地的一种形式:通过行为采集、仿真模拟、主动感知等手段,从用户侧真实系统使用体验出发,结合全维监控数据,更加有效的实现智能异常检测和根因分析。 一、运维的发展 1.1 运维的价值 早期的运维工作比较简单,一般是先由系统集成工程师及研发工程师研发完项目后交付出来,再由负责运维工作的人员从后台做一些操作,保证系统正常运行。 图1 随着软件研发行业和技术的发展,运维的工作也变得越来越丰富。现阶段运维的工作与价值主要集中在三个方面: 1)效率 大量业务上线,运维人员需要保障快速高效地为系统提供资源、应对业务变更、响应操作请求。 2)质量 运维的目标是保障质量及系统的稳定性。也就是说,要保障业务和系统7*24小时在线上稳定运行,为用户提供流畅舒适的体验。为实现这个目标,运维的相关工作包括: 故障预测:没出现问题之前预测到故障发生的可能。 异常检测:出现问题时很快检测并定位到异常点。 根因分析:分析问题的诱因,找出真正导致问题的根本原因。 动态扩容:问题处理的过程中可能受到复杂因素的影响,需要对系统进行动态扩容。 服务降级:不影响核心业务的边缘业务可能需要做服务降级处理。 3)成本