云帮

运维告警管理困难重重,我是怎么做到的

ぃ、小莉子 提交于 2020-07-28 12:56:54
随着IT基础设施的云化,应用运行环境的容器化,系统架构的微服务化,越来越多的企业不得不引入更多的工具、更复杂的流程和更多的运维人员,来提升IT系统管理的精细度,但新的问题也随之而来。 在如此庞杂的环境下,数据间紧密相连,一个指标的变化,可能引发一系列的告警连锁反应。不同监控平台的红色标识、不断涌入的告警邮件和短信,紧牵着运维人员的神经,告警管理挑战重重。 充满挑战的运维告警管理: 如何抑制告警风暴? 如何保障重要告警不漏不丢? 如何快速地甄别根因告警? 如何沉淀告警处置经验? 如何快速恢复业务运行? 这些都是每一个运维团队在工作中面临的最棘手的问题。 到底是什么原因 导致如此频发的告警风暴,给告警管理带来如此之高的复杂度呢? 1.应用系统间关系更加紧密 完成一笔业务往往需要跨越多个应用系统,应用调用链路上每个IT单元的问题,都有可能导致业务故障。系统中任何一个监控对象的告警都可能引发其他多个相关策略的告警,海量告警的相关度高达90%,也就是说90%的告警都是可以被归因到一个根源告警上。 2.告警策略设置难以找到平衡点 过高的告警阈值,容易漏掉系统运行故障;而过低的告警阈值,又会带来大量的无效告警,影响运维团队的工作效率。同样,告警检查周期的长短设置也存在类似的问题。往往运维团队为了不落掉告警,不得不提升告警的灵敏度,而这样告警重复率可能高达60%。 3.告警响应的及时性不高

超实用!服务器如何快速实现一键环境部署!

ぃ、小莉子 提交于 2020-07-28 04:14:14
很多新手在建站时都会在环境部署这一环境中耗费大量时间,如何选择自己需要的环境配件,一一下载、安装、配置……虽说没有什么特别困难的地方,但却十分麻烦。有没有其他更简单的操作方法呢?下面我就为大家介绍我是如何快速实现一键环境部署的! 首先你需要下载一款有环境部署功能的管理面板,管理面板其实就是服务器管理工具,不知道你们有没有谁在用,这里我建议新人刚开始学习时都可以去下载一个,对服务器的管理还有建站都有很大帮助。现在网上绝大部分管理面板都有一键环境部署功能,你们可以自行比对下载,我个人比较习惯用的是云帮手,接下来的介绍都会以 云帮手 为例。 首先在添加了自己的服务器之后,就可以进行环境部署了,打开环境管理页面,这里会提示你需要先安装软件,才能进行管理。点击进入软件市场。 云帮手有LNMP、LAMP、LTMP三种不同的环境套件,你根据自己的需要选择一键安装或单独安装。 安装方式也可以自己选择是极速安装还是编译安装 目前云帮手上面的软件还是挺全的,WEB服务器、SQL数据库、FTP服务器、环境框架、管理工具不同类别的软件都有,直接在上面就可完成所有软件的下载。 软件主要有以下这些: WEB服务器:Apache、Nginx、Tengine、 SQL数据库:MySQL FTP服务器:PureFTPd 环境框架:PHP 管理工具:TightVNC、phpMyAdmin

做运维前 vs 做运维后,太形象了!

戏子无情 提交于 2020-07-27 00:11:39
一入运维深似海,整个人生都发生了变化。 运维虽苦,确是业务架构的底层基础支撑,是企业 IT 系统运行的坚实保障。如今,数字化转型正推动着业务及其运维模式做出根本、快速的变革。为了支持这一变革,IT 也必须转变其数据中心。 运维虽苦,确是业务架构的底层基础支撑,是企业 IT 系统运行的坚实保障。如今,数字化转型正推动着业务及其运维模式做出根本、快速的变革。为了支持这一变革,IT 也必须转变其数据中心。 运维人员如何翻身做主,不再奔波救火? 这是个值得让人思考的问题 …. 工欲善其事,必先利其器 云帮手 帮你解放双手,脱离苦海 01. 先人一步,快速 发现问题并准确定位 时间还都是以分计算 当问题还是初见端倪 就已经被系统提前发现了 02. 故障智能处理,轻松运维so easy 云端智能巡检 自动识别故障 一键安全修复 从此告别繁杂命令行 03. 底层安全防护,源头抵御风险 底层驱动级防护 主动防御,阻止篡改 木马病毒、后门植入say goodbye 04. 集中化批量管理,运维效率加倍 多云纳管、混合式批量管理 巡检、监控、建站、防护全面自动化支持 运维效率一级棒 过去 运维工作的复杂性让你吃力不讨好 运维成本也一直居高不下 运维质量更是不言而喻 每次都是被老板臭骂一顿 有了 云帮手(官网) 这样的日子终于过去啦!!! 如果你想了解更多可前往官网看看: 云帮手官网 来源:

zabbix、cacti、nagios,服务器监控还有更好的选择吗?

非 Y 不嫁゛ 提交于 2020-07-26 21:15:43
对于运维的日常工作来说,服务器监控是必须且最基础的一项内容。在企业网络运维过程中,管理员闭虚随时关注服务器和网络运行情况,以便及时发现问题,尽可能减少故障的发生。当网络中的设备、服务器数量较多时,为了更加方便,快捷的获得各种监控信息,通常会借助一些集中监测软件。 目前使用比较多的服务器监控软件有这三款: zabbix、cacti、nagios ,简单介绍一下这三个软件。 zabbix zabbix 是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。 zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。 cacti Cacti是一套基于PHP,MySQL,SNMP及RRDTool开发的网络流量监测图形分析工具。 nagios Nagios 是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设备,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。 然而对于大部分新手来说,这三款监控软件虽然在监控方面的功能很强大,都不是太容易上手,安装和部署比较困难。 资源监控在运维工作中的作用是发现问题,让运维人员能够及时处理并且解决问题,基于此,运维新手应该找一款更适合自己

用敏捷的DevOps拳打研发低效、脚踢管控不足

孤人 提交于 2020-07-24 02:35:03
在为客户进行DevOps咨询和提供解决方案时,除了“又快又好”的发布之外,我们发现客户通常还有两大方面需求:开发测试管理问题和运行管理问题。以某大型金融企业为例,该企业开发测试问题主要表现为研发过程的管控不足,这带来了开发效率低、版本质量差、环境交付慢等一系列问题。另外,整个运行环境缺乏统一管理,资源申请和获取周期长,资源利用率低也是当前运行管理中频繁出现的问题。 问题1 研发过程无法清晰度量、查看和分析 流程规范不标准,各项目各自为战 缺少统一的研发管理支撑工具,已有的流程规范无法有效落实 解决方案 流程的平台化、固化,自动驱动流程运转 不同的公司有划分阶段不同,同一个公司也有可能会分为不同的阶段。在整个流程体系下,每个角色、每个人要做什么是DevOps落地非常重要的一个关键点。通过平台去把所有的规范固化,需要在流程的每个阶段,把每个人的工作职责,需要遵守的规范,甚至是考核指标、度量数据都确认下来。这样每个人能清晰的了解自己的职责,按图索骥去完成自己的工作。 规范的落地是DevOps能够正常运转的一个重点。从立项到整个需求任务、开发测试、发布上线的过程里,大概50%能规范化并落地到平台中,另外还有些工作例如会议需要人员管控。每个企业中可能有1-2套标准流程,不仅要匹配不同客户的需求,和同一企业中不同项目的需求,还有随着企业对DevOps认识的不断提升,流程也会随着认知不断演进

聊一聊最近比较火的多云管理平台

耗尽温柔 提交于 2020-05-09 21:32:31
全球范围内,基于安全、成本的考虑,选择多云已经成为客户上云的主要形式。根据RightScale 2019 年报告,有84%的大中型企业(雇员1000以上)采用了多云战略,其中选择混合云(公有云+私有云)的场景占58%,选择多个公有云的场景占17%,选择多个私有云的场景占9%。当多云战略被越来越多的客户所接受时,多云管理平台必将成为IT管理的核心。 一、多云管理平台是什么? 首先看下云管理平台的定义,来自于国际权威的研究机构Gartner,“云管理平台(Cloud Management Platform,简称CMP)是提供对公有云,私有云和混合云统一集成管理的产品。云管理平台主要能力包含混合云、多云环境的统一管理和调度、提供系统映像、计量计费以及通过既定策略优化工作负载。更先进的产品还可以与外部企业管理系统集成,包括服务目录,支持存储和网络资源的配置,允许通过服务治理加强资源管理,并提供高级监控,提高性能和可用性。” 目前我接触比较多的是所谓多云管理平台一般指的是“多家云资源管理平台”。目前国内用的最多的公有云有:阿里云、腾讯云、华为云、京东云、百度云、UCloud、小鸟云等;国外用的最多的有AWS、Azure、Google云等。简单来理解多云管理平台就是指在一个平台上能够管理上述多家云资源。 二、多云管理平台能干什么? 多云管理平台首先要做到多云纳管。能把主流云服务商的平台都兼容了

新手购买阿里云服务器如何选择配置,阿里云服务器配置推荐

[亡魂溺海] 提交于 2020-05-07 19:46:43
很多新手用户在购买阿里云服务器的时候纠结于云服务器配置到底应该怎么选?下面针对目前主要的个人和企业网站类型做一个配置推荐(仅个人意见),对于新手用户来说,如果不知道如何选择自己的阿里云服务器配置,可以参考以下推荐购买: 一:普通的个人小型网站,个人博客等小流量网站 可选择低配置的阿里云服务器 推荐配置:CPU:1核、内存1G或2G、硬盘40G、带宽:1M或2M 二:论坛、门户类网站 论坛、门户类网站,用户活跃性与访问量较高,需要有足够的服务器资源空间和带宽,提升访问速度。 推荐配置:CPU:2核、内存:4G、硬盘200-500G、带宽:5-10M 三:品牌官网类网站 对官网、品牌较为重视的政府、企业等, 需要保证网站浏览更加流利顺畅,提升政府、品牌形象。 推荐配置:CPU:4核、内存:8G、硬盘150G、带宽:5M 四:视频、购物类网站:视频、购物类网站 包含庞大的数据信息, 需要保证迅速的信息处理能力保证网站的点播、交易正常进行。 推荐配置:CPU:8核、内存:16G、硬盘300G以上、带宽:10M以上 五:游戏、软件类网站 对开发、测试、环境要求较高的游戏软件类网站,需要较高的资源配置带来更强劲的计算性能,保证业务需求。 推荐配置:CPU:16核、内存:32G、硬盘:500G、带宽:10M以上 活动推荐: 云上爆款 是阿里云众多活动中推出云服务器配置最多的一个,且带宽是1

言图科技:GPU服务器选型

微笑、不失礼 提交于 2020-05-01 07:46:11
公司简介 言图科技总部位于武汉光谷,致力于人工智能领域的自然语言处理、图像处理基础算法、软件、平台与设备研发。目前,公司拥有成熟的自然语言处理基础软件集、语义理解工具集、知识图谱工具集、智能陪练机器人、聊天机器人、情感与专注度分析工具、无人机大数据分析服务器系统等多种产品,并被多家金融集团、大型国企、科研机构与政府机关采用。公司在积极开拓市场的同时,投入大量资金进行基础研究。 公司与华中科技大学计算机学院共同组建“华中科技大学计算机学院人工智能实验室”。 而且,团队成员在自然语言处理、知识图谱、视频分析、图像处理等方面取得了较为丰富的理论成果和技术积累,已在国内外权威杂志及会议上发表论文一百多篇,比如AAAI、SIGKDD、RTSS、CIKM、IEEE TKDE、IEEE TSMC-B、IEEE TC、ACM TWEB等。 业务痛点 线下的GPU服务器,成本特别高,而且非常不灵活。 没有使用过云GPU服务器,对服务器选型比较困惑。 对GPU、Tesla P100与Tesla P4具体的参数性能与应用场景不是特别了解。 解决方案 图 1. GPU服务器选型 CPU除了负责浮点整形运算外,还有很多其他的指令集的负载,比如像多媒体解码,硬件解码等,因此CPU是多才多艺的。CPU注重的是单线程的性能,要保证指令流不中断,需要消耗更多的晶体管和能耗用在控制部分

服务器防火墙的作用是什么?如何设置?

若如初见. 提交于 2020-05-01 07:41:45
在我们日常的服务器使用中,经常会用到防火墙,但是很多朋友不懂防火墙的作用以及怎么设置。现在我们就来科普一下防火墙的设置方法以及作用。 一、机房为什么要使用防火墙 Internet防火墙主要是为了防范三种蓄意破坏的方式: (1):最常见的破坏方式,后就可以正当使用电脑。者希望自己能变成合法的使用者,任意使用电脑 (2)拒绝服务:最容易且不直接破坏系统的方式,只要发出如洪水般的垃圾封包就可以瘫痪某部电脑,使得系统无法正常提供服务 (3)资讯窃盗:窃取使用者的帐号及密码,就可以进入电脑窃取所需的资讯 二、防火墙的设置 下面将以添加云帮手( 官网 )免费服务器管理面板探针端监听端口6688为例,为您详细介绍添加系统防火墙规则的具体步骤: 1.打开Windows系统防火墙,检查对应端口规则是否已经存在 2.若不存在,则新新建端口规则 3.选择协议类型TCP/UDP、设置端口号 4.选择允许连接 5.设置规则配置名称等信息 6.点击完成 今天关于服务器运维交流就为以上内容,希望大家能一起学习成长进步~fighting~ 来源: oschina 链接: https://my.oschina.net/u/4352934/blog/4260237

阿里云服务器怎么样?老司机谈谈阿里云服务器的使用感受

血红的双手。 提交于 2020-04-29 16:58:31
阿里云服务器怎么样、云服务器如何选择等问题是本文经常被问到的问题,本文使用ECS云服务器也有几年光阴了,经常听到用户在纠结如何选择云服务器?注意,重点在“选择”二字,有选择就有比较,阿里云在国内云计算领域的地位是毋庸置疑的,阿里云起步早,面对各领域有成熟的解决方案,不选阿里云选谁呢? 呸,王婆卖瓜!本文来说说这几年的 ECS云服务器 的使用感受吧: 底层架构 我国春节时段的返乡大迁徙场面壮观吧?大家再来感受下天猫双十一或者春晚抢红包等活动,这看不见的数据大迁徙可比春节返乡壮观多了,过年你往返一次吧,双十一你都快把鼠标点烂了,春晚都要把手机摇吐了,你见天猫或者支付宝崩溃了吗?你购买的ECS云服务器与天猫、支付宝使用的为同一架构。阿里云能够抗住双十一,就能抗住你的业务。 云服务器ECS是基于飞天系统的底层架构,飞天(Apsara)是阿里云自主研发的底层系统。 云服务器CPU 据说阿里云使用CPU是找Intel专门定制的,是不是定制不太清楚,但是有一点可以肯定的是阿里云与其他小厂的区别在于不会超卖,你就是买了32核的CPU,如果从遇到超卖的服务商,那只是个数而已。 但是阿里云最近推出的那个突发性能t5实例,被大家诟病,其实这个t5只是大家用错了地方。首先这个t5价格便宜,这是毋庸置疑,但是这个t5限制CPU使用率啊,这一点没搞清楚直接就买了。那么t5实例适合哪些用户呢