云告警

「事件管理」如何让用户体验更加极致?

試著忘記壹切 提交于 2020-02-28 22:00:24
事件管理是为应用程序提供助力的关键要素。 在打造应用程序时,我们把绝大部分时间都投入于应用程序发布到生产环境的过程中,包括规划蓝图、识别客户需求和要求以及构建自身底蕴和特性。然后是不断循环的开发、测试和质量管理。同时,工程团队也在协同工作,准备环境。之后,这个应用程序终于面世了,我们转而开发另一个应用程序。此时,运营团队担起运营已发布应用的责任。如果这就是应用程序的互动终点,开发团队就错过了大量极具价值的改进反馈。 这个时候,事件管理流程就可以发挥关键作用,帮助改进应用程序并最终实现更出色的用户体验。 1. 按需提高升级速度,缩短问题解决时间 有了界限分明、使用得当的事件管理流程,应用支持自然而然地成为企业文化的一部分。解决事件的时间缩短了,解决方式也更有规律,往往 更贴近最佳实践 。如果事件管理没有详细记录或使用不熟练,会导致不断尝试解决问题但始终灭火无门。 2. 鼓励轮岗培训 根据「我宁愿其他人半夜起床解决问题」这一原则,事件管理流程鼓励开发团队内部和各个团队之间进行轮岗培训。这一措施的附加好处是,可以促进 操作文档和配置管理实时更新 ,同时强调代码和注释易读性的重要性。 3. 营造信任透明的文化 开发团队的所有成员都应同时以候补人员和主要人员的身份参加 升级轮班 。这可以推动形成以沟通和团队情感为基础的既得利益。此外,由于事件管理促进了透明度

对抗告警疲劳的8种方法

不羁的心 提交于 2019-12-30 16:57:02
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 【编者按】本文作者为 Chris Riley,主要介绍告警疲劳的产生原因与对抗告警疲劳的8种方法。文章系国内 ITOM 管理平台 OneAPM 编译呈现。 各司其职、孤军作战非常不利于团队沟通,一旦发生重大事件,各个部门就很难掌握事件始末,这不仅降低了整个开发团队的沟通质量,而且对运维工作也造成了极大困扰,即告警疲劳。告警疲劳不仅会影响团队成员的工作情绪,而且会阻碍软件交付链的成长。 DevOps 的最大优势是清除沟通障碍并简化运维操作。通常,DevOps 团队有两种类别:一种是面向所有应用程序的集中式团队,另一种是面向每个应用程序或核心服务的去中心化团队。前者规模较大,但是比传统的NOC环境要小,而后者则是很小的团队。 DevOps 团队除了负责维护基础设施以外,有时还要管理发布过程,以及维持生产的正常运行。而最后这项工作是最伤脑经也最耗时的,一旦处理有误就会影响到整个环境。虽然没有人愿意值班待命,但我们还是得这样做,因为平均修复时间(MTTR)越短,问题响应越迅速,接下来的几天甚至几周里,大家的日子都会好过些——最重要的是它能维持业务的正常运转。 但是,一旦值班开始影响到团队情绪并占据运维团队大量的时间,就可能招致巨大的风险——集中式团队和去中心化团队很容易产生告警疲劳

云告警平台 OneAlert :如何帮助运维工程师做好汇报?

限于喜欢 提交于 2019-11-29 19:48:05
OneAlert 是北京 蓝海讯通 科技有限公司旗下产品,中国首个 SaaS 模式的云告警平台,可集成 Zabbix , Nagios , Solarwinds ,AWS CloudWatch , 阿里云 ,监控宝,腾讯云等国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性,极大提高团队的协作能力、优化协作流程。 去年 OneAlert 结合真实用户的需求和国内外前沿经验,程序员们日夜兼程对平台做了一次又一次的优化,增加了许多用户真实需要的功能。本篇将详解 OneAlert 周报,让运维工程师们在向上级汇报工作时有更多直观的数据可以说! ####周报内容: ######1. 统计时间 告警统计时间一般为上周开始 00:00:00,到上周末 23:59:59。 ######2. 告警汇总 ######3. 配额汇总 ######4. Top统计:告警内容 ######5. Top统计:告警对象 国内 ITOM 管理平台 OneAPM 致力于帮助企业用户提供全栈式的性能管理以及 IT 运维管理服务,通过一个探针就能够完成日志分析、安全防护、APM 基础组件监控、集成报警以及大数据分析等功能。想阅读更多优秀文章,请访问 OneAPM 官方技术博客 本文转自 OneAPM 官方博客 来源: oschina 链接: https://my.oschina.net/u

中国首个 SaaS 模式的云告警平台安卓版 APP 上线

半腔热情 提交于 2019-11-28 19:35:28
今年一月底,国内首个 SaaS 模式的云告警平台 OneAlert 正式发布了 iOS 版 App 客户端 ,今天上午,安卓版 App 客户端也正式上线了!每个安卓用户,无需电脑,都可以通过手机全程跟踪所有告警,并且可以和每一个成员一键式电话沟通,团队协作力再创新纪录! ####功能介绍 告警通知方式继电话、微信、短信、邮件、QQ 群提醒方式后,新增 App 提醒功能,接下来主要介绍安卓版 App 客户端的两个功能,让我们更粗暴了解我们为什么会安装 OneAlert 的 App。 #####1. 全程跟踪所有告警 通过 App 可轻松查看所有告警,迅速定位分配给我的告警,包括告警分派人员、告警名称、具体内容、发生时间等,点击「记录」按钮,还可查看告警处理记录。 #####2. 一键式联系成员 在成员选项中,可轻松查看所有成员,点击单个成员,还可查看所有联系方式,包括电话、邮件等。团队间沟通无障碍! ####启用方法 OneAlert 是北京 蓝海讯通 科技有限公司旗下产品,是国内第一个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想了解更多信息,请访问 OneAlert 官网 ,欢迎免费注册体验 。 本文转自 OneAPM 官方博客 来源: oschina 链接: https://my.oschina.net

中国首个 SaaS 模式的云告警平台 iOS 版 APP 上线

拥有回忆 提交于 2019-11-28 19:35:16
今天上午,国内首个 SaaS 模式的云告警平台 OneAlert 正式发布 ios 版 APP,每个 ios 用户,无需电脑,都可以通过手机全程跟踪所有告警,并且可以和每一个成员一键式电话沟通,团队协作力再创新纪录! ####功能介绍 告警通知方式继电话、微信、短信、邮件、QQ 群提醒方式后,新增 App 提醒功能,但是,我们对于 App 客户端准备了那么长时间,不可能只是给用户增加提醒功能,接下来主要介绍 App 客户端的两个功能,让我们更粗暴了解我们为什么会安装 App。 #####1. 全程跟踪所有告警 通过 App 可轻松查看所有告警,包括告警具体内容、时间等,点击记录按钮,还可查看告警处理记录。 #####2. 一键式联系成员 在成员选项中,可轻松查看所有成员,点击单个成员,还可查看所有联系方式,包括电话、邮件等。团队间沟通无障碍! ####启用方法 安卓版也将于近期上线,尽请期待! OneAlert 是北京 蓝海讯通 科技有限公司旗下产品,是国内第一个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想了解更多信息,请访问 OneAlert 官网,欢迎 免费注册 体验 。 本文转自 OneAPM 官方博客 来源: oschina 链接: https://my.oschina.net/u/2365986

2016运维团队所需解决方案的5个关键因素

不问归期 提交于 2019-11-28 19:35:03
现在 SaaS 的发展势头已经无法抵挡,只要持有企业信用卡,任何人都可以顺利部署 SaaS 工具,并借助 API,在短短几分钟内连接其他重要应用。并且开发者掌握了许多自动化快捷处理方式——比如说 Application Insight 应用部署和 Mobile Insight 移动应用测试——这极大地节省了推出新应用程序的时间。然而,很多管理应用程序和基础设施的旧方法以及无法跟上 SaaS 发展的步伐。 因此,企业转而采用各种专业监管工具——比如 Nagios 、 Zabbix 、 Solarwinds 和 AWS CloudWatch —— 旨在获取对堆栈不同层次的深刻认识。遗憾的是,这些工具难以实现交互的工作方式。各种监管工具的告警便层出不穷,数量之大,几乎让你分不清信号和噪音。 ##### 如何在噪音中准确寻获信号? 对于运维团队来说,只是单纯的获取告警其实是远远不够的,因为我们得到了太多的告警。事实上,源源不断的告警只会培养运维团队无视告警的能力(无法否认这是事实!)。当噪音很大时,你容易将不常见的信号也当成噪音。这可不是好事。 因此,运维团队需要智能的整体解决方案和可操作数据的解决方案,这样不仅能自动处理超出人工可处理范围的任务,还能在收到可操作告警后知道该如何处理。 为实现以上功能,结合告警平台的已上线的功能,以国外的 BigPanda 和国内的 OneAlert 为例

企业处理事件风暴的 2 种最佳管理方法

浪子不回头ぞ 提交于 2019-11-27 13:35:11
Moogsoft 的员工 Steve Burton 曾分享过一个非常极端但不少见的事例:有个服务提供商 4 万台服务器每小时生成超过 60 万个事件,而且其中有 4.7 万张帮助工单,每月有 2000 次以上的二级升级。也就是说,每天都有 66 次升级,不过这还不是最糟糕的。最糟的是,这 4.7 万张帮助工单须由几百号人进行手动分析、排列优先级以及分类。 ##### 现阶段事件管理现状 目前,IT运营中的事件管理 ( Event management ) 是手动的、劳动密集型的(因此成本高昂)活动,难以扩展。企业每年要在事件风暴管理上花掉 7000 万 rmb 以上,以期能在生产业务受到冲击之前发现异常现象和意外事件。 过去,事件数量相对较小且变化幅度不大,企业通常采用 IBM Netcool 或 CA Spectrum 等传统管理系统进行事件管理。IT 运营团队会制定并维护一些基本规则和筛选方法,从而聚合事件或使事件关联(例如,若事件 A 和事件 B 同时发生,则将两个事件合并以创建事件 C )。在 IT 运营仅需处理几百个熟知的事件时,这种事件管理形式是可行的。不幸的是,如今的 IT 运营团队面临的是几百万个事件,没有一个人能足够迅速地制定规则或筛选方法来处理这些庞大的事件。这就解释了为什么如今 IT 运营非常重视机器学习和数据科学,以及 LZ 在 Steve Burton

有效运维的 on-call 机制

早过忘川 提交于 2019-11-27 13:33:18
[编者按]本文作者为陈伯龙,云告警平台 OneAlert 创始人,著《云计算与 OpenStack 》,在IT运营管理、云计算方面从业10多年。 ##正文 互联网技术的发展,离不开运维支撑工作,没有零bug的程序,没有不出问题的系统,问题故障不可怕,可怕的是没能有序的处理: 突发紧急事件太多,疲于应付,团队士气低下,效率不高。 重要事情淹没在大量事件中,没有有序跟进处理,会引发严重业务影响。 如何有效处理紧急事件驱动的工作,成为(特别是运维主管)运维工作的关键。我接触了大量的各类型公司运维,从初创、中小、大型公司,总结和分享一些大多公司通用的on-call机制,帮助有序的处理紧急事件: 监控告警事件集中化。 建立多层次和职责划分的支撑团队。 通知到位和及时响应。 告警风暴关联合并。 事件单记录和团队协作。 基本上都是围绕人、流程、工具三方面进行,参考了ITIL的管理思路,大家感兴趣也可以参考下,特别是其中的ITIL V3的运营管理。 ##监控告警集中化 大多公司都用了zabbix和nagios、open-falcon等监控工具,对硬件、网络、应用进行监控。可能会存在监控分散问题: 环境比较复杂的时候,可能会用多个工具,如cacti监控网络,zabbix监控应用和服务器。 如果有多个异地数据中心时,可能需要部署多个zabbix和工具。 部分关键业务,需要单独的开发监控脚本

OneAlert 入门(二)——事件分析

半世苍凉 提交于 2019-11-27 13:30:52
OneAlert 是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。有了 OneAlert,你可以更快更合理地为事件划分优先级、分配路径,从而极大地提高团队的协作能力、优化协作流程。本文是 OneAlert 入门系列文章的第二篇,帮助你快速了解和配置 OneAlert,从而尽早解决系统宕机或 404 错误。 #### 事件分类 正如本系列第一篇文章所述,OneAlert 会自动根据主机、集群或自定义的标签将告警分组。分组完成之后,最重要的任务便是决定事件的优先级。这一过程被称为事件分类(incident triage),能确保团队合理地分配时间与资源。 OneAlert 暂时提供一种简单的方法,提高团队协作能力:转发。 #### 通过转发团队协作处理告警 当新告警产生时,首先先确定自己是否能够解决该告警。譬如,磁盘容量不足,而自己无释放容量的权限时,我们可以通过转发该告警给相关人员处理,将团队每个人的能力和权限价值最大化。OneAlert 提供的协作转发方式包括工单、客服、及时通讯等团队协作应用,确保告警能够通过适合的渠道发送给最佳处理人,提高团队协作能力。 本篇除了介绍 OneAlert 的协作功能,还将介绍两个即将上线的新功能:非紧急事件告警再提醒功能和重要事件标星功能。 ####

OneAlert 入门(三)——事件分析

走远了吗. 提交于 2019-11-27 00:28:35
OneAlert 是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。有了 OneAlert,你可以更快更合理地为事件划分优先级、分配路径,从而极大地提高团队的协作能力、优化协作流程。本文是 OneAlert 入门系列文章的第三篇,将帮助你快速了解和配置 OneAlert,从而挖掘该平台的最大价值。 #### 事件分析 你此前用过的大多数工单系统或问题追踪系统都会要求你手动分类或联结工单。OneAlert 可不一样。OneAlert 事件流中的每个事件都是自动创建的,且以监控栈中实时产生的告警为基础。 Zabbix , Nagios ,Solarwinds ,AWS CloudWatch , 阿里云 ,监控宝,腾讯云等国内外主流监控工具都能支持,而且新的应用正在快速集成。只要该工具会给 IT 和 DevOps (运维开发团队)产生告警,我们都会想办法与之集成。OneAlert 除了可以做一名合格的告警搬运工,还提供事件分析功能,目前包括总览、告警 Top 分析、告警压缩、应用,即将上线的还有面向 Team Leader 的团队分析、成员分析、通知分析功能。 #### Top分析----对告警内容和对象进行深入分析 OneAlert 提供两种 Top 分析,一种是根据告警内容产生告警的频繁次数进行排名分析