告警

对抗不可执行告警的四种措施

一世执手 提交于 2019-12-30 17:13:36
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 对于运维团队而言,很多告警其实并不能帮助他们解决掉实际的问题,相反有时会加重多余的负担,这主要是因为大多数的告警并不具备足够的可执行性: 它们指出的问题压根儿不需要响应 它们缺少关键的信息,迫使你需要花费很长的时间去寻找更多的源头,用以来估量它们的紧迫性 过量的不可执行告警会造成 告警疲劳 ,浪费时间和资源,从而耽误你解决实质性的问题,可能这些已经在你身边正悄无声息地发生着: 你是否自动忽略收到的多余告警? 你是否收到很多与你无关的告警? 每当你收到告警时,是否为了获得你真正需要的信息而采取一系列常规的行动? 如果有以上这样的情况,就能确定你是在遭受着告警疲劳,本篇将会列出四种常见的不可执行告警及其解决办法。 #### 1、无益的标题 问题:标题是告警的重要组成部分,因为它是你第一眼看到的东西。含糊不清的标题会迫使人们为了获取更多的信息而对告警主体进行不必要的挖掘,而当不同的告警使用相似的标题时,会使你感到更加沮丧、困惑,导致时间和精力上的浪费。 例子:在收到标题为「CPU LOAD 1.90」的告警后,你又收到一个标题为「CPU LOAD 1.80」的告警。这俩告警是否是关于同一个服务器的呢?负载1.80是否关键?这个问题会有什么影响?如果告警能提供解答而不是添加更多的问题,岂不是更好吗? 改进措施

为什么「告警等级」对缩短平均修复时间如此重要?

╄→гoц情女王★ 提交于 2019-11-27 13:33:07
互联网时代 IT 相关的衍生产品有很多, 监控工具 为其中的佼佼者。很多监控工具对于确保网站和应用的平稳运行做了非常多的工作,但是,对于告警产生到通知用户的过程,还有很大的改进空间。 在合理评估告警严重程度的基础上,确保通知合适的运维汪,对于快速有效解决事件至关重要。但是我们对告警等级的重要性以及如何设置告警等级来提高团队效率,还缺少必要的认识。针对该问题,以下几条快速指南可以供大家参考。 ##什么是告警等级?有什么重要性? 简单来说,告警等级是表征事件严重性的指标之一,取决于事件对用户体验以及网站或应用整体性能造成的负面影响的大小。 例如,导致网站崩溃的事件,被认为负面影响极大,告警等级也就较高;而一个Ping的问题有时不会很明显,被认为负面影响略小,告警等级也就较低。 告警等级的重要性体现在以下方面: 有助于减少和控制告警噪声的数量。 使得错误处理流程更为顺畅。 使你解决问题更有效率。 总而言之,根据告警等级不同,可以优先处理重要事件,避免干扰到不在职责范围内的无关人员。 ##怎样创建合适的团队告警等级规则? 确定告警等级的重要性,相信大家已经了解了,但如何创建一个适合整个团队事件严重程度的评估方法,是监控工具开发人员的棘手问题。 一般来说,评估告警等级过程需考虑以下3个方面: 1.严重性等级结构 2.团队结构 3.通信结构 1)严重性等级结构

「技术大牛」是如何缩短事件平均解决时间的?

牧云@^-^@ 提交于 2019-11-27 13:31:06
前不久,我们讨论了运维不容错过的 4个关键指标 ,其中平均解决时间(MTTR)被认为是衡量业务的最佳标准,随后也分析了「 告警等级 」对MTTR的重要性。 ###正确看待 MTTR MTTR 为从故障发生到故障修复所经历的时间。总故障时间是关于告警事件数量与各告警事件时长的函数。经过仔细地探讨这两项因素及其优先级,结合具体情况,总结以下策略用来缩短MTTR: #### 1)加快工作速度 = 然并卵 如果想通过加快工作速度降低 MTTR,理论上是完美的,但是骨感的现实根本不按我们的剧本走!为了对 MTTR 进行持续的、可衡量的改进,应该对故障事件进行深入的调查,分析事件的复杂程度及重要程度,然后从人与系统的协作上,实现对流程进行优化。 #### 2)检验告警响应时间 一旦事件发生,「MTTR」时钟便开始计时。通过调整通知流程,或许就能速战速决。下图为常见故障处理过程: 还不够直观?数据来说话。 OneAlert 一个月的告警数据显示:平均响应时间为 2.8 分钟;平均解决时间为 27 分钟。(不要问我为什么你们的响应时间要好几个小时!) 如果你的响应时间较长,建议检查一下团队值班响应机制,告警是否可有效传达给了正确的人?如果一线排版人员无响应,告警能否自动升级?升级时间阈值是多少?通过设定接近平均响应时间的适当期望值和目标,能确保所有成员尽快对告警作出响应。 #### 3

# 天下武功无坚不破,唯快不破!

喜你入骨 提交于 2019-11-27 00:29:39
没有天下第一的武功,但如果你的速度够快(比如接近光速),必然无敌。 11 月 20 日晚,深圳龙岗爱联爱新小区里的 54 辆私家车被刮花,等到车主们调取监控录像后才发现,竟是 4 名年龄都不超过 10 岁的「熊孩子」拿着石块把小区里的车辆当成了画画的面板。目前,爱联派出所已介入调查,熊孩子究竟是谁仍在核查中。 由刮车事件引发的联想...... 「我们觉得这件事主要还是家长监管和平时教育不到位,并且事发已经好几天了,也没有人主动出来承担责任。」车主李先生表示,小区里过半车俩被刮花,修理费用加起来已超过了15万元,而且由于是人为损坏,保险公司不会理赔,大家都希望这件事能有个结果。「如果这次不弄清楚,担心以后还会出现类似的情况。」事发后业主们纷纷讨要说法。 事虽小,但出现的问题很发人深思:监管、监控不到位,导致群体悲剧上演。如果能在孩子身上放一个类似监控器的东西,当孩子刮第一辆宝马车或者将要做出刮车的这个动作时就可以受到制止,又或者车辆内有足够强大的告警系统,当受到侵害时就能够第一时间传达给车主或者鸣响报警,那结果是不是压根儿就不会这么严重呢?! 说多了,读者该嘲笑我异想天开了。但今天我想说的是,随着企业业务发展的深入,IT 系统也日益复杂。公有云、私有云大规模应用,网络、服务器、软件应用系统之间错综的关联关系,使得 IT 管理和运维人员面对最终用户反映的应用不稳定、系统中断等问题时

HT for Web基于HTML5的图像操作(二)

Deadly 提交于 2019-11-26 23:23:43
上篇 介绍了 HT for Web 采用HTML5 Canvas的getImageData和setImageData函数,通过颜色乘积实现的染色效果,本文将再次介绍另一种更为高效的实现方式,当然要实现的功能效果是完全一样的。这次我们依然基于HTML5技术,但采用Canvas的globalCompositeOperation属性进行各种blending效果: 各种globalCompositeOperation效果可参考 https://developer.mozilla.org/en-US/docs/Web/API/Canvas_API/Tutorial/Compositing 的说明,我们采用“multiply”和“destination-atop”这两种blending效果,通过以下三个步骤实现: 1、先以染色颜色填充图片大小的矩形区域 2、采用“multiply”进行drawImage的绘制,达到以下效果 3、最后一步采用“destination-atop”的globalCompositeOperation方式,再次drawImage,这次绘制效果将会抠出图片像素区域,剔除非图片部分,最终达到我们所要的染色效果图片: 所有代码如下 function createColorImage2(image, color) { var width = image.width; var

告警分析:如何帮助运维团队快速做出最佳决策?

天大地大妈咪最大 提交于 2019-11-26 14:56:01
「路漫漫其修远兮,吾将上下而求索」,「转身」不见得华丽,但我必须「转身」,不要安逸于现在的运维状况。 如果你运维一线人员,是否会遇到以下情况: 公司所有的服务器告警消息会塞满自己的整个邮箱,如果公司的运维团队有几个人到几十人不等,当你处理邮箱中的告警消息的时候,处理一半会发现问题已经解决了,这个现象很常见,会导致工作效率的下降。改善的方法有很多,比如团队内部多一些沟通,然而沟通的成本也是非常高的。解决问题应该从源头出发,治标不治本的方法还是应该适当采取。也许你在创业团队工作,团队中只有一个人,但是也希望你能读完本篇文章,等团队壮大之后也会有帮助! 单一的告警通知方式会麻木运维同学的工作思维,一天 24 小时接收的都是邮件或者短信的告警通知。我们更希望白天工作时间使用邮件、微信、APP 等轻量级的通知方式,晚上休息时间使用短信、电话等偏重的通知方式。这样不仅白天能够提高工作效率,而且能够晚上好好休息,不用担心告警疏漏。如果能有排班通知,那么就真正能「睡个好觉」了。 如果你是运维 Team Leader,是否会遇到以下情况: 如果你是团队的管理人员,是否会遇到以下情况: 团队一直在解决故障,但对系统性能没有整体的把握;你对团队、成员的工作量,工作效率没有全面的了解。你肯定不希望这样管理你的团队,不希望团队重复解决某些事情,更不希望因为这些问题让团队士气低落,觉得工作没有干劲。

HT for Web基于HTML5的图像操作(一)

折月煮酒 提交于 2019-11-26 14:17:40
HT for Web 独创的 矢量图片设计架构 ,使其具有强大丰富的动态图形呈现能力,但从最近知乎热议的“ Adobe Photoshop 是否已经过时? ”的话题,大家能体会到很多情况下实际项目不可能完全采用矢量,项目中还是有大量的传统非矢量的静态图片,毕竟工具强大且现有资源丰富,但为了使静态图片呈现出更多的动态效果, HT for Web 提供了较多渲染方式,例如对 HT for Web 的图元设置‘body.color’的style后图元即可达到自动染色的效果,这里将对这种染色技术进行讲解。 上图呈现了本文例子最终的呈现效果,中间为原始图片是 http://hightopo.com/images/banner.png ,对其分别设置了红、黄和蓝三种颜色后的染色效果,完全基于 HT for Web 实现这么个简单拓扑的话代码不过十多行,不过今天我们不借助 HT for Web 提供的‘body.color’的染色功能,我们将采用最原始的方式生产染色图片。 dataModel = new ht.DataModel(); graphView = new ht.graph.GraphView(dataModel); graphView.addToDOM(); var root = new ht.Node(); root.setImage('ht-for-web.png');