argus

智能运维 | 我们不生产“报警”,我们只是“报警”的搬运工

与世无争的帅哥 提交于 2021-01-13 15:02:01
百度云智能运维产品(Noah)的监控系统(Argus)是保障百度内外服务高可用的基石。它具有诸如机器监控、实例监控、HTTP监控、域名监控、日志监控、自定义监控等多种监控手段,具备“海陆空”全方位的监控能力,让服务异常无处遁形。 如果你看过本公众号之前的系列文章,相信你会觉得我所言非虚。 然而如此强大的监控系统所产生的“辣么多”报警,如果不能及时精准地送达给运维人员,那么一切都还只是个传说。今天我们就聊聊报警如何送达的问题。 注意,我们今天不谈报警,我们只谈报警的搬运工—— 百度云Noah通告平台。 一个都不能少 报警不同于普通的通知,它反映的是线上服务即将或正在遭受损失。如果我们把核心报警搞丢了,造成线上故障得不到及时解决,这个责任是巨大的。由于报警系统天然就这样要求高可靠性,因此我们奉行“at-least-once”的投递原则,确保报警至少有一次能成功抵达用户,做到“该报的报警一个都不能少”。 为了实现这个目标我们经历过不少坑。 机房网络连通性问题 我们发送报警要依赖四个底层发送网关(电话网关、短信网关、IM网关、邮件网关)来向用户发送消息,如下图所示。由于公司网络环境的原因,这些网关部署在某些特定机房,和上游的监控系统部署在不同机房中,这样机房间的网络拥塞或抖动将直接影响报警发送。 解决这种问题 ,可以将底层发送网关主备部署到不同的机房,由上游系统重试解决

阿里10年:一个普通技术人的成长之路

蹲街弑〆低调 提交于 2020-12-10 19:37:14
一 关于我 宋健,花名宋意,2008年开始参加工作,至今12年多一直专注在运维领域。2010年6月加入支付宝,做过监控、SRE、资源管理、运维产品等方面的工作,经历并参与了阿里运维从脚本到工具化再到自动智能化的演进过程,在阿里的10年根据部门变化有三个阶段: 2010.6-2013.1,支付宝(系统运维部) 2013.2-2015.12,技术保障(支付宝、阿里云、淘宝、B2B等运维部门统一后的新BU) 2016.1-至今,天基(负责阿里全球数据中心和运维体系的“数字化、自动化、智能化”建设) 二 我的经历 1 支付宝 关键词:开源监控、监控值班、应急响应 入职后加入的团队是运维部的监控组,那个时候团队刚刚开始组建,所有的东西从零开始,好在有B2B的兄弟团队可以借鉴经验,利用nagios快速构建了支付宝第一代监控系统。过了几个月由于双11的原因,我们的上班地点由华星时代搬到了电信二枢纽机房,因为支付宝当时的核心机房在那里,我们需要7*24在现场以便快速处置紧急事件。当时小组应该是6个同学,一白班一晚班一正常班,我们一边值班一边维护监控系统。 随着业务的快速发展服务器不断增加,很快一台nagios已无法满足需求,调研后引入centreon解决了nagios的水平扩展问题。监控项的添加和维护以编辑nagios配置文件为主,没有办法开放所有人员,因此监控项的维护工作也是由监控团队负责

车联网真要来了?全球汽车网络安全市场将实现跨越式增长

谁说我不能喝 提交于 2020-05-04 13:38:02
全球汽车网络安全市场研究报告对市场状况和发展模式进行了全面分析,包括类型,应用,新兴技术和地区。《汽车网络安全市场报告》涵盖了当前和过去的市场情况,市场发展模式,并有可能在预测期内持续发展。 全球汽车网络安全市场将实现跨越式增长,涵盖了全球和区域市场上的所有信息,包括市场需求,规模,贸易,供应,竞争者和价格的历史和未来趋势,以及全球主要供应商信息。 专家对有关汽车网络安全市场的市场研究,对行业领域的最新概述,行业增强驱动因素和障碍的全面研究。它提供了未来几年的市场预测。它包含了对后期创新的分析,五种力模型分析以及精心挑选的行业竞争者的进步概况。看来车联网真的要来了。 制造商在汽车网络安全市场中的活跃度概述,包括: ESCRYPT嵌入式系统 英特尔公司 Harman(TowerSec) Arilou技术 BT安全性 思科系统 Trillium Argus SBD汽车和Ncc集团 NXP半导体公司 Secunet AG Utimaco GmbH Karamba安全性 按类型划分的汽车网络安全市场细分: 基于软件的基于 硬件的 网络和云 安全服务及框架 等 汽车网络安全市场细分应用: 乘用车, 商用车 等 知名网络安全专家,东联科技CEO郭盛华表示:“随着车联网的趋势,不少企业开始高薪聘请“黑客”安全专家,以检测汽车联网的漏洞。” 在这次报告中讨论了汽车网络安全市场的竞争格局

百度佛系程序员开始讲经啦,监控报警那些事儿

99封情书 提交于 2020-04-14 00:20:52
【今日推荐】:为什么一到面试就懵逼!>>> 本文作者:AIOps智能运维 作者简介 运小伟 百度高级研发工程师 负责百度监控平台报警子系统的设计和研发,在大规模分布式系统、运维监控、精准报警等方面具有广泛的实践经验。 干货概览 Argus(Noah 监控3.0)是百度内部最大的监控平台,提供了 机器监控、进程监控、日志监控、远程监控、自定义监控 等多种监控方式。它还支持集群级别的监控配置和管理,并支持复杂的 异常判断 ,提供多种途径的 报警手段 。 图1 Argus监控系统示意图 从系统架构层面,Argus主要包括 采集、汇聚计算、数据存储、报警通路 和 可视化 五个主要部分。报警通路除负责异常判断、报警发送外,还支持 报警回调 和联动 故障自愈机器人 等功能。报警通路目前承载了千万级实例异常判断和报警,每天会自动执行数百次故障自愈任务。本篇文章会重点分异常判断和报警发送两部分来介绍报警通路的功能。 异常判断 判断规则 异常判断是报警通路的核心部分,其支持的判断规则决定了监控报警能力的强大与否,Argus报警通路支持以下两类判断规则: 内置的判断规则 : 该部分支持 四则运算 、 逻辑运算 以及各种 内置函数 。例如:metric_a < 99.99% && metric_b < 99.99% 、 abs(metric_c) > 100 等 。 自定义的判断规则 :