OpenFalcon

滴滴夜莺邀你参加“在线伙伴计划” 领取双向奖励

前提是你 提交于 2021-02-16 13:24:54
桔妹导读: 滴滴夜莺衍生自Open-Falcon,融入了滴滴内部的最佳时间,经过了大规模生产环境验证,是一套开箱即用的一体化监控告警系统。现在又推出了「在线伙伴计划」,可领取双向奖励,一起来了解详情吧! 延伸阅读 ▬ 内容编辑 | Teeo 联系我们 | DiDiTech@didiglobal.com 本文分享自微信公众号 - 滴滴技术(didi_tech)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4095493/blog/4560299

故障自愈:解决运维的主要矛盾才能AIOps

爷,独闯天下 提交于 2020-11-13 04:45:31
点击蓝字关注嘉为科技~ 以产品设计理念剖析企业建设故障自动化处理方案的思路 人工处理告警,一直是运维心中的痛。大年初一拜年、结婚、和老婆孩子外出过周末等美好时光,作为运维的你,好像一直心系IT系统,保持与笔记本的安全距离。 为什么这么多年过去了,还是这么苦逼,不是说运维行业转 AIOps了,我竟然还在手工处理告警,我该怎么办? 今天就和大家聊聊实现故障自愈要攻克的3个问题,以及 献上开箱即用的方案 。 1. 故障自愈的基本流程 自动化的要点是什么?把人的经验抽象、固化为程序处理,工业(第3次工业革命)或互联网都是如此。 举个例子,磁盘出现告警,运维首先想到的是登陆服务器清理磁盘。 (人工处理告警的流程) 接下来,我们拆解背后的逻辑。 1.1 抽象告警处理流程 1) 拉取磁盘告警 2) 编写磁盘清理的脚本或作业任务 3) 设计模块:把拉取到的磁盘告警,与调用脚本的模块串起来 (故障自愈流程 简化版V1) 1.2 通过CMDB做资源清洗 不同模块的磁盘清理方案不一样,如何解决呢? 这时需要 引入CMDB(设备、人、业务的映射关系) ,通过CMDB把 IP 清洗为 模块 ,这样就解决了接入层 和 逻辑层、存储层的告警使用对应的磁盘清理方案。 (故障自愈流程 简化版V2) 1.3 对接企业内部网关 故障自愈可能会处理失败,这时需要通知用户。故障自愈的处理方式除了调用作业外

监控系统选型,这篇不可不读!

允我心安 提交于 2020-11-04 03:39:01
之前,我写过几篇有关「线上问题排查」的文章,文中附带了一些监控图,有些读者对此很感兴趣,问我监控系统选型上有没有好的建议? 目前我所经历的几家公司,监控系统都是自研的。其实业界有很多优秀的开源产品可供选择,能满足绝大部分的监控需求,如果能从中选择一款满足企业当下的诉求,显然最省时省力。 这篇文章,我将对监控体系的基础知识、原理和架构做一次系统性整理,同时还会对几款最常用的开源监控产品做下介绍,以便大家选型时参考。内容包括3部分 : 必知必会的监控基础知识 主流监控系统介绍 监控系统的选型建议 01 必知必会的监控基础知识 监控系统 俗称 「 第三只眼 」 ,几乎是我们每天都会打交道的系统,下面 4 项基础知识我认为是必须要了解的。 1. 监控系统的7大作用 正所谓「无监控,不运维」,监控系统的地位不言而喻。不管你是监控系统的开发者还是使用者,首先肯定要清楚:监控系统的目标是什么?它能发挥什么作用? 实时采集监控数据 :包括 硬件、操作系统、中间件、应用程序等各个维度的数据。 实时反馈监控状态 :通过对采集的数据进行多维度统计和可视化展示,能实时体现监控对象的状态是正常还是异常。 预知故障和告警: 能够提前预知故障风险,并及时发出告警信息。 辅助定位故障: 提供故障发生时的各项指标数据,辅助故障分析和定位。 辅助性能调优: 为性能调优提供数据支持,比如慢SQL,接口响应时间等。

监控系统选型,这篇不可不读!

故事扮演 提交于 2020-10-29 16:56:37
之前,我写过几篇有关「线上问题排查」的文章,文中附带了一些监控图,有些读者对此很感兴趣,问我监控系统选型上有没有好的建议? 目前我所经历的几家公司,监控系统都是自研的。其实业界有很多优秀的开源产品可供选择,能满足绝大部分的监控需求,如果能从中选择一款满足企业当下的诉求,显然最省时省力。 这篇文章,我将对监控体系的基础知识、原理和架构做一次系统性整理,同时还会对几款最常用的开源监控产品做下介绍,以便大家选型时参考。内容包括3部分。 必知必会的监控基础知识 监控系统俗称「第三只眼」,几乎是我们每天都会打交道的系统,下面 4 项基础知识我认为是必须要了解的。 监控系统的7大作用 正所谓「无监控,不运维」,监控系统的地位不言而喻。不管你是监控系统的开发者还是使用者,首先肯定要清楚:监控系统的目标是什么?它能发挥什么作用? 实时采集监控数据 :包括硬件、操作系统、中间件、应用程序等各个维度的数据。 实时反馈监控状态 :通过对采集的数据进行多维度统计和可视化展示,能实时体现监控对象的状态是正常还是异常。 预知故障和告警: 能够提前预知故障风险,并及时发出告警信息。 辅助定位故障: 提供故障发生时的各项指标数据,辅助故障分析和定位。 辅助性能调优: 为性能调优提供数据支持,比如慢SQL,接口响应时间等。 辅助容量规划: 为服务器、中间件以及应用集群的容量规划提供数据支撑。 辅助自动化运维:

万字谈监控:解答Zabbix与Prometheus选型疑难

半腔热情 提交于 2020-09-24 06:00:06
Zabbix与Prometheus 读完本文,你将收获 两者适用于多大规模的监控场景?超过5000以上监控节点 时怎么办?高可用怎么解决? 两者怎么解决存储问题?对于监控信息是否有历史存储和分析,能从历史信息中挖掘到哪些有价值的信息? 两者怎么应对告警风暴和误报? 在智能监控和自动治愈方面是否有可借鉴的实践?基于什么算法或策略?怎么进行故障预判和预处理? 监控大屏是怎么设计的? 自动化运维管理是两者同时使用还是二选一更合适? 两者在配合使用时,应该怎么分工?怎么落地? 如果已经部署了Zabbix,怎么平稳过渡到Prometheus? 分布式链路的可观测性和端到端诊断怎么做? 大规模场景下,两者的性能和成本哪个比较低? 监控,为什么总让我们头痛 监控一直都是运维工作中不可或缺的部分,一个高效、契合的监控系统是服务赖以健康稳定的基石。 随着业务规模的增长、技术 的发展、行业的变革,企业对用户体验 越来越重视 ,监控的需求发生着日新月异的变化,相应的监控工具和解决方案也层出不穷。其中,Zabbix 和Prometheus就是两款非常典型的监控工具,应用 颇为广泛。 说起来,监控在不同的团队和公司之间,可能会存在各种差异化的需求。如何基于开源产品打造一个符合自己业务场景的监控体系,并且持续迭代?这成为了大家无法绕开的课题。 比如说,如何选择监控方案和开源工具

常见的监控方案

谁说我不能喝 提交于 2020-08-14 22:59:25
常见的监控方案∶ 开源监控软件 ∶cacti、naglos、zabbix、smokeping、open-falcon等。 Zabbix实战训练营 1. :Cacti icacti是基于孔AMP平台展现的网络流量监测及分析工具,通过sNP技术或自定义脚本从目标设备/主机获取监控指标信息;其次进行数据存诸,调用模板将数据存到数想库,使用rrdtool存储和更新数据,通过rrdtoo绘制结果图形;最后进行数据展现,过veb方式将监控结果呈现出来,常用于在数据中心监控网络设备。
 2:Nagios : 用来监视系统和网络的开源应用软件,利用其众多的插件实现对本机和远端服务的监控,当被监控对象发生异常时,会及时向管理员告警,提供一批预设好的监控插件,用户可以之间调用,也可以自定义she11脚本来监控服务,适合各企业的业务监控,可通过web页面显示对象状态、日志、告警信息,分层告警机制及自定义监控相对薄弱.
 3: SmokePing: Zabbix实战训练营 Smokeping是一款用于网络性能监测的开源监控软件,主要用于对IDc的网络状况,网络质量,稳定性等做检测,过rrdtoo1制图方式,图形化地展示网络的时延情况,进而能够清楚的判断出网络的即时通信情况。
 4:Open-falcon : 小米公司开源出来的监控软件open-falcon(猎鹰),监控能力和性能较强。
 5∶夜莺 ∶

【过关斩将】运维老鸟带教你如何精通运维

梦想与她 提交于 2020-08-12 07:00:27
文章目录 前言 一. 你的困惑在哪里? 1. 关于学习与公司的区别 2. 这么多我该学哪一个? 二. 如何才能学精通运维 三. 最核心的问题来了 总结 前言 我经常说一句话: 运维行业入门容易,精通难。 为什么? 因为运维学的东西又多又杂; 需要了解网络,学习系统基础操作,熟悉数据库,熟悉基础服务,熟悉自动化工具,虚拟化,容器,监控,故障排查等等。 而且随便一个点都有无数的工具需要掌握,比如监控: zabbix,grafana, cacti,天兔,prometheus,nagios,monit,ganglia,zenoss,open-falcon等等。 每一个工具又有无数的插件和模块,比如prometheus,与grafana结合,与微信结合,与邮件结合,与钉钉结合,单机模式,分布式,与数据库结合,与存储结合,与硬件结合,太多了,多到不想写。 很多人学着学着就放弃了,所以今天我们就一起来探讨下,运维到底该如何学。 一. 你的困惑在哪里? 这个问题比较好,你的困惑在哪里呢? 我调查了数百名小伙伴,大家普遍的困惑就是: 学的在公司能用上吗? 来源: oschina 链接: https://my.oschina.net/u/4349274/blog/4463621

网络监控系统七大开源工具分析

馋奶兔 提交于 2020-08-11 17:58:36
不断提升企业形象及服务质量、节约成本是所有企业的需求。数字化进程的加速,企业基本都会面临线上办公、线上提供产品服务的情况。运维部门为确保企业中所有业务稳定运行,并满足业务不断扩张的发展需求,时刻肩负着极大的挑战。如何节省成本,提升运维工作效率,实现精准监控? 当下,部分企业倾向于用开源软件节约成本,开源产品如何选型?如何达到企业级效果?我们测试了七个开源产品:Zabbix、Nagios、Prometheus、SugarNMS、Ganglia、Open-Falcon和Cacti,这些产品都有稳固的用户基础且均有更新。我们重点测试了操作,管理工具、接口以及每个产品的监控能力,自动发现、应用场景等情况。 我们在Windows上测试了这七款产品,当然并不是这些产品不能在Linux上运行。 Zabbix 商业开源软件。一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。用户群体主要面向泛物联网企业,主要监控集群。 支持告警功能,具备扩展能力,可自定义监控指标,其主要采用mysql/postgresql存储监控数据,监控规模1000+左右。但缺少数据汇总功能,使用上不太方便。而且由于缺少中文资料,服务支持有限,学习成本和定制模板比较大。 Nagios Nagios是一款开源网络监视工具,适合监视大量服务器计算环境,集成了很多功能。可监控主机状态及网络设备等

《为什么说 Prometheus 是足以取代 Zabbix 的监控神器?》

风流意气都作罢 提交于 2020-05-02 00:38:04
为什么说 Prometheus 是足以取代 Zabbix 的监控神器? Kuberneteschina 致力于提供最权威的 Kubernetes 技术、案例与Meetup! ​关注他 12 人赞同了该文章 作者:陈晓宇 来源: dbaplus 社群 校对: Bot (才云)、 星空下的文仔 (才云) Kubernetes 自从 2012年开源以来便以不可阻挡之势成为容器领域调度和编排的领头羊。Kubernetes 是 Google Borg 系统的开源实现,于此对应,Prometheus 则是 Google BorgMon 的开源实现。 Prometheus 是由 SoundCloud 开发的开源监控报警系统和时序列数据库。从字面上理解,Prometheus 由两个部分组成,一个是监控报警系统,另一个是自带的时序数据库(TSDB)。 2016 年,由 Google 发起的 Linux 基金会旗下的云原生计算基金会(CNCF)将 Prometheus 纳入作为其第二大开源项目。Prometheus 在开源社区也十分活跃,在 GitHub 上拥有两万多 Star,并且系统每隔一两周就会有一个小版本的更新。 各种监控工具对比 其实,在 Prometheus 之前,市面已经出现了很多的监控系统,如 Zabbix、Open-Falcon、Nagios 等。那么 Prometheus