OpenFalcon

开源系统监控工具Nagios、Zabbix和Open-Falcon的功能特性汇总及优缺点比较

别等时光非礼了梦想. 提交于 2020-04-27 20:42:18
Nagios Nagios 全名为(Nagios Ain’t Goona Insist on Saintood),最初项目名字是 NetSaint。它是一款免费的开源 IT 基础设施监控系统,其功能强大,灵活性强, 能有效监控 Windows 、Linux、VMware 和 Unix 主机状态,交换机、路由器等网络设置等。Nagios核心功能是监控报警,告警能力很不错,但是图形展示效果很差。 同时nagios更加灵活,很多功能都要通过插件化来实现,对于技术能力没那么强的同学,上手会有些困难。当然,对于运维老手,上手会很快。 Nagios 的功能特性如下: • 监控网络服务(SMTP、POP3、HTTP、NNTP、PING等); • 监控主机资源(处理器负荷、磁盘利用率等); • 简单地插件设计使得用户可以方便地扩展自己服务的检测方法; • 并行服务检查机制; • 具备定义网络分层结构的能力,用"parent"主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态; • 当服务或主机问题产生与解决时将告警发送给联系人(通过EMail、短信、用户定义方式); • 可以定义一些处理程序,使之能够在服务或者主机发生故障时起到预防作用; • 自动的日志滚动功能; • 可以支持并实现对主机的冗余监控; • 可选的WEB界面用于查看当前的网络状态、通知和故障历史

用企业微信实现预警(shell + python)

怎甘沉沦 提交于 2020-04-25 02:19:13
[TOC] 一 注册企业微信 本文所有内容是基于2018年12月26日时的企业微信版本所做的教程。后面可能由于企业微信界面规则更改导致部分流程不一致。(大家看文章时请注意这一点) 注册企业微信必备条件 微信号(实名认证了) 手机号 之前我有个误区,就是以为注册企业微信就一定要有营业执照之类的证件才可以注册,实际是不需要也可以的,因为我们直接注册后,即使不绑定企业,我们也是可以正常使用的,未绑定实际企业的,有200人的数的上限(难道你们技术部有200人?不存在的,哈哈!) 注册 注册链接: 企业微信 企业名称可以随便填,建议填真实的啊,其他的你就按照实际情况填了。 二 创建消息 创建部门 首先我们需要创建一个部门,然后将成员添加到一个部门里面 邀请成员加入 我们可以在首页点击进行邀请。 也可以在选中要添加的部门后再选右边的添加成员或者微信邀请。 创建应用 创建的时候指定下可以接收的消息的部门 ###关注微工作平台 在我的企业 ---》 微工作平台 ---》邀请关注 三 实现预警 在完成的上面的所有准备工作后,我们还需要获取三个东西 : 1 企业ID 2 获取应用ID和Secret 获取企业ID 获取应用ID和Secret 通过shell 脚本实现监控预警 该shell 脚本实现的功能: 检测端口是否在监听状态,不在则进行微信预警。 #!/bin/bash ##############

快速实现钉钉告警通知、处理告警、关闭告警

大兔子大兔子 提交于 2020-03-19 13:58:11
3 月,跳不动了?>>> 钉钉目前已经成为大多数公司必备的软件,无论是上下班快速方便的远程打卡,从而避免了迟到的尴尬局面;还是快速的接收公司第一手消息,从而有效的加快工作的效率。 对于实现告警通知到钉钉群当中,目前部分主流监控系统可以通过编写代码的方式实现,但是通知的告警内容不够明显,导致寻找关键问题原因的时间过长,并且也无法判定告警是否被处理,这就会大幅影响运维人员的工作效率。 睿象云智能告警平台Cloud Alert (以下简称为CA)作为中国第一个 SaaS 模式的云告警平台,就完美的解决了上述问题,从CA平台接入到钉钉群的告警通知,可以清楚的看到告警标题、告警编号、告警时间、告警级别、告警应用、告警内容;用户可以直接在钉钉群中进行认领、关闭等操作。接下来就说下接入步骤吧~ 主要分为两步,第一步是将监控平台接入到CA当中,第二步是设置钉钉的通知方式。 将监控平台接入到 CA 中 进入Cloud Alert,点击集成-监控工具,选择您的监控工具进行集成,目前支持的有Zabbix、Prometheus、Nagios、Open-Falcon、AWS、阿里云、Cacti、solarwinds、睿象云、监控宝、Grafana 、Vmware、Site24x7、如果上述都没有支持你的监控系统,那还可以用通用集成rest api和邮箱集成。 设置钉钉的通知方式 在PC端钉钉中,点击头像

如何在企业微信中告警的通知、认领和关闭?

我们两清 提交于 2020-03-12 17:03:08
企业微信是腾讯微信团队打造的企业通讯与办公工具,具有与微信一致的沟通体验,丰富的OA应用,和连接微信生态的能力,可帮助企业连接内部、连接生态伙伴、连接消费者。专业协作、安全管理、人即服务。成为了大部分企业的主流办公应用。 在当下疫情期间,将告警不遗漏的发送到企业微信,并且能够快速的认领和关闭,达到第一时间处理的效果,就是一个最好的选择。 睿象云智能告警平台Cloud Alert (以下简称为CA)作为中国第一个 SaaS 模式的云告警平台,就完美的解决了上述问题,从CA平台接入到企业微信群的告警通知,可以清楚的看到告警编号、告警时间、告警级别、告警内容;用户可以直接在企业微信群中进行认领、关闭等操作。接下来就说下接入步骤吧~ 主要分为两步,第一步是将监控平台接入到CA当中,第二步是设置钉钉的通知方式。 将监控平台接入到 CA 中 进入Cloud Alert,点击集成-监控工具,选择您的监控工具进行集成,目前支持的有Zabbix、Prometheus、Nagios、Open-Falcon、AWS、阿里云、Cacti、solarwinds、睿象云、监控宝、Grafana 、Vmware、Site24x7、如果上述都没有支持你的监控系统,那还可以用通用集成rest api和邮箱集成。 设置企业微信的通知方式 在PC端企业微信群中,右键点击群-添加群机器人 点击新创建一个机器人

关于监控—我们只是讲道理

眉间皱痕 提交于 2020-02-28 10:36:33
前言 监控系统,是通过持续信息采集、收敛、分析来发现问题,并对解决问题提供数据依赖的一种科学技术。通过监控技术可以实现对故障进行 “ 事前预警,事后追踪 ”。 监控,是运维工作中的重要技术,如果没有监控,运维人员就相当于盲人摸象,发现问题会变得很被动;监控也是整个产品生命周期中最重要的一环,如果没有监控,产品中存在的问题就只能等用户反馈(客诉),严重降低用户体验。 目前,互联网行业的监控技术已经很成熟,业界有很多不错的开源产品可供选择,运维在开展监控工作时,选择一款开源监控系统,是一个省时省力,效率最高的方案。 监控目的 监控的目的是通过采集准确的监控指标、配置合理的告警机制,提前或者尽早发现问题,并做出响应、解决问题,进而保证产品的稳定性,提升用户体验。 具体可分为以下几方面: 对系统持续实时监控:指硬件系统,如服务器、路由器、交换机等; 对应用持续实时监控:指业务运行依赖的基础服务,如数据库、中间件等; 对业务持续实时监控:指产品运行情况,如状态码、接口响应时间、异常信息等。 监控方法 在了监控的重要性及监控目的之后,我们来聊聊到底如何做监控。 确定监控对象:明确是系统监控,还是应用监控,或者是业务监控; 确定监控指标:确定监控对象之后,需要明确具体监控指标,如果监控对象为服务器,那么监控指标有CPU、磁盘、内存等; 确定告警格式:监控的目的之一就是发出告警,所以

Open-Falcon 如何实现自定义多功能告警

限于喜欢 提交于 2019-12-19 17:06:50
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> Open-Falcon 是小米运维部开源的一款互联网企业级监控系统解决方案。其中有着如下的特点: ①强大灵活的数据采集:自动发现,支持falcon-agent、snmp、支持用户主动push、用户自定义插件支持、opentsdb data model like(timestamp、endpoint、metric、key-value tags) ②水平扩展能力:支持每个周期上亿次的数据采集、告警判定、历史数据存储和查询 ③高效率的告警策略管理:高效的portal、支持策略模板、模板继承和覆盖、多种告警方式、支持callback调用 ④高效率的graph组件:单机支撑200万metric的上报、归档、存储(周期为1分钟) ⑤高效的历史数据query组件:采用rrdtool的数据归档策略,秒级返回上百个metric一年的历史数据 ⑥dashboard:多维度的数据展示,用户自定义Screen ⑦高可用:整个系统无核心单点,易运维,易部署,可水平扩展 ⑧开发语言: 整个系统的后端,全部golang编写,portal和dashboard使用python编写。 但是在open-Falcon中,单一的告警模式又无法满足多样化的告警需求,尤其是当告警风暴来临时,单一的告警模式不仅会致使我们焦头烂额

002-open-falcon插件

不打扰是莪最后的温柔 提交于 2019-12-16 18:10:40
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> open-falcon插件 逻辑图 相关插件名称 transfer transfer是数据转发服务。它接收agent上报的数据,然后按照哈希规则进行数据分片、并将分片后的数据分别push给graph&judge等组件。 检查服务状态是否正常 curl -s "127.0.0.1:6060/health" 启动服务 ./open-falcon start transfer 停止服务 ./open-falcon stop transfer 查看服务 ./open-falcon monitor transfer 后续插件的相关查看命令大家举一反三 graph graph是存储绘图数据的组件。graph组件 接收transfer组件推送上来的监控数据,同时处理api组件的查询请求、返回绘图数据。 api api组件,提供统一的restAPI操作接口。比如:api组件接收查询请求,根据一致性哈希算法去相应的graph实例查询不同metric的数据,然后汇总拿到的数据,最后统一返回给用户 HBS 心跳服务器,公司所有agent都会连到HBS,每分钟发一次心跳请求。 Portal的数据库中有一个host表,维护了公司所有机器的信息,比如hostname、ip等等。这个表中的数据通常是从公司CMDB中同步过来的

001-open-falcon的单机版安装

别等时光非礼了梦想. 提交于 2019-12-13 16:51:13
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> open-falcon 每台服务器,都有安装falcon-agent,falcon-agent是一个golang开发的daemon程序,用于自发现的采集单机的各种数据和指标 单机安装 redis mkdir /home/redis && cd /home/redis wget http://download.redis.io/releases/redis-4.0.9.tar.gz tar -zxvf redis-4.0.9.tar.gz mv redis-4.0.9 redis4.0.9 && cd redis4.0.9 mkdir logs make && make install cat >>/home/redis/redis4.0.9/redis.conf<<EOF bind 0.0.0.0 daemonize yes pidfile /var/run/redis_6379.pid logfile "/home/redis/redis4.0.9/logs/redis.log" EOF redis-server /home/redis/redis4.0.9/redis.conf #连接测试 redis-cli -h 127.0.0.1 -p 6379 mysql wget http://repo.mysql

Open-Falcon监控系统安装和使用

孤人 提交于 2019-12-09 17:32:37
0. 运维监控工具选择 1. 安装脚本(主服务) 常规安装环境搭建太复杂, dashboard安装碰到python依赖不容易解决, 直接使用docker安装, 这里总结除了一个安装 shell script, 如下: #!/bin/sh ## env params MYSQL_HOST=my.falcon.local MYSQL_PASSWORD=falcon MYSQL_USER=falcon ## init mysql table before the first running # cd /tmp && \ # git clone --depth=1 https://github.com/open-falcon/falcon-plus && \ # cd /tmp/falcon-plus/ && \ # for x in `ls ./scripts/mysql/db_schema/*.sql`; do # echo init mysql table $x ...; # docker exec -i falcon-mysql mysql -h $MYSQL_HOST -u $MYSQL_USER -p $MYSQL_PASSWORD < $x; # done ## falcon redis docker run --name falcon-redis --restart