Telegraf

Monitoring nginx (500's) with telegraf

梦想的初衷 提交于 2019-12-08 06:19:39
问题 I'd like to understand what my nginx instance is returning and who it's asking to handle requests. What fraction of my queries get handled by rails, what fraction are handled directly by nginx, what fraction are heading off to nginx_status, etc. Similarly, I'd also like to understand things like how many of which HTTP result codes I'm returning. If there's a peak in 500's, I'd like to know. The telegraf nginx plugin provides some very basic stats on nginx but no more. I've seen some vaguely

Centos7 MyPerf4J安装配置及可视化页面

喜夏-厌秋 提交于 2019-12-07 02:07:09
Centos7 MyPerf4J安装配置及可视化页面 一个针对高并发、低延迟应用设计的高性能 Java 性能监控和统计工具。 MyPerf4J 采用 JavaAgent 配置方式,透明化接入应用,对应用代码完全没有侵入。 参考: MyPerf4J 一、特性 高性能: 单线程支持每秒 1000 万次 响应时间的记录,每次记录只花费 73 纳秒 无侵入: 采用 JavaAgent 方式,对应用程序完全无侵入,无需修改应用代码 低内存: 采用内存复用的方式,整个生命周期只产生极少的临时对象,不影响应用程序的 GC 高精度: 采用纳秒来计算响应时间 高实时: 支持秒级监控,最低 1 秒 二、使用场景 在开发环境中快速定位 Java 应用程序的性能瓶颈 在生产环境中长期监控 Java 应用程序的性能指标 三、安装 1. 打包 如果你使用的是JDK7或者更高版本,可以尝试直接下载 MyPerf4J-ASM.jar 可以忽略打包步骤 git clone git@github.com:LinShunKang/MyPerf4J.git mvn clean package 把 /MyPerf4J-develop/MyPerf4J-ASM/target/MyPerf4J-ASM-${MyPerf4J-version}.jar 重命名为 MyPerf4J-ASM.jar 2. 配置

Telegraf+InfluxBD+Grafana系统监控实践

放肆的年华 提交于 2019-12-06 11:46:14
本书的gitbook地址是: https://frank6866.gitbooks.io/monitor/content/ 主要内容 开源分布式监控与告警系统(Telegraf+InfluxDB+Grafana)的运维笔记 Linux监控 Docker监控 基本组件 InfluxDB InfluxQL Telegraf Grafana简介 Grafana Tutorial Grafana 配置 Grafana 异常 Linux监控 Linux监控指标 基本信息监控 CPU监控 内存监控 磁盘监控 网络监控 Web Server监控 apache/httpd监控 http响应时间监控 Docker监控 cAdvisor cAdvisor+InfluxDB 来源: oschina 链接: https://my.oschina.net/u/592236/blog/3041371

Docker监控套件(Telegraf+Influxdb+Grafana)研究与实践

血红的双手。 提交于 2019-12-05 16:35:13
1. Telegraf相关介绍以及实践 2. Influxdb相关介绍以及实践 3. Grafana相关介绍和实践 4.TIG架构组成以及原理介绍 telegraf为数据采集器,通过监控指标的配置将相应的数据采集并存储到influxdb中,进而进行时间序列化,而grafana最终通过influxdb中提供的源数据进行聚合分析和展示。 telegraf的难点在于理解每个plugin的配置以及采集指标的原理和含义;influxdb的难点在于类SQL语言的优化使用;grafana的难点在于对监控需求以及指标的分析和提取,并通过可视化配置将图标展现。 5.监控效果图 注意:原创著作,转载请联系作者! 来源: oschina 链接: https://my.oschina.net/u/1026229/blog/751325

Docker监控方案(TIG)的研究与实践之Telegraf

杀马特。学长 韩版系。学妹 提交于 2019-12-05 04:11:46
前言 Docker由于使用了基于namespace和cgroup的技术,因此监控docker容器和监控宿主机在某些性能指标和方式上有一些区别,而传统的监控方式可能无法满足docker容器内部的指标监控,本篇系列文章主要分享使用telegraf+influxdb+grafana去监控docker容器内部资源使用情况。目前主要关注的监控指标为:每个宿主机上的docker容器数量,每个docker容器的内存使用情况,CPU使用情况,网络使用情况以及磁盘使用情况。同时这套方案也能够监控到宿主机的一些基本资源使用情况。 Telegraf简介与实践 简介: 由influxdata公司开发的用于采集系统数据的服务,用纯go编写,通过插件化方式进行采集各种服务(system,docker,redis,nginx,kafka等)监控指标并且上报给相应的中间件,比如influxdb,opentsdb(商城docker监控使用这个)。Telegraf也是整个TICK(telegraf+influxdb+chronograf+kapacitor)生态栈的第一块组件也是最重要的组件。 特点: 纯go编写,不需要依赖其他组件;消耗相关系统资源比较小;plugins支持多种输入输出插件(采集和上报); 相关连接: github: https://github.com/influxdata/telegraf

TICK技术栈(二)Telegraf安装及使用

别等时光非礼了梦想. 提交于 2019-12-03 23:11:28
1.什么是Telegraf? Telegraf是一个用Go语言开发的代理程序,可用于收集和报告指标。Telegraf插件直接从其运行的系统中获取各种指标,从第三方API中提取指标,甚至通过StatsD和Kafka消费者服务来监听指标。它还具有输出插件,可以将指标发送到各种其他数据存储,服务和消息队列,包括InfluxDB,Graphite,OpenTSDB,Datadog,Librato,Kafka,MQTT,NSQ等。github开源地址: https://github.com/influxdata/telegraf 2.Telegraf如何使用? 2.1安装 官方文档地址: https://docs.influxdata.com/telegraf/v1.12/introduction/installation/ 系统:CenterOS7.2 安装版本为:1.12.3 telegraf下载地址: https://portal.influxdata.com/downloads/ 找到你安装系统的对应版本: 运行下载页面提供的下载rpm文件命令: wget https://dl.influxdata.com/telegraf/releases/telegraf-1.12.3-1.x86_64.rpm 下载完成之后对应的目录会多出一个rpm的包: 然后执行下载页面提供的安装命令:

burrow+telegraf+Grafana实现Kafka Consumer Lag监控

匿名 (未验证) 提交于 2019-12-03 00:09:02
kafka监控工具比较多,有kafka monitor,kafka manager, kafka eagle,KafkaOffsetMonitor 等,但是监控consumer lag最好用的当属burrow. Burrow是linkedin开源的一个监控Apache Kafka的工具,burrow可以将消费者滞后检查作为一项服务来对外提供。 它监视所有消费者的承诺偏移量,并根据需要计算消费者的状态,提供HTTP endpoint接口来获取消费者状态,能够监控Consumer消费消息的延迟,从而监控应用的健康状况,并且可以同时监控多个Kafka集群。 通知器可以通过配置电子邮件或HTTP通告进行告警,而无需指定阈值,他完全是基于消费过程的动态评估。同时可以监控offset提交到broker,zk两种方式,还可以作storm的消费监控,报警支持http, email想要扩展个自己的短信报警什么的也是超简单。 下载tar包 https://github.com/linkedin/Burrow/releases 解压后修改config/burrow.toml配置文件 主要是修改日志文件地址和增加kafka集群配置,同时可以增加zookeeper的模式。 验证是否成功可以访问ip/v3/kafka 可以获取到监控的kafka集群信息如下 {"error":false,"message":

telegraf - exec plugin - aws ec2 ebs volumen info - metric parsing error, reason: [missing fields] or Errors encountered: [ invalid number]

随声附和 提交于 2019-12-01 13:25:56
Machine - CentOS 7.2 or Ubuntu 14.04/16.xx Telegraf version: 1.0.1 Python version: 2.7.5 Telegraf supports an INPUT plugin named: exec . First please see EXAMPLE 2 in the README doc there. I can't use JSON format as it only consumes Numeric values for metrics. As per the docs: If using JSON, only numeric values are parsed and turned into floats. Booleans and strings will be ignored. So, the idea is simple, you specify a script in exec plugin section, which should spit some meaningful info(in either JSON -or- influx data format in my case as I have some metrics which contains non-numeric values

telegraf - exec plugin - aws ec2 ebs volumen info - metric parsing error, reason: [missing fields] or Errors encountered: [ invalid number]

泄露秘密 提交于 2019-12-01 10:24:59
问题 Machine - CentOS 7.2 or Ubuntu 14.04/16.xx Telegraf version: 1.0.1 Python version: 2.7.5 Telegraf supports an INPUT plugin named: exec. First please see EXAMPLE 2 in the README doc there. I can't use JSON format as it only consumes Numeric values for metrics. As per the docs: If using JSON, only numeric values are parsed and turned into floats. Booleans and strings will be ignored. So, the idea is simple, you specify a script in exec plugin section, which should spit some meaningful info(in

go监控方案(1) -- 概述

血红的双手。 提交于 2019-12-01 06:26:35
概述 为什么需要监控 在编写应用程序的时候,通常会记录日志以便事后分析,在很多情况下是产生了问题之后,再去查看日志,是一种事后的静态分析。 在很多时候,我们可能需要了解整个系统在当前,或者某一时刻运行的情况,比如当前系统中对外提供了多少次服务,这些服务的响应时间是多少, 随时间变化的情况是什么样的,系统出错的频率是多少。这些动态的准实时信息对于监控整个系统的运行健康状况来说很重要。 由于业务系统数量大,每天都会产生大量的系统日志和业务日志,单流式业务的一台服务器产生的日志达400M 想直接查看内容打开可能几分钟, 而且内容之多根本无法查看,给开发和运维带来诸多不便,现业务都是分布式的,日志也是分布在每台服务器上, 所以查看日志和统计更是效率低下。实时收集分布在不同节点或机器上的日志,供离线或在线查阅及分析来提升工作效率的需求异常迫切, 这些动态的准实时信息对于监控整个系统的运行健康状况来说很重要。 Profiling特别重要。如果能有一个特别强大的Profiling系统,就知道整个系统在哪个地方,哪台机器上,花了多少CPU、内存、磁盘IO或者网络带宽等资源,才能知道优化什么地方效益最大。 监控需要的信息从哪里获得? 这些信息需要数据作为基础直接获得或者计算获得,那么实时数据怎么去获取,什么标准来作为测量标准。也就是信息采集的时候,怎么去获得。如下面这些实时数据如何获得 响应时间