flume

寒假学习记录第十一天

旧时模样 提交于 2020-02-11 21:18:32
1,继续学习Python 2,完成了实验六,安装了Flume 主要按照教程做的相关测试 使用 Avro 数据源测试 Flume Avro 可以发送一个给定的文件给 Flume,Avro 源使用 AVRO RPC 机制。请对 Flume 的相关配置文件进行设置,从而可以实现如下功能:在一个终端中新建一个文件 helloworld.txt(里面包含一行文本“Hello World”),在另外一个终端中启动 Flume 以后, 可以把 helloworld.txt 中的文本内容显示出来。 使用 netcat 数据源测试 Flume 请对 Flume 的相关配置文件进行设置,从而可以实现如下功能:在一个 Linux 终端(这 里称为“Flume 终端”)中,启动 Flume,在另一个终端(这里称为“Telnet 终端”)中, 输入命令“telnet localhost 44444”,然后,在 Telnet 终端中输入任何字符,让这些字符可以 顺利地在 Flume 终端中显示出来。 来源: https://www.cnblogs.com/xuange1/p/12296765.html

12.Flume的安装

落爺英雄遲暮 提交于 2020-02-10 08:53:10
先把flume包上传并解压 给flume创建一个软链接 给flume配置环境变量 #flume export FLUME_HOME=/opt/modules/flume export PATH=$PATH:$FLUME_HOME/bin 使环境变量生效 验证flume版本信息 flume-ng version 然后进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME 先用一个最简单的例子来测试一下程序环境是否正常 先在flume的conf目录下新建一个文件 vim netcat-logger.conf # 定义这个agent中各组件的名字 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 描述和配置source组件:r1 a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources.r1.port = 44444 # 描述和配置sink组件:k1 a1.sinks.k1.type = logger # 描述和配置channel组件,此处使用是内存缓存的方式 a1.channels.c1.type = memory a1.channels.c1.capacity = 1000 内存里面存放1000个事件 a1

04 友盟项目--access.log日志通过flume传入kafka集群

独自空忆成欢 提交于 2020-02-09 02:48:29
收集access.log数据到kafka集群 如果必要 清除原来的日志信息 xcall.sh "echo > /usr/local/openresty/nginx/logs/access.log" 开zk 开redis 开kafka 1 .kafka 主题 创建主题 kafka-topics.sh --zookeeper s102:2181 --partitions 4 --replication-factor 3 --create --topic big12-umeng-raw-logs 查看主题 kafka-topics.sh --zookeeper s102:2181 --list 创建kafka消费者 ----此步可以省略 kafka-console-consumer.sh --zookeeper s102:2181 --topic big12-umeng-raw-logs 2 配置flume,收集access.log文件到kafka集群 /soft/flume/conf sudo nano umeng_nginx_to_kafka.conf flume配置文件 a1.sources = r1 a1.channels = c1 a1.sinks = k1 a1.sources.r1.type = exec a1.sources.r1.command = tail -F

寒假6

China☆狼群 提交于 2020-02-06 21:50:44
今天学习大数据采集和导入 任何完整的数据平台一般都有以下几个过程: 数据采集 数据储存 数据管理 输出处理 数据展现 flume架构 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构,与Flume-og有很大不同,使用时请注意区分。 了解 flume源 flume拦截器 通道选择器 通道 接收器 来源: https://www.cnblogs.com/yang-qiu/p/12270267.html

Flume介绍

ぐ巨炮叔叔 提交于 2020-02-04 14:11:39
Flume介绍 http://flume.apache.org/FlumeUserGuide.html 一、Flume架构图 含义 Source 规定收集数据的来源 Channel 相当于一个管道,连接source和sink Sink flume agent收集到数据后,数据写到哪里 使用Flume,就是定义好 source,channel, sink, 它负责监控Linux文件系统,并将文件写入HDFS中 二 、 多个Flume整合 注意启动顺序!!! 先启动node2,后启动node1(先启动后面的Flume2, 在启动前面的Flume1) Nginx集群,每一个Nginx对应多个web server,再每一个web server安装Flume1,Flume2,Flume3...然后各个Flume交给总的Flume Agent,写入到HDFS中 三 、 Flume中Source, Channel, Sink的类型 Flume Source Source类型 | 说明 Avro Source | 支持Avro协议(实际上是Avro RPC),内置支持 Thrift Source | 支持Thrift协议,内置支持 Exec Source | 基于Unix的command在标准输出上生产数据, 监控文件的变化 JMS Source | 从JMS系统(消息、主题)中读取数据

Apache Flume 1.7.0 各个模块简介

妖精的绣舞 提交于 2020-02-04 14:09:07
Flume简介 Apache Flume是一个分布式、可靠、高可用的日志收集系统,支持各种各样的数据来源,如http,log文件,jms,监听端口数据等等,能将这些数据源的海量日志数据进行高效收集、聚合、移动,最后存储到指定存储系统中,如kafka、分布式文件系统、Solr搜索服务器等; Apache Flume主要有以下几大模块组成: 数据源采集(Source) 数据拦截(Interceptor) 通道选择器(Channel Selector) 数据通道(Channel) Sink处理器(Sink Processor) Sink(Sink) 事件序列化(Serialization) 模块组成图如下所示: 下面将对各个模块做个简单的介绍,在这之前,有必要先了解一下什么是事件? 在Flume中,所谓的事件指的是Flume数据流中的数据单位,包含header和body,用于存储日志数据,其中header是一个map结构,我们可以往header存放一些信息,如时间戳,appid等,以便后续对事件进行处理,body存放的是收集的日志内容字节流,结构如下图所示: 数据源采集(Source) 先看下source模块在流程图中所处的位置,这里以最简单的架构图来作为示例,如下图所示: Flume source主要功能是消费传递给它的事件; Flume内置了各种类型的Source

flume学习笔记——安装和使用

我的未来我决定 提交于 2020-02-04 14:06:42
Flume 是一个分布式、可靠、和高可用的 海量日志聚合的系统 ,支持在系统中定制各类数据发送方,用于收集数据; 同时,Flume提供 对数据进行简单处理,并 写到各种数据接受方(可定制)的能力。 Flume 是一个专门设计用来从大量的源,推送数据到Hadoop生态系统中各种各样存储系统中去的,例如HDFS和HBase。 Guide : http://flume.apache.org/FlumeUserGuide.html 体系架构 Flume的数据流由 事件(Event) 贯穿始终。 事件 是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由Agent外部的Source生成,当 Source捕获事件 后会进行特定的格式化,然后Source会把事件推入(单个或多个) Channel 中。你可以把Channel看作是一个缓冲区,它将保存事件直到 Sink处理 完该事件。Sink负责持久化日志或者把事件推向另一个Source。 Flume以 Flume Agent 为 最小的独立运行单位 。一个Agent就是一个JVM。 单agent由Source、Sink和Channel三大组件构成。 一个Flume Agent可以连接一个或者多个其他的Flume Agent;一个Flume Agent也可以从一个或者多个Flume Agent接收数据。 注意

Flume入门:安装、部署

让人想犯罪 __ 提交于 2020-02-04 13:59:11
一、什么是Flume?   flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.94.0 中,日志传输不稳定的现象尤为严重,为了解决这些问题,2011 年 10 月 22 号,cloudera 完成了 Flume-728,对 Flume 进行了里程碑式的改动:重构核心组件、核心配置以及代码架构,重构后的版本统称为 Flume NG(next generation);改动的另一原因是将 Flume 纳入 apache 旗下,cloudera Flume 改名为 Apache Flume。 flume的特点:   flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。   flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式

Flume NG简介及配置

北城以北 提交于 2020-02-04 13:59:00
Flume下载地址: http://apache.fayea.com/flume/ 官方使用文档: http://flume.apache.org/documentation.html 与RocketMQ的结合使用扩展:Rocket-Flume: https://github.com/apache/rocketmq-externals/tree/master/rocketmq-flume Flume简介 1、 Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.94.0 中,日志传输不稳定的现象尤为严重,为了解决这些问题,2011 年 10 月 22 号,cloudera 完成了 Flume-728,对 Flume 进行了里程碑式的改动:重构核心组件、核心配置以及代码架构,重构后的版本统称为 Flume NG( next generation );改动的另一原因是将 Flume 纳入 apache 旗下,cloudera Flume 改名为 Apache

Hadoop入门进阶课程12--Flume介绍、安装与应用案例

烈酒焚心 提交于 2020-02-04 13:58:38
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan 。该系列课程是应邀实验楼整理编写的,这里需要赞一下实验楼提供了学习的新方式,可以边看博客边上机实验,课程地址为 https://www.shiyanlou.com/courses/237 【注】该系列所使用到安装包、测试数据和代码均可在百度网盘下载,具体地址为 http://pan.baidu.com/s/10PnDs ,下载该 PDF 文件 1 、 搭建环境 部署节点操作系统为 CentOS ,防火墙和 SElinux 禁用,创建了一个 shiyanlou 用户并在系统根目录下创建 /app 目录,用于存放 Hadoop 等组件运行包。因为该目录用于安装 hadoop 等组件程序,用户对 shiyanlou 必须赋予 rwx 权限(一般做法是 root 用户在根目录下创建 /app 目录,并修改该目录拥有者为 shiyanlou(chown – R shiyanlou:shiyanlou /app )。 Hadoop 搭建环境: l 虚拟机操作系统: CentOS6.6 64 位,单核, 1G 内存 l JDK : 1.7.0_55 64 位 l Hadoop : 1.1.2 2 、