flume | 易学教程

java.lang.ClassNotFoundException: org.apache.flume.clients.log4jappender.Log4jAppender

阅读更多关于 java.lang.ClassNotFoundException: org.apache.flume.clients.log4jappender.Log4jAppender

java.lang.ClassNotFoundException: org.apache.flume.clients.log4jappender.Log4jAppender 在使用Log4j日志信息放入到Flume时，根据官网 http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 的提示，在Log4j中加入如下配置信息 #... log4j.appender.flume = org.apache.flume.clients.log4jappender.Log4jAppender log4j.appender.flume.Hostname = example.com log4j.appender.flume.Port = 41414 log4j.appender.flume.UnsafeMode = true # configure a class's logger to output to the flume appender log4j.logger.org.example.MyClass = DEBUG,flume #... 并在root中申明了flume log4j.rootCategory=INFO, console,flume 但在运行的时候出现如下报错一脸蒙蔽，系统提示我缺少一个jar包

3.2Flume-配置Flume

阅读更多关于 3.2Flume-配置Flume

目的：把windows里iis日志，通过flume实时传输到linux 流程： 1.windows、linux中安装好flume 2.配置信息 windows中配置信息：配置信息放在flume\conf里，命名为_ -.conf _ linux中配置文件：位置： 3.启动 windows先启动： linux后启动：来源： CSDN 作者： Bella啦啦啦链接： https://blog.csdn.net/bella1213811111/article/details/103896347

新手必须掌握的Linux命令

阅读更多关于新手必须掌握的Linux命令

1. 常用系统命令 1．echo命令 echo命令用于在终端输出字符串或变量提取后的值，格式为“echo [字符串 | $变量]”。 [hadoop@hadoopmaster ~]$ echo $JAVA_HOME /usr/local/jdk [hadoop@hadoopmaster ~]$ echo 'aaaa' aaaa 2．date命令 date命令用于显示及设置系统的时间或日期，格式为 "date [选项 ][ +指定的格式 ] "。注意：有“+”不能省。 date命令中的参数以及作用：参数作用 %t 跳格[Tab键] %H 小时（00～23） %I 小时（00～12） %M 分钟（00～59） %S 秒（00～59） %j 今年中的第几天获取日期： [hadoop@hadoopmaster ~]$ date 2019年 01月 25日星期五 16:59:34 CST 格式化日期： [hadoop@hadoopmaster ~]$ date "+%Y-%m-%d %H:%M:%S" 2019-01-25 16:59:51 重置系统日期： [root@hadoopmaster hadoop]# date -s "2019-05-19 00:00:00" 2019年 05月 19日星期日 00:00:00 CST 今天是今年中的第几天： [root

Flume-采集目录到HDFS

阅读更多关于 Flume-采集目录到HDFS

需求某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去思路根据需求，首先定义以下3大要素 1. 数据源组件，即source ——监控文件目录 : spooldir 1. 监视一个目录，只要目录中出现新文件，就会采集文件中的内容 2. 采集完成的文件，会被agent自动添加一个后缀：COMPLETED 3. 所监视的目录中不允许重复出现相同文件名的文件 2. 下沉组件，即sink——HDFS文件系统 : hdfs sink 3. 通道组件，即channel——可用ﬁle channel 也可以用内存channel cd /usr/flume/conf mkdir /usr/dirfile vim spooldir.conf #name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source ##注意：不能往监控目中重复丢同名文件 a1.sources.r1.type = spooldir #conf a1.sources.r1.spoolDir = /usr/dirfile #所监控的文件夹 a1.sources.r1.fileHeader = true # Describe

Flume均匀发送数据到kafka的partition配置UUID Interceptor生成key的坑

阅读更多关于 Flume均匀发送数据到kafka的partition配置UUID Interceptor生成key的坑

一、需求 Flume向kafka发送数据时，同一个flume发送到kafka的数据总是固定在某一个partition中。而业务需求是发送的数据在所有的partition平均分布二、实现 Flume的官方文档： Kafka Sink uses the topic and key properties from the FlumeEvent headers to send events to Kafka. If topic exists in the headers, the event will be sent to that specific topic, overriding the topic configured for the Sink. If key exists in the headers, the key will used by Kafka to partition the data between the topic partitions. Events with same key will be sent to the same partition. If the key is null, events will be sent to random partitions. kafka

flume agent的内部原理

阅读更多关于 flume agent的内部原理

flume agent 内部原理 1、Source采集数据， EventBuilder.withBody(body) 将数据封装成Event对象， source.getChannelProcessor().processEvent(event) 然后将数据交给 Channel Processor （利用该类的方法进行下一步的处理） 2、 Channel Processor 将Event事件传递给拦截器链（Intercepter，进行简单的数据清洗） interceptorChain.intercept(event) ，然后将数据返回给Channel Processor。（通过调用 selector.getRequiredChannels(event) 方法来使操作封装成事务。） 3、然后 Channel Processor 将拦截过滤之后的Event事件传递给 Channel选择器(Channel Selector) (因为一个Source 可以对应多个 Channel，所以 Channel Selector 可以决定每个event具体分配给哪一个Channel)，然后Channel Selector返回给Channel Processor写入event事件的Channel列表。其中：Channel Selectors有两种类型，分别是Replicating Channel

Flume Streaming Data from Facebook

阅读更多关于 Flume Streaming Data from Facebook

问题 Please let me know whether it is possible to get data from Facebook to HDFS using Flume or Not, If yes can you please post the Configuration(Source) for flume. Thanks 回答1: Some information about how to streaming data from Social Media (Facebook) are on https://github.com/DataDanSandler 来源： https://stackoverflow.com/questions/23675248/flume-streaming-data-from-facebook

RedHat6.5安装单机flume1.6

阅读更多关于 RedHat6.5安装单机flume1.6

版本号： RedHat6.5 JDK1.8 apache-flume-1.6.0 1.apache-flume-1.6.0-bin.tar.gz 下载官网下载地址：http://archive.apache.org/dist/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz 百度云盘下载地址：链接：http://pan.baidu.com/s/1pKPah0f 密码：ovbe 2.安装新建一个/usr/local/flume目录，上传apache-flume-1.6.0-bin.tar.gz，解压： mkdir /usr/local/flume tar -xvf /usr/local/flume/apache-flume-1.6.0-bin.tar.gz 如图： 3.配置 /etc/profile sudo gedit /etc/profile #set flume environment export FLUME_HOME = /usr/ local / flume / apache - flume - 1.6 . 0 - bin export FLUME_CONF_DIR = $FLUME_HOME / conf export PATH = $FLUME_HOME / bin : $PATH source /etc/profile 4

Flume六：自定义 Sink

阅读更多关于 Flume六：自定义 Sink

案例自定义实现类 package com.flume.sinks; import org.apache.flume.*; import org.apache.flume.conf.Configurable; import org.apache.flume.sink.AbstractSink; import org.slf4j.Logger; import org.slf4j.LoggerFactory; /** * Created by HP on 2020/1/19. */ public class MySink extends AbstractSink implements Configurable{ //定义logger对象 Logger logger; //定义两个属性 private String prefix; private String subfix; @Override public void configure(Context context) { //获取logger对象，用于将数据打印到控制台，方便测试查看数据输出的效果 logger=LoggerFactory.getLogger(MySink.class); //读取配置文件，为参数赋值 prefix=context.getString("prefix","prefix"); subfix

Flume拦截器、Process、多路复用的使用

阅读更多关于 Flume拦截器、Process、多路复用的使用

#flume扇出的时候的多路复用形式 a1.sources=r1 a1.channels=c1 c2 a1.sinks=s1 s2 a1.sources.r1.type=HTTP a1.sources.r1.port=4444 a1.sources.r1.selector.type=multiplexing a1.sources.r1.selector.header=a # 是a1的话就发送到c1上 a1.sources.r1.selector.mapping.a1=c1 #不是a1而是其他情况的话，就发送到c2 a1.sources.r1.selector.default=c2 a1.channels.c1.type=memory a1.channels.c1.capacity=100 a1.channels.c1.transactionCapacity=100 a1.channels.c2.type=memory a1.channels.c2.capacity=100 a1.channels.c2.transactionCapacity=100 a1.sinks.s1.type=avro a1.sinks.s1.hostname=192.168.224.132 a1.sinks.s1.port=3333 a1.sinks.s2.type=avro a1.sinks.s2

订阅 flume