Apache Flume

Hadoop凉凉?不,它仍是大厂铁饭碗

守給你的承諾、 提交于 2020-08-07 01:45:20
关于Hadoop可能很多都是坏消息。 在2018年10月,最大的两个Hadoop发行版厂商Cloudera和Hortonworks宣布合并,抱团取暖,由于财报不太好,高层也离职了。还有第三大Hadoop发行版厂商MapR差点破产,幸亏最后被HPE收购....... 1 Hadoop的整体印象 一句话概括:Hadoop就是存储海量数据和分析海量数据的工具。 Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。 HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式储存和读取。 MapReduce是一个计算框架:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。 2 Hadoop的优势 | 高可靠性 :Hadoop 按位存储和处理数据的能力值得人们信赖。 | 高扩展性 : Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以干计的节点中。 | 高效性 : Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。 |

大数据采集和抽取怎么做?这篇文章终于说明白了!

江枫思渺然 提交于 2020-08-06 10:52:14
本文来源于公众号【胖滚猪学编程】,转载请注明出处! 关于数据中台的概念和架构,我们在 大白话 六问数据中台 和 数据中台全景架构及模块解析!一文入门中台架构师! 两篇文章中都说明白了。从这一篇文章开始分享中台落地实战。 其实无论是数据中台还是数据平台,数据无疑都是核心中的核心,所以闭着眼睛想都知道数据汇聚是数据中台/平台的入口。纵观众多中台架构图,数据采集与汇聚都是打头阵的: 本文将从以下几个方面分享数据采集的方方面面: 一、企业数据来源 二、数据采集概念和价值 三、数据采集常用工具 四、数据采集系统设计原则 五、数据采集模块生产落地分享 有来源才能谈采集,因此我们先来归纳下企业中数据来源。 数据来源 企业中的数据来源极其多,但大都都离不开这几个方面: 数据库,日志,前端埋点,爬虫系统等。 数据库我们不用多说,例如通常用mysql作为业务库,存储业务一些关键指标,比如用户信息、订单信息。也会用到一些Nosql数据库,一般用于存储一些不那么重要的数据。 日志也是重要数据来源,因为日志记录了程序各种执行情况,其中也包括用户的业务处理轨迹,根据日志我们可以分析出程序的异常情况,也可以统计关键业务指标比如PV,UV。 前端埋点同样是非常重要的来源,用户很多前端请求并不会产生后端请求,比如点击,但这些对分析用户行为具有重要的价值,例如分析用户流失率,是在哪个界面,哪个环节用户流失了

大数据篇:数据仓库案例

杀马特。学长 韩版系。学妹 提交于 2020-08-04 17:37:08
离线数据仓库 数据仓库(Data WareHouse)是为企业所有决策制定过程,提供所有系统数据支持的战略集合 通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制、成本、提高产品质量等 数据仓库,并不是数据最终目的地,而是为数据最终的目的地做好准备:清洗、转义、分类、重组、合并、拆分、统计等等 1 项目简介 1.1 项目需求 用户行为数据采集平台搭建 业务数据采集平台搭建 数据仓库维度建模 分析:用户、流量、会员、商品、销售、地区、活动等主题 采用即席查询工具,随时进行指标分析 对集群性能进行监控,发生异常需要报警 元数据管理 质量监控 1.2 技术选型 数据采集功能如何技术选型 采集框架名称 主要功能 Sqoop 大数据平台和关系型数据库的导入导出 Datax 大数据平台和关系型数据库的导入导出 flume 擅长日志数据的采集和解析 logstash 擅长日志数据的采集和解析 maxwell 常用作实时解析mysql的binlog数据 canal 常用作实时解析mysql的binlog数据 waterDrop 数据导入导出工具 消息中间件的技术选型 开源MQ 概述 RabbitMQ LShift 用Erlang实现,支持多协议,broker架构,重量级 ZeroMQ AMQP最初设计者iMatix公司实现,轻量消息内核,无broker设计。C++实现 Kafka

挨踢部落直播课堂第一期:起航2017——拥抱大数据

和自甴很熟 提交于 2020-07-28 06:22:44
1.大数据框架结构和全景概览; 2.企业大数据场景和不同数据源整合利用; 3.大数据学习与高薪求职; 一、大数据框架结构和全景概览 似乎一夜之间,大数据(Big Data)变成一个IT行业中最时髦的词汇。 大数据 首先,大数据并不是什么完完全全的新生事物,Google的搜索服务就是一个典型的大数据运用,根据每个用户的需求,Google实时从全球海量的数字资产(或数字垃圾)中快速找出最可能的答案,呈现给你,就是一个最典型的大数据服务。只不过过去这样规模的数据量处理和有商业价值的应用太少,在IT行业没有形成成型的概念。现在随着全球数字化、网络宽带化、互联网应用于各行各业,累积的数据量越来越大,越来越多企业、行业和国家发现,可以利用类似的技术更好地服务客户、发现新商业机会、扩大新市场以及提升效率,才逐步形成大数据这个概念。 理解大数据的两个例子: 1、 炒股。2011年好莱坞有部高智商电影《永无止境》,讲述一位落魄的作家库珀,服用了一种可以迅速提升智力的神奇蓝色药物,然后他将这种高智商用于炒股。那库珀是怎么炒股的呢?就是他能在短时间掌握无数公司资料和背景,也就是将世界上已经存在的海量数据(包括公司财报、电视新闻、近二三十年的报纸、互联网、小道消息等)挖掘出来,串联起来,甚至将Face Book、Twitter的海量社交数据挖掘出来,得到普通大众对某种股票的感情倾向,通过海量信息的挖掘

新闻实时分析系统-Flume+HBase+Kafka集成与开发

为君一笑 提交于 2020-04-27 21:02:17
1.下载Flume源码并导入Idea开发工具 1)将apache-flume-1.7.0-src.tar.gz源码下载到本地解压 2)通过idea导入flume源码 打开idea开发工具,选择File——》Open 然后找到flume源码解压文件,选中flume-ng-hbase-sink,点击ok加载相应模块的源码。 2.官方flume与hbase集成的参数介绍 3.下载日志数据并分析 到搜狗实验室 下载 用户查询日志 1)介绍 搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料 2)格式说明 数据格式为:访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID 4.flume agent-3聚合节点与HBase集成的配置 vi flume-conf.properties agent1.sources = r1 agent1.channels = kafkaC hbaseC agent1.sinks = kafkaSink hbaseSink agent1.sources.r1

第1节 storm日志告警:1、

痞子三分冷 提交于 2020-04-27 20:25:40
如何解决短信或者邮件频繁发送的问题:每次发送的时候都先查询数据库记录,看一下有没有给这个人发送消息,上一次发送消息的时间是什么时候,如果发送时间间隔小于半个小时,就不要再发了 ========================================== 6、日志监控告警系统 6.1需求分析: 实现项目中日志监控的功能,需要做到日志监控实时告警,例如系统中出现任何异常,触发任何的告警规则,都可以实时通过短信或者邮件告知相关系统负责人 6.2 案例:实现实时监控文件变化,通过自定义flume拦截器,实现文件内容添加标识(详见代码) 6.2.1 错误日志生成 错误日志生成,直接运行loggen.sh这个脚本,就会在 /export/data/flume/click_log 这个目录下生成一个文件叫做error.log的日志文件 参见资料当中的 注意:资料中已经提供好打包运行的jar包以及运行脚本,直接运行脚本即可 6.2.2 创建kafka的对应的topic bin/kafka-topics.sh --create --partitions 6 --replication-factor 1 --topic log_monitor --zookeeper node01:2181,node02:2181,node03:2181 6.2.3 flume自定义拦截器开发 注意

大数据开发实战系列之电信客服(1)

半腔热情 提交于 2020-04-27 20:10:14
大数据实战开发系列,以实战为主,辅以一些基础知识,关于电信客服,在网上也有很多的资料,这里我自然会去参考网上的资料,程序的整体设计是在今天开始的,老夫尽量在本周末钱结束这个电信客服的程序编写。因为我也是一个学习者,所以在程序编写过程中难免会存在问题,有问题还请大家指出,有则改之,无则加勉。大家共同进步。本教程适合接触大数据开发不久或者还没接触大数据开发,或者小萌新。老鸟就多提意见吧,我改。 博客原文地址: 大数据开发实战系列之电信客服(1) <!--more--> 项目背景 关于项目背景,我就照搬网上的了。通信运营商每时每刻会产生大量的通信数据,例如通话记录,短信记录,彩信记录,第三方服务资费等等繁多信息。数据量如此巨大,除了要满足用户的实时查询和展示之外,还需要定时定期的对已有数据进行离线的分析处理。例如,当日话单,月度话单,季度话单,年度话单,通话详情,通话记录等等+。我们以此为背景,寻找一个切入点,学习其中的方法论。当前我们的需求是:统计每天、每月以及每年的每个人的通话次数及时长。 项目架构 关于这个项目架构,网上的是用的 MapReduce , 老夫最近在看 Flink , 因此,我们把这个计算引擎换成 Flink 引擎。先看一下原来的系统架构: 再来看看我这边修改后的: 那我们现在就根据这个流程一步一步来走。 项目实现 项目平台搭建 关于大数据的一个平台搭建

MaxCompute数据的上传下载

放肆的年华 提交于 2020-04-13 18:24:13
【今日推荐】:为什么一到面试就懵逼!>>> Tunnel Tunnel通常用来将本地的数据上传到maxcompute或将maxcompute数据下载到本地 1、MaxCompute数据的上传和下载 MaxCompute系统上传/下载数据包括两种方式 DataHub实时数据通道 Tunnel批量数据通道 OGG插件 大数据开发套件 Flume插件 DTS LogStash插件 Sqoop Fluentd插件 Kettle插件 MaxCompute客户端 Tunnel查看帮助信息 不带参数的tunnel或tunnel help查看帮助信息 也可tunnel help upload Available subcommands: upload 支持文件或目录(只一级目录)的上传; 每一次上传只支持数据上传到一个表或表的一个分区; 有分区的表一定要指定上传的分区,示例如下: tunnel upload d:testp1.txt yunxiang_01.t_test_p/gender='male' tunnel upload d:test yunxiang_01.t_test_p/gender='male' --scan=only 注释:yunxiang_01为项目; t_test_p为表;gender='male'为分区类;--scan=only表示只扫码数据不导入数据。 download

大数据 面试题 知识点

故事扮演 提交于 2020-04-11 19:44:04
目录 一.Hadoop 1.hdfs写流程 2.hdfs读流程 3.hdfs的体系结构 4.一个datanode 宕机,怎么一个流程恢复 5.hadoop 的 namenode 宕机,怎么解决 6.namenode对元数据的管理 7.元数据的checkpoint 8.yarn资源调度流程 9.hadoop中combiner和partition的作用 10.用mapreduce怎么处理数据倾斜问题? 11.shuffle 阶段,你怎么理解的 12.Mapreduce 的 map 数量 和 reduce 数量 怎么确定 ,怎么配置 13.MapReduce优化经验 14.分别举例什么情况要使用 combiner,什么情况不使用? 15.MR运行流程解析 16.简单描述一下HDFS的系统架构,怎么保证数据安全? 17.在通过客户端向hdfs中写数据的时候,如果某一台机器宕机了,会怎么处理 18.Hadoop优化有哪些方面 19.大量数据求topN(写出mapreduce的实现思路) 20.列出正常工作的hadoop集群中hadoop都分别启动哪些进程以及他们的作用 21.Hadoop总job和Tasks之间的区别是什么? 22.Hadoop高可用 23.简要描述安装配置一个hadoop集群的步骤 24.fsimage和edit的区别 二.Hive 1.hive优化 2.Udf udaf

达达基于Kubernetes混部的日志系统演变

邮差的信 提交于 2020-03-06 15:59:04
【编者的话】 本文主要分享达达是如何通过Kubernetes混部构建一个日峰值处理超过130亿条日志,单日存储超过14TB,总存储量300TB的日志系统。 背景 在2016年达达与京东到家合并后线上业务迅速发展。面对海量日志增长和日志查询需求,基于ELK架构的日志系统已经不能满足达达的线上场景,迫切需要一个高效自动化的日志系统。本文主要分享达达是如何通过Kubernetes混部构建一个日峰值处理超过130亿条日志,单日存储超过14TB,总存储量300TB的日志系统。 历史包袱 达达最早也是使用ELK构建第一版日志系统,当时被研发吐槽最多的是『 Kibana怎么查不到我想要的数据』、『日志延时怎么这么久』。经过仔细梳理分析后,我们发现当时的日志系统主要存在以下三个问题: 日志采集无法自动化 每当新增一个日志接入需求,研发要和运维反复沟通,再由运维修改Flume采集配置。每次变更都需要繁琐的手工操作,且执行过程中很容出现问题。 此外在服务扩容经常时会遗落添加Flume采集配置,导致部分日志采集丢失,直接影响业务数据统计准确性。所以,自动化的采集日志是实现高效日志系统的基础。 日志无格式化解析 当时采用的是如下图展示的经典ELK日志系统架构:Flume采集 --> Kafka集群 --> Logstash解析 --> ElasticSearch存储 --> Kibana查询展示。