HDFS

Linux环境安装Hadoo

独自空忆成欢 提交于 2021-01-10 08:32:54
Hadoop Linux环境安装 1. 安装环境 Linux CentOS 7操作系统 JDK1.8 Hadoop 3.1.1 2. 具体步骤 2.1. 安装JDK1.8 官网下载 解压文件(命令:tar -zxvf jdk-8u191-linux-x64.tar.gz) 。 配置环境变量(命令:vi/etc/profile)在末尾添加一下配置: export JAVA_HOME=/home/tools/jdk1.8.0_191 export JRE_HOME=/home/tools/jdk1.8.0_191/jre export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH 1 2 3 4 刷新配置文件(命令:source /etc/profile) 验证是否安装成功(命令:java -version) 2.2 安装Hadoop 官网下载 版本3.1.1 解压文件(命令:tar -zxvf hadoop-3.1.1.tar.gz -C hadoop) 配置环境变量(命令:vi/etc/profile)在末尾添加一下配置: export HADOOP_HOME=/home/hadoop/hadoop export HADOOP

HDFS FSImage解析

纵然是瞬间 提交于 2021-01-10 00:04:53
HDFS命名空间保存在NameNode中,NameNode使用一个事务日志(EditLog)保存对系统元数据的所有改动。 整个文件系统的命名空间,包括文件和块之间的映射、文件系统属性等都保存在一个叫FsImage文件中。 FSImage 是HDFS核心数据结构之一,从构造函数可以看出主要分为三部分: NNStorage、FSEditLog和NNStorageRetentionManager 三个组件的主要功能如下所述: NNStorage is responsible for management of the StorageDirectories used by the NameNode. FSEditLog maintains a log of the namespace modifications. The NNStorageRetentionManager is responsible for inspecting the storage directories of the NN and enforcing a retention policy on checkpoints and edit logs. HDFS FSImage 类代码还是比较多的 大约有1500+行 首先浏览一下outline看看可以分为哪几部分? 目测可分为Format、Upgrade

揭秘双11丝滑般剁手之路背后的网络监控技术

旧时模样 提交于 2021-01-09 11:11:15
简介: 本篇将重点介绍Hologres在阿里巴巴网络监控部门成功替换Druid的最佳实践,并助力双11实时网络监控大盘毫秒级响应。 概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(下称Hologres)+实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地,为大数据平台创下一项新纪录。借此之际,我们将陆续推出云原生实时数仓双11实战系列内容,本篇将重点介绍Hologres在阿里巴巴网络监控部门成功替换Druid的最佳实践,并助力双11实时网络监控大盘毫秒级响应。 3... 2... 1... 00:00:00 。购物车,结算,提交订单,付款 00:01:00...。滴,您的支付宝消费xxx万元。 亿万人同时参与的千亿级项目,破记录的峰值58万笔/秒,剁手党们在整个交易过程中如丝般顺滑,好像参加了一个假的双11,而这一切的背后都离不开阿里巴巴网络能力的强大支持。随着技术的发展,尤其是近年来云和电商业务的愈发兴盛,基础网络也变得越来越庞大和复杂,如何保障这张膨胀网络的稳定性,提供云上用户畅通无阻的购物体验,对网络系统建设者和运维者说更是极大的考验。 理论上来说,故障不可避免,但是如果能够做到快速发现,定位,修复甚至预防故障,缩短故障时长,即可让用户轻微或无感是稳定性追求的终极目标。2015年的微软提出了pingmesh,成为业界事实的解决方案

hdfs两个namenode的fsimage不同步

六眼飞鱼酱① 提交于 2021-01-09 07:47:04
问题描述 发现active namenode上的fsimage是4月4日的,而standby namenode上的fsimage是4月21日。说明没有及时同步fsimage,担心后续切换可能会出问题。 定位 根据配置,fsimage至少每个小时就会同步一次,查看两个namenode的日志中相关记录: Standby namenode: 2019 - 04 - 21 10 : 04 : 29 , 853 INFO org.apache.hadoop.hdfs.server.namenode.TransferFsImage: Uploaded image with txid 1260456917 to namenode at node05: 50070 in 27.421 seconds Active namanode: 2019 - 04 - 21 10 : 04 :28, 728 INFO org.apache.hadoop.hdfs.server.namenode.TransferFsImage: Downloaded file fsimage.ckpt_0000000001260456917 size 1109646913 bytes. 日志没有任何错误,说明fsimage的同步机制工作正常。 查看配置hdfs-site.xml中dfs.namenode.name.dir的配置

《Hadoop学习之路》学习实践二——配置idea远程调试hadoop

霸气de小男生 提交于 2021-01-09 05:41:31
背景:在上篇文章中按照大神“扎心了老铁”的博客,在服务器上搭建了hadoop的伪分布式环境。大神的博客上是使用eclipse来调试,但是我入门以来一直用的是idea,eclipse已经不习惯,于是便摸索着配置了idea远程调试hadoop的环境。 步骤一: 下载与服务器上的hadoop同版本的hadoop安装包,我下载的是hadoop-2.7.7.tar.gz,下载后解压到某个目录,比如D:\Software\hadoop-2.7.7,不需要其他配置和安装 步骤二: 下载hadooop.dll和winutils.exe,这两个文件主要是调试运行的时候要用,不然运行会报错。我是在网上下载的2.7.x版本的压缩包。解压后放置在D:\Software\hadoop-2.7.7/bin/文件夹下: 同时将hadoop.dll文件复制到C:\Windows\System32下,并且重启电脑,否则会报错 Exception in thread "main"java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 步骤三: 配置系统环境变量: 配置环境变量Path,在现有Path后追加 %HADOOP_HOME%\bin;%HADOOP

impala+hdfs+parquet格式文件

心不动则不痛 提交于 2021-01-09 04:35:21
[创建目录] hdfs dfs -mkdir -p /user/hdfs/sample_data/parquet [赋予权限] sudo -u hdfs hadoop fs -chown -R impala:supergroup /user/hdfs/sample_data [删除目录] hdfs dfs -rm -r /user/hdfs/sample_data/parquet [上传文件] hdfs dfs -put -f device /user/hdfs/sample_data/parquet hdfs dfs -put -f metrics /user/hdfs/sample_data/parquet [查看文件] hdfs dfs -ls /user/hdfs/sample_data/parquet [impala建表,不带分区](创建表之后,还需要通过下面的alter语句添加分区) DROP TABLE IF EXISTS device_parquet; CREATE EXTERNAL TABLE device_parquet ( deviceId STRING, deviceName STRING, orgId STRING ) STORED AS PARQUET LOCATION '/user/hdfs/sample_data/parquet/device';

RDD的五大特点

让人想犯罪 __ 提交于 2021-01-08 20:15:48
1.RDD的官网定义 A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,partitioned collection of elements that can be operated on in parallel. 翻译: 弹性分布式数据集(RDD),Spark中的基本抽象。表示不可变的,分区的可以并行操作的元素集合。 解释: RDD是Resilient Distributed Dataset(弹性分布式数据集)的简称。RDD的弹性体现在计算方面,当Spark进行计算时,某一阶段出现数据丢失或者故障,可以通过RDD的血缘关系就行修复。 1、内存的弹性:内存与磁盘的自动切换 2、容错的弹性:数据丢失可以自动恢复 3、计算的弹性:计算出错重试机制 4、分片的弹性:根据需要重新分片 RDD是不可变(immutable)的,一旦创建就不可改变。RDDA-->RDDB,RDDA经过转换操作变成RDDB,这两个RDD具有血缘关系,但是是两个不同的RDD,体现了RDD一旦创建就不可变的性质。 RDD源码 abstract class RDD [ T: ClassTag ] ( @transient private var _sc: SparkContext,

一文教你学会Hive视图和索引

a 夏天 提交于 2021-01-08 09:41:17
前言 我们在写HQL有没有遇到过数据量特别大的时候比如,使用HQL 处理起来非常复杂,非常慢,这时候我们可以使用Hive给加个索引来提高我们的速度。多了就不说了,我们直接开始。 一、Hive视图 1.1 简介 Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0.0 引入的物化视图除外),当查询引用 视图 时,Hive 可以将视图的定义与查询结合起来,例如将查询中的 过滤器推送到视图 中。 1.2 特点 不支持物化视图 只查询,不能做加载数据操作 视图的创建,只是保存 一份元数据 ,查询视图才执行对应的子查询 view定义中若包含了ORDER BY/LIMIT语句,当查询视图时也进行了ORDER BY/LIMIT语句操作,view当中定义的优先级更高 ; Hive视图支持迭代视图 1.3 创建视图 CREATE VIEW [ IF NOT EXISTS ] [db_name.]view_name -- 视图名称 [(column_name [ COMMENT column_comment], ...) ] --列名 [ COMMENT view_comment] --视图注释 [TBLPROPERTIES (property_name = property

CDH日常运维

 ̄綄美尐妖づ 提交于 2021-01-08 00:43:03
1/ 作业有问题: 查log,没log再跑一次查log. 如果没有log的情况,比如hiveserver2挂了,查strr. 2/ 查集群名字 #看hdfs集群的名字,在cdh的hdfs配置中查: nameservice 3/ 添加角色 主机--角色,可以看各节点角色 添加,比如hdfs角色,可以选hdfs 选择要添加的角色和主机: 来源: oschina 链接: https://my.oschina.net/u/4359745/blog/3424761

大数据技术原理与应用

风格不统一 提交于 2021-01-07 17:55:56
概要介绍 大数据期末整理,岩哥牛逼 。 往期文章 数据可视化思维导图 网页设计期末复习 选择+简答+大题 文章目录 第一章 1. 大数据的4个v 2. 大数据的影响 3. 大数据的两大核心技术及对应关系 4. 产品对应关系 5. 三者关系 第二章 1. hadoop最初是创始人Doug Cutting 开发的文本搜索库,hadoop源自于2002年的Apache Nutch项目 2. hadoop分布式处理的软件框架 ,特性如下 3. Apache hadoop 版本演变 1.0-》2.0 4. hadoop生态系统 5. hadoop项目组建功能 6. 配置文件 core-site.xml hdfs-site.xml 参数(属性)理解 第三章 1. 总而言之 HDFS实现以下目标 2. HAFS特殊的设置,使得本身具有一些应用局限性 3.块的概念 4. HDFS主要组件的功能 (名称节点 数据节点)(课本更详细) 5. 名称节点的数据结构 6. 第二名称节点: 7. 第二名称节点的工作流程(个人概括) 8. HDFS体系机构概述 9. HDFS通信协议 10. 多副本方式冗余数据的保存 11. 数据存储策略(重点) 12. 数据错误与恢复(名称节点出错 数据节点出错 数据出错)(了解) 13. HDFS数据读写操作(背)(待补充) 第四章 1. 从BigTable说起 2.