hdfs命令

HDFS伪分布式环境搭建

前提是你 提交于 2019-12-19 00:05:17
HDFS概述及设计目标 什么是HDFS: 是Hadoop实现的一个分布式文件系统(Hadoop Distributed File System),简称HDFS 源自于Google的GFS论文 论文发表于2003年,HDFS是GFS的克隆版 HDFS的设计目标: 非常巨大的分布式文件系统 运行在普通廉价的硬件上 易扩展、为用户×××能不错的文件存储服务,也就是容错性 HDFS官方文档地址如下: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html HDFS架构 HDFS是主/从式的架构。一个HDFS集群会有一个NameNode(简称NN),也就是命名节点,该节点作为主服务器存在(master server)。NameNode用于管理文件系统的命名空间以及调节客户访问文件。此外,还会有多个DataNode(简称DN),也就是数据节点,数据节点作为从节点存在(slave server)。通常每一个集群中的DataNode,都会被NameNode所管理,DataNode用于存储数据。 HDFS公开了文件系统名称空间,允许用户将数据存储在文件中,就好比我们平时使用操作系统中的文件系统一样,用户无需关心底层是如何存储数据的。而在底层,一个文件会被分成一个或多个数据块

HDFS常用命令&安全模式&磁盘均衡

非 Y 不嫁゛ 提交于 2019-12-18 20:42:19
hdfs 常用命令 [wzj@hadoop001 ~]$ hadoop fs Usage: hadoop fs [generic options] [-appendToFile … ] [-cat [-ignoreCrc] …] [-checksum …] [-chgrp [-R] GROUP PATH…] [-chmod [-R] <MODE[,MODE]… | OCTALMODE> PATH…] [-chown [-R] [OWNER][:[GROUP]] PATH…] [-copyFromLocal [-f] [-p] [-l] … ] [-copyToLocal [-p] [-ignoreCrc] [-crc] … ] [-count [-q] [-h] [-v] [-x] …] [-cp [-f] [-p | -p[topax]] … ] [-createSnapshot []] [-deleteSnapshot ] [-df [-h] [ …]] [-du [-s] [-h] [-x] …] [-expunge] [-find … …] [-get [-p] [-ignoreCrc] [-crc] … ] [-getfacl [-R] ] [-getfattr [-R] {-n name | -d} [-e en] ] [-getmerge [-nl] ] [-help

Hadoop-3 Windows安装

删除回忆录丶 提交于 2019-12-18 15:45:37
Hadoop-3.0.0版本Windows安装 一 、安装Hadoop 从http://archive.apache.org/dist/hadoop/core/下载Hadoop-3.0.0,下载二进制压缩包文件:hadoop-3.0.0.tar.gz ,也可以在我的云盘里下载:链接:Hadoop-3.0.0 提取码:f5kq PS:在这里为了解压成功,所以最好将解压软件用管理员身份运行进行解压。 从https://github.com/steveloughran/winutils下载针对Windows环境的Hadoop修正程序winutils(Hadoop-3.0.0对应路径https://github.com/steveloughran /winutils /tree /master/hadoop-3.0.0 )。如果不会用Git工具下载,可以直接下载打包文件https://github.com/steveloughran/winutils/archive/master.zip,然后解压。也可以在我的云盘里提取:链接:winutils-master 提取码:lty8 确保自己的计算机上已经正确安装了JDK 1.8以上的Java开发和运行环境。(可以通过在命令行方式下运行java –version命令进行验证) 将hadoop-3.0.0.tar.gz解压至C:\Hadoop子目录

搭建Hadoop2.0(二)hadoop环境配置

最后都变了- 提交于 2019-12-18 04:29:58
1.Hadoop2.0 简述 [1] 与之前的稳定的hadoop-1.x相比,Apache Hadoop 2.x有较为显著的变化。这里给出在HDFS和MapReduce两方面的改进。   HDFS:为了保证name服务器的规模水平,开发人员使用了多个独立的Namenodes和Namespaces。这些Namenode是联合起来的,它们之间不需要相互协调。Datanode可以为所有Namenode存放数据块,每个数据块要在平台上所有的Namenode上进行注册。Datenode定期向Namenode发送心跳信号和数据报告,接受和处理Namenodes的命令。   YARN(新一代MapReduce):在hadoop-0.23中介绍的新架构,将JobTracker的两个主要的功能:资源管理和作业生命周期管理分成不同的部分。新的资源管理器负责管理面向应用的计算资源分配和每个应用的之间的调度及协调。   每个新的应用既是一个传统意义上的MapReduce作业,也是这些作业的 DAG(Database Availability Group数据可用性组),资源管理者(ResourcesManager)和管理每台机器的数据管理者(NodeManager)构成了整个平台的计算布局。   每一个应用的应用管理者实际上是一个架构的数据库,向资源管理者(ResourcesManager)申请资源

hadoop2.x整合手册【1】--hadoop2.x安装与配置

自闭症网瘾萝莉.ら 提交于 2019-12-18 04:23:33
前置工作 此处阅读需要曾经有1.x版本的安装部署经验 ssh无密码配置如同1.X版本和防火墙需要关闭,而需要的java环境也要准备好 将hadoop集群进行网络隔离,服务请求以及数据请求不要直接访问hadoop集群 安装步骤 一、核心配置文件以及配置(此处配置来源于官网) conf/core-site.xml Parameter Value Notes fs.defaultFS NameNode URI hdfs://host:port/ io.file.buffer.size 131072 Size of read/write buffer used in SequenceFiles. conf/hdfs-site.xml Configurations for NameNode: Parameter Value Notes dfs.namenode.name.dir Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently. If this is a comma-delimited list of directories then the name table is replicated in all of the

Hadoop: Hadoop Cluster配置文件

折月煮酒 提交于 2019-12-18 04:22:31
Hadoop配置文件 Hadoop的配置文件: 只读的默认配置文件: core-default.xml , hdfs-default.xml , yarn-default.xml 和 mapred-default.xml 站点特定的配置文件: etc/hadoop/core-site.xml , etc/hadoop/hdfs-site.xml , etc/hadoop/yarn-site.xml 和 etc/hadoop/mapred-site.xm Hadoop环境变量配置文件: etc/hadoop/hadoop-env.sh 、 etc/hadoop/mapred-env.sh 和 etc/hadoop/yarn-env.sh 管理员用户可以修改etc/hadoop/hadoop-env.sh 、 etc/hadoop/mapred-env.sh 和 etc/hadoop/yarn-env.sh 脚本来自定义站点特定的配置,修改这些脚本就是配置Hadoop后台进程用到的环境变量,比如,配置JAVA_HOME。 通过修改下面配置参数,管理员可以设置单独的Hadoop后台进程 Daemon Environment Variable NameNode HADOOP_NAMENODE_OPTS DataNode HADOOP_DATANODE_OPTS Secondary

HDFS Federation和NameNode HA的搭建

空扰寡人 提交于 2019-12-17 02:06:43
1. HDFS Federation产生背景 在Hadoop 1.0中,HDFS的单NameNode设计带来诸多问题,包括单点故障、内存受限制约集群扩展性和缺乏隔离机制(不同业务使用同一个NameNode导致业务相互影响)等,为了解决这些问题,Hadoop 2.0引入了基于共享存储的HA解决方案和HDFS Federation,这里重点介绍HDFS Federation。 HDFS Federation是指HDFS集群可同时存在多个NameNode,这些NameNode分别管理一部分数据,且共享所有DataNode的存储资源。这种设计可解决单NameNode存在的以下几个问题: (1)HDFS集群扩展性。多个NameNode分管一部分目录,使得一个集群可以扩展到更多节点,不再像1.0中那样由于内存的限制制约文件存储数目。 (2)性能更高效。多个NameNode管理不同的数据,且同时对外提供服务,将为用户提供更高的读写吞吐率。 (3)良好的隔离性。用户可根据需要将不同业务数据交由不同NameNode管理,这样不同业务之间影响很小。 需要注意的,HDFS Federation并不能解决单点故障问题,也就是说,每个NameNode都存在在单点故障问题,你需要为每个namenode部署一个backup namenode以应对NameNode挂掉对业务产生的影响。 2.安装环境 由于HDFS

Hadoop3.2 +Spark3.0全分布式安装

被刻印的时光 ゝ 提交于 2019-12-17 00:35:32
Hadoop3.2 +Spark3.0全分布式安装 目前Apache官网已经推出了最新版的Haoop3.2和最新版的Spark3.0,比原来增加了很多新特性。Hadoop的安装主要是为Spark提供HDFS的支持和yarn的调度。那么我们将在本文介绍全分布式的Hadoop和Spark的安装方法,供大家参考。 安装系统:Ubuntu 16.04 主节点(Master)数量:1 从节点(Slave)数量:2 一、前期准备 1.设置用户 在三台机器上新建Hadoop用户并设置sudo权限: $ su 输入密码 $useradd -m hadoop -s /bin/bash $passwd hadoop 设置密码 $adduser hadoop sudo # 为用户hadoop增加管理员权限 这样做的目的主要是为了避免使用 root 用户,从安全考虑。 2.安装Java和Scala并设置相应的环境变量 Hadoop3.0之后的版本只支持Java8以后的版本。下载完jdk解压之后放置于’/usr/lib/jvm’下面(目录可以更改),下载完之后在‘/etc/profile’中配置相关的环境变量 export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64 export JRE_HOME=/usr/lib/jvm/java-1.8.0

最全的大数据技术大合集:Hadoop家族、Cloudera系列、spark

ぐ巨炮叔叔 提交于 2019-12-16 06:55:20
大数据我们都知道Hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。 我们可以带着下面问题来阅读本文章: 1.hadoop都包含什么技术? 2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性? 3.Spark与hadoop的关联是什么? 4.Storm与hadoop的关联是什么? hadoop家族 创始人:Doug Cutting 整个Hadoop家族由以下几个子项目组成: Hadoop Common: Hadoop体系最底层的一个模块,为Hadoop各子项目提供各 种工具,如:配置文件和日志操作等。 HDFS: 是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。HDFS针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS优化的则是对小批量大型文件的访问和存储。 MapReduce: 是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件)

大数据之Hadoop核心之HDFS

大兔子大兔子 提交于 2019-12-15 20:57:04
Hadoop 软件有三大核心,HDFS、Yarn、MapReduce。这里我们来说第一个核心HDFS,HDFS全称 Hadoop Distributed File System 是Apache Hadoop项目的一个子项目,是一个分布式文件系统,Hadoop能够适合存储大数量的数据比如TB和PB,其实就是使用的HDFS。HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统。 HDFS适用的场景    存储非常大的文件:这里非常大指的是几百M、G、或者TB级别,需要高吞吐量,对延时 没有要求 。    采用流式的数据访问方式: 即一次写入、多次读取,数据集经常从数据源生成或者拷贝一次,然后在其上做很多分析工作 。    运行于商业硬件上: Hadoop不需要特别贵的机器,可运行于普通廉价机器,可以处节约成本需要高容错性为数据存储提供所需的扩展能力 HDFS不适用的场景    低延时的数据访问 对延时要求在毫秒级别的应用,不适合采用HDFS。HDFS是为高吞吐数据传输设计的,因此可能牺牲延时    大量小文件 文件的元数据保存在NameNode的内存中, 整个文件系统的文件数量会受限于NameNode的内存大小。 经验而言,一个文件/目录/文件块一般占有150字节的元数据内存空间。如果有100万个文件,每个文件占用1个文件块