hdfs命令

面试题_hadoop

别来无恙 提交于 2019-12-30 02:53:48
Hadoop 准备 运行hadoop集群需要哪些守护进程? DataNode,NameNode,TaskTracker和JobTracker都是运行Hadoop集群需要的守护进程。 hadoop和spark都是并行计算,那么他们有什么相同和区别? 两者都使用mr模型来进行并行计算,hadoop的一个作业称为job,job里面分为map task和reduce task,每个task都是在自己的进程中运行的,当task结束时,进程也会结束。 Spark用户提交的任务称为application,一个application对应一个SparkContext,app中存在多个job,没触发一个action操作就会产生一个job。 这些job可以并行或者串行执行,每个job有多个stage,stage是shuffle过程中DAGSchaduler通过RDD之间的依赖关系划分job而来的,每个stage里面有多个task,组成taskset有TaskSchaduler分发到各个executor中执行,executor的生命周期是和application一样的,即使没有job运行也是存在的,所以task可以快速启动读取内存进行计算的。 Hadoop的job只有map和reduce操作,表达能力比较欠缺而且在mr过程中会重复的读写hdfs,造成大量的io操作,多个job需要自己管理关系。

Hadoop HDFS 设计随想

試著忘記壹切 提交于 2019-12-30 02:15:51
目录 引言 HDFS 数据块的设计 数据块应该设置成多大? 抽象成数据块有哪些好处? 操作块信息的命令 HDFS 中节点的设计 有几种节点类型? 用户如何访问 HDFS? 如何对 namenode 容错? 如何更快的访问 datanode 中访问频繁的块? 如何扩展 namenode 以存储更多的文件? HDFS 中的高可用性设计 如何处理 namenode 单点失效问题? namenode 间如何共享编辑日志? namenode 如何能快速故障切换? 如何规避非平稳故障转移? 小结 参考文档 珍惜时间,时间要花在做有用的事情上,力戒无意义的举动 ——富兰克林 引言 当数据的大小大于一台独立的电脑的存储能力时,就有必要对它进行分区并且存储在多台单独的电脑上。要将非常大的数据集合存储在多台电脑上,就会涉及到多台电脑共享的文件系统,也就是分布式文件系统。 分布式文件系统(distributed file system) 是指管理网络中跨多台计算机存储的文件系统。 分布式文件系统既然跨多台电脑,通过网络将它们互联起来,就可能会出现其中的一个电脑节点连接中断或者宕机的情况,也就是节点故障。在这种情况下也不能出现丢失整个文件系统任何数据的情况,怎么来做到呢?先让我们用发散思维的方式来思考一下。 将文件系统的每份数据备份,并且备份不能在同一台物理计算器上,这样能保证即使其中一台计算机宕机

HDFS 命令大全

≡放荡痞女 提交于 2019-12-28 01:44:57
概要 用户命令 dfs 命令 追加文件内容 查看文件内容 得到文件的校验信息 修改用户组 修改文件权限 修改文件所属用户 本地拷贝到 hdfs hdfs 拷贝到本地 获取目录,文件数量及大小 hdfs 内拷贝 createSnapshot 创建快照 deleteSnapshot 删除快照 显示空闲空间 显示文件和目录大小 清空回收站 查找文件 显示目录或文件的访问控制列表 显示文件或目录的扩展信息 ls mkdir moveFromLocal moveToLocal mv rm test tail usage 参考文档 s 概要 HDFS 文件系统的常用操作和普通 Linux 文件系统非常相似,如读取文件,新建目录,移动文件,删除数据,列出目录等。 本文只列出常用的 HDFS 命名,要查看完整的命令行列表,可点击 这里 所有的 HDFS 命令都是调用 bin/hdfs 脚本完成的,它的基本用法如下 hdfs [SHELL_OPTIONS] COMMAND [GENERIC_OPTIONS] [COMMAND_OPTIONS] hdfs 命令分成 3 种类型,分别是 用户命令 集群管理员命令 调试命令(集群管理员使用) 在命令中会有一些 URI 参数,其中 URI 的前缀是由 core-site.xml 中的 fs.defaultFS 决定的,通过该属性就可以知道 namenode

hdfs yarn kill 任务

泄露秘密 提交于 2019-12-27 01:51:15
hdfs kill 任务 先说结论 hdfs 上的hadoop 任务 直接在终端ctrl+C是不行的 任务一旦提交到集群上 就会继续 运行 所以应该使用 yarn application -kill application_1571706429831_129599 这个命令来kill job 起因 使用hadoop distcp 提交了一个拷贝任务 中途用 ctrl+c 取消了 然后去删除拷贝了一半的结果 结果发现在hdfs上删除了之后 目录仍然存在 后来在任务管理页面上看到仍然有多个distcp任务在运行 说明 是这些distcp任务 在删除目录之后仍然在运行并写入删除后的目录 导致这个目录被重新创建 所以表现为一直删不掉目录。这个可以从目录中最末端的文件hash中看出 有一些新出现的文件说明是 删除后写入的 感觉运维大哥给我找bug 来源: CSDN 作者: 随机??? 链接: https://blog.csdn.net/BUPT_SS4G/article/details/103712746

mlflow安装问题

亡梦爱人 提交于 2019-12-26 02:36:20
1.创建文件夹 mkdir mlwork cd mlwork 2. 创建一个干净的venv环境 [hdfs@xydwtest01 ~/mlwork]$ source ~/miniconda3/bin/activate (root) [hdfs@xydwtest01 ~/mlwork]$ virtualenv -bash: virtualenv: command not found 没有找到 virtualenv,需要安装virtualenv pip install virtualenv virtualenv安装成功,继续 (root) [hdfs@xydwtest01 ~/mlwork]$ virtualenv --no-site-packages venv Using base prefix '/home/hdfs/miniconda3' New python executable in /home/hdfs/mlwork/venv/bin/python /home/hdfs/mlwork/venv/bin/python: error while loading shared libraries: libpython3.6m.so.1.0: cannot open shared object file: No such file or directory ERROR: The

Hadoop3.x安装部署

↘锁芯ラ 提交于 2019-12-25 12:13:57
一、安装部署 此处是单机版安装,我安装的使hadoop3.1.3,因为hadoop2.x和hadoop3.x的安装部署有些不同,所以记录一下 首先安装好jdk,并且准备好hadoop3.x的安装包,可以去官网下载 openssh安装,便于远程上传文件(每台主机都做) [ root @node03 ~ ] # yum - y install openssh - clients 同步时间工具(每台主机都做) #安装ntpdate工具 [ root @node03 ~ ] # yum - y install ntp ntpdate #设置与网络时间同步 [ root @node03 ~ ] # ntpdate cn . pool . ntp . org #系统时间写入硬件时间 [ root @node03 ~ ] # hwclock -- systohc 文件上传(rz)和下载(sz)工具 [ root @node03 ~ ] # yum - y install lrzsz 安装网络下载工具(一台即可) * * [ root @node03 ~ ] # yum - y install wget * * 关闭防火墙(每台都做) #查看防火墙状态 [ root @node03 ~ ] # systemctl status firewalld #关闭防火墙 [ root @node03 ~ ]

HDFS(二)命令

試著忘記壹切 提交于 2019-12-25 03:56:21
目录 HDFS(二)命令 一、常见命令 二、其他命令 HDFS(二)命令 一、常见命令 命令 说明 hadoop fs -mkdir /park 在hdfs 的根目录下,创建 park目录 hadoop fs -ls / 查看hdfs根目录下有哪些目录 hadoop fs -put /root/1.txt /park 将linux操作系统root目录下的1.txt放在hdfs的park目录下 hadoop fs -get /park/jdk /home 把hdfs文件系统下park目录的文件下载到linux的home目录下 hadoop fs -rm /park/文件名 删除hdfs 的park目录的指定文件 hadoop fs -rmdir /park 删除park目录,但是前提目录里没有文件 hadoop fs -rmr /park 删除park目录,即使目录里有文件 hadoop fs -cat /park/a.txt 查看park目录下的a.txt文件 hadoop fs -tail /park/a.txt 查看park目录下a.txt文件末尾的数据 haddop jar xxx.jar 执行jar包 hadoop fs -cat /park/result/part-r-00000 查看 /park/result/part-r-00000文件的内容 hadoop fs

大数据篇[Hadoop]-01

我的梦境 提交于 2019-12-24 14:48:50
如约而至,你们好我是AC,就是啊晨的意思, 今天讲hadoop,是大数据开发工程师必备技术之一 好吧,废话不多说,跟我一起,先入个hadoop的门吧 文章目录 什么是Hadoop? 简单叙述: 发展历史 Hadoop特点 核心组成 HDFS架构概述 一、HDFS简介 二、HDFS组成结构以及各部分作用 1.Client(客户端) 2.NameNode(书的目录) 3.DataNode(实际的内容) 4.Secondary NameNode(辅助NameNode) YARN架构概述 MapReduce架构概述 大数据生态体系(了解知识扩展) 什么是Hadoop? 简单叙述: 为了方便理解简单叙述,关于正式介绍,百度了解即可,我就稍微总结下吧 由Apache基金会所开发的分布式系统基础架构,广泛的概念-hadoop生态圈 架构:项目整体的布局方式 集群:多个机器共同完成一件事 分布式:多个集群做不同的事 集群不一定是分布式,分布式一定是集群 主要解决:海量数据的存储和海量数据的分析计算问题。 发展历史 Lucene–Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎 2001年年底成为apache基金会的一个子项目 可以说Google是hadoop的思想之源

大数据(2)---HDFS集群搭建

不问归期 提交于 2019-12-24 01:01:07
一、准备工作   1. 准备几台机器,我这里使用 VMware 准备了四台机器, 一个 name node ,三个 data node 。   VMware 安装虚拟机: https://www.cnblogs.com/nijunyang/p/12001312.html   2.Hadoop 生态几乎都是用的 java 开发的,因此四台机器还需要 安装 JDK 。   3. 集群内 主机域名映射 ,将四台机器的 IP 和主机名映射分别写到 hosts 文件中 ( 切记主机名不要带非法字符 ,图片中的下划线 ”_” 请忽略 )   vim /etc/hosts   配好一个之后可以直接将这个复制到其他机器上面去,不用每台都去配置:   scp /etc/hosts nijunyang69:/etc/   scp /etc/hosts nijunyang70:/etc/   scp /etc/hosts nijunyang71:/etc/ 二、 hdfs 集群安装   1. 下载 hadoop 安装包到 linux 服务器上面,并进行解压,我这里使用的的 2.8.5 ,   tar -zxvf hadoop-2.8.5.tar.gz   2. hadoop 指定 java 环境变量 :   hadoop-2.8.5/etc/hadoop/hadoop-env.sh 文件中指定 java

详解HDFS Short Circuit Local Reads

Deadly 提交于 2019-12-24 00:50:20
详解HDFS Short Circuit Local Reads Hadoop的一大基本原则是移动计算的开销要比移动数据的开销小。因此,Hadoop通常是尽量移动计算到拥有数据的节点上。这就使得Hadoop中读取数据的客户端DFSClient和提供数据的Datanode经常是在一个节点上,也就造成了很多“Local Reads”。 最初设计的时候,这种Local Reads和Remote Reads(DFSClient和Datanode不在同一个节点)的处理方式都是一样的,也就是都是先由Datanode读取数据,然后再通过RPC把数据传给DFSClient。这样处理是比较简单的,但是性能会受到一些影响,因为需要Datanode在中间做一次中转。本文将介绍针对这个问题的一些优化。 既然DFSClient和数据是在一个机器上面,那么很自然的想法,就是让DFSClient绕开Datanode自己去读取数据,在具体实现上有如下两种方案。 HDFS-2246 在这个JIRA中,工程师们的想法是既然读取数据DFSClient和数据在同一台机器上,那么Datanode就把数据在文件系统中的路径,从什么地方开始读(offset)和需要读取多少(length)等信息告诉DFSClient,然后DFSClient去打开文件自己读取。想法很好,问题在于配置复杂以及安全问题。 首先是配置问题