hdfs命令

hadoop大致问题

匆匆过客 提交于 2020-01-16 00:04:36
一、项目编码实现 HDFS文件上传 HDFS文件下载 定位文件读取 通过API操作HDFS 通过IO流操作HDFS HDFS写数据流程 HDFS读数据流程 统计一堆文件中单词出现的个数(WordCount案例) 把单词按照ASCII码奇偶分区 统计手机号耗费的总上行流量、下行流量、总流量(序列化) 二、流程图及描述 HDFS写数据流程 HDFS读数据流程 NameNode&Secondary NameNode工作机制 查看fsimage文件 写数据流程 读数据流程 namenode和secondary namenode机制 查看镜像文件 查看编辑日志 DataNode工作机制 查看归档文件 (4)解归档文件 hadoop fs -cp har:///user/my/myhar.har/* /user/hadoop 查看edits文件 模拟namenode故障,并采用任一方法,恢复namenode数据 集群安全模式操作1 DataNode工作机制 服役新数据节点 退役旧数据节点 回收站配置 MapReduce程序运行流程分析 安全模式 回收站(参看hdfs,要与hdoop-site.xml里内容的刷新一致) 7.4 回收站 1)默认回收站 默认值fs.trash.interval=0,0表示禁用回收站,可以设置删除文件的存活时间。 默认值fs.trash.checkpoint

大数据架构师从入门到精通,该具备怎么样的知识体系?

不羁的心 提交于 2020-01-14 14:19:27
经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。 其实这就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。 先扯一下大数据的4V特征: 数据量大 ,TB->PB 数据类型繁多 ,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高 ,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高 ,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据的这几个特点,开源的大数据框架越来越多,越来越强,先列举一些常见的: 文件存储: Hadoop HDFS、Tachyon、KFS 离线计算: Hadoop MapReduce、Spark 流式、实时计算: Storm、Spark Streaming、S4、Heron K-V、NOSQL数据库: HBase、Redis、MongoDB 资源管理:

大数据技术之_04_Hadoop学习_02_HDFS_DataNode(面试开发重点)+HDFS 2.X新特性

☆樱花仙子☆ 提交于 2020-01-14 04:50:28
第6章 DataNode(面试开发重点) 6.1 DataNode工作机制 6.2 数据完整性 6.3 掉线时限参数设置 6.4 服役新数据节点 6.5 退役旧数据节点 6.5.1 添加白名单 6.5.2 黑名单退役 6.6 Datanode多目录配置 第7章 HDFS 2.X新特性 7.1 集群间数据拷贝 7.2 小文件存档 7.3 回收站 7.4 快照管理 第6章 DataNode(面试开发重点) 6.1 DataNode工作机制 DataNode工作机制,如下图所示。 1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括 数据块的长度 , 块数据的校验和 ,以及 时间戳 。 2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。 4)集群运行中可以安全加入和退出一些机器。 6.2 数据完整性    思考: 如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?同理DataNode节点上的数据损坏了

大数据框架开发基础之Sqoop(1) 入门

我们两清 提交于 2020-01-11 00:15:12
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop的基本认知 原理 将导入或导出命令翻译成mapreduce程序来实现。 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。 安装 Sqoop的安装也很简单,首先我们需要有有一个 Sqoop安装包 ,这个包老夫也提供了。 我们在如下目录中: drwxr-xr-x 2 corp corp 4096 Dec 19 2017 bin -rw-rw-r-- 1 corp corp 55089 Dec 19 2017 build.xml -rw-rw-r-- 1 corp corp 47426 Dec 19 2017 CHANGELOG.txt -rw-rw-r-- 1 corp corp 9880 Dec 19 2017 COMPILING.txt drwxr-xr-x 2 corp corp 4096 Dec 19 2017 conf drwxr-xr-x 5 corp corp 4096 Dec 19 2017 docs drwxr

学习笔记--Hadoop

心已入冬 提交于 2020-01-10 22:18:52
参考来源: http://hadoop.apache.org/docs/r1.0.4/cn/index.html Hadoop安装 单机模式 伪分布式模式 完全分布式模式 Hadoop集群搭建 通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves。 Hadoop 命令 archive 用法:hadoop archive -archiveName NAME * 创建一个hadoop档案文件 distcp 用法:hadoop distcp 递归地拷贝文件或目录 fs 用法:hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS] 运行一个常规的文件系统客户端。 fsck 用法:hadoop fsck [GENERIC_OPTIONS] [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 运行HDFS文件系统检查工具 jar 用法:hadoop jar [mainClass] args... 运行jar文件。用户可以把他们的Map Reduce代码捆绑到jar文件中,使用这个命令执行。 job 用法

关键数据结构

☆樱花仙子☆ 提交于 2020-01-10 02:57:42
FSDirectory NIOFSDirectory 性能对比 lucene/solr FSDirectory NIOFSDirectory 性能测试对比与Http11NioProtocol 文章分类:互联网 lucene 2.4 开始有一个 NIOFSDirectory 实现,使用 java.nio's FileChannel 读取文件。官方说:在大多数非 windows 平台下,多个线程共用单个 searcher 比 FSDirectory(在同一时刻只能一个线程使用 searcher)可以提高查询的吞吐量。 lucene 2.4 的 CHANGE.TXT 说明: 21. LUCENE-753: Added new Directory implementation org.apache.lucene.store.NIOFSDirectory, which uses java.nio's FileChannel to do file reads. On most non-Windows platforms, with many threads sharing a single searcher, this may yield sizable improvement to query throughput when compared to FSDirectory, which

HBase 数据迁移方案介绍

无人久伴 提交于 2020-01-10 02:13:54
一、前言 HBase数据迁移是很常见的操作,目前业界主要的迁移方式主要分为以下几类: 图1.HBase数据迁移方案 从上面图中可看出,目前的方案主要有四类,Hadoop层有一类,HBase层有三类。下面分别介绍一下。 二、Hadoop层数据迁移 2.1 方案介绍 Hadoop层的数据迁移主要用到DistCp(Distributed Copy), 官方描述是: DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 我们知道MR程序适合用来处理大批量数据, 其拷贝本质过程是启动一个MR作业,不过DisctCp只有map,没有reducer。在拷贝时,由于要保证文件块的有序性,转换的最小粒度是一个文件,而不像其它MR作业一样可以把文件拆分成多个块启动多个map并行处理。如果同时要拷贝多个文件,DisctCp会将文件分配给多个map,每个文件单独一个map任务。我们可以在执行同步时指定 -m 参数来设定要跑的map数量,默认设置是20。如果是集群间的数据同步,还需要考虑带宽问题,所以在跑任务时还需要设定 bandwitdh 参数,以防止一次同步过多的文件造成带宽过高影响其它业务。同时

Hadoop集群动态扩容、缩容

送分小仙女□ 提交于 2020-01-09 01:11:28
一、 Hadoop 集群动态扩容、缩容 随着公司业务的增长,数据量越来越大,原有的 datanode 节点的容量已经不能满足存储数据的需求,需要在 原有集群基础上动态添加新的数据节点 。也就是俗称的 动态扩容 。 有时候旧的服务器需要进行退役更换,暂停服务,可能就需要在 当下的集群中停止某些机器上 hadoop 的服务 ,俗称 动态缩容 。 1. 动态扩容 1.1. 基础准备 在基础准备部分,主要是设置 hadoop 运行的系统环境 修改新机器系统 hostname (通过 /etc/sysconfig/network 进行修改) 修改 hosts 文件,将集群所有节点 hosts 配置进去(集群所有节点保持 hosts 文件统一) 设置 NameNode 到 DataNode 的免密码登录( ssh-copy-id 命令实现) 修改主节点 slaves 文件,添加新增节点的 ip 信息( 集群重启时配合一键启动脚本使用 ) 在新的机器上上传解压一个新的 hadoop 安装包,从主节点机器上将 hadoop 的所有配置文件, scp 到新的节点上。 1.2. 添加 datanode 在 namenode 所在的机器的 /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop 目录下创建 dfs.hosts 文件 cd /export

【大数据面试宝典】 第一篇 Hadoop 面试题

只愿长相守 提交于 2020-01-08 19:14:53
Hadoop常见的端口 Hadoop生态圈 Hadoop配置文件以及简单的Hadoop集群搭建 Hadoop参数调优 项目经验之基准测试 Hadoop宕机 Hadoop 高可用配置 Hadoop 常见的端口  dfs.namenode.http-address:50070  dfs.datanode.http-address:50075  SecondaryNameNode辅助名称节点端口号:50090  dfs.datanode.address:50010  fs.defaultFS:8020 或者9000  yarn.resourcemanager.webapp.address:8088  历史服务器web访问端口:19888 Hadoop 生态圈 然后就是各个组件的介绍了,简单的介绍一下就好了。比如说: Flume: 一个高可用的,高可靠的,分布式的海量数据日志采集,聚合和传输的系统; Zookeeper: 是一个基于观察者模式设计的分布式服务管理框架,他负责存储和管理大家都关心的数据,然后接受管擦者的注册,一旦这些数据的状态发生了变化,Zookeeper就将负责通知已经在Zookeeper上注册的观察者做出相应的反应。 Hadoop配置文件以及简单的Hadoop集群搭建 (1)配置文件: core-site.xml <configuration> <!--

Hadoop分布式文件系统之HDFS

不羁岁月 提交于 2020-01-03 05:34:16
转自: https://blog.csdn.net/bingduanlbd/article/details/51914550#t24 1. 介绍 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之一是如果保证在节点不可用的时候数据不丢失。 传统的网络文件系统(NFS)虽然也称为分布式文件系统,但是其存在一些限制。由于NFS中,文件是存储在单机上,因此无法提供可靠性保证,当很多客户端同时访问NFS Server时,很容易造成服务器压力,造成性能瓶颈。另外如果要对NFS中的文件中进行操作,需要首先同步到本地,这些修改在同步到服务端之前,其他客户端是不可见的。某种程度上,NFS不是一种典型的分布式系统,虽然它的文件的确放在远端(单一)的服务器上面。 从NFS的协议栈可以看到,它事实上是一种VFS(操作系统对文件的一种抽象)实现。 HDFS,是Hadoop Distributed File System的简称,是Hadoop抽象文件系统的一种实现。Hadoop抽象文件系统可以与本地系统、Amazon S3等集成,甚至可以通过Web协议(webhsfs)来操作。HDFS的文件分布在集群机器上,同时提供副本进行容错及可靠性保证