hdfs命令

10分钟大数据Hadoop基础入门

筅森魡賤 提交于 2020-02-05 06:08:23
前言 目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。 基础概念 大数据的本质 一、数据的存储:分布式文件系统(分布式存储) 二、数据的计算:分部署计算 基础知识 学习大数据需要具备Java知识基础及Linux知识基础 学习路线 (1)Java基础和Linux基础 (2)Hadoop的学习:体系结构、原理、编程 第一阶段:HDFS、MapReduce、HBase(NoSQL数据库) 第二阶段:数据分析引擎 -> Hive、Pig 数据采集引擎 -> Sqoop、Flume 第三阶段:HUE:Web管理工具 ZooKeeper:实现Hadoop的HA Oozie:工作流引擎 (3)Spark的学习 第一阶段:Scala编程语言 第二阶段:Spark Core -> 基于内存、数据的计算 第三阶段:Spark SQL -> 类似于mysql 的sql语句 第四阶段:Spark Streaming ->进行流式计算:比如:自来水厂 (4)Apache Storm 类似:Spark Streaming ->进行流式计算 NoSQL:Redis基于内存的数据库 HDFS 分布式文件系统 解决以下问题: 1、硬盘不够大:多几块硬盘,理论上可以无限大 2、数据不够安全:冗余度,hdfs默认冗余为3

hdfs功能详解介绍(2)

 ̄綄美尐妖づ 提交于 2020-02-05 00:43:30
四、hdfs的安全模式 安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求。在NameNode主节点启动时,HDFS首先进入安全模式,DataNode在启动的时候会向namenode汇报可用的block等状态,当整个系统达到安全标准时,HDFS自动离开安全模式。如果HDFS出于安全模式下,则文件block不能进行任何的副本复制操作,因此达到最小的副本数量要求是基于datanode启动时的状态来判定的,启动时不会再做任何复制(从而达到最小副本数量要求),hdfs集群刚启动的时候,默认30S钟的时间是出于安全期的,只有过了30S之后,集群脱离了安全期,然后才可以对集群进行操作 [hadoop@node01 hadoop]$ hdfs dfsadmin -safemode Usage: hdfs dfsadmin [-safemode enter | leave | get | wait] 五、hdfs 的架构以及 block 块和副本 机制 HDFS分布式文件系统也是一个主从架构,主节点是我们的namenode,负责管理整个集群以及维护集群的元数据信息 从节点datanode,主要负责文件数据存储 hdfs将所有的文件全部抽象成为block块来进行存储,不管文件大小,全部一视同仁都是以block块的统一大小和形式进行存储

实验三

我们两清 提交于 2020-02-04 19:13:11
HDFS 常用操作 使用 hadoop 用户名登录进入 Linux 系统,启动 Hadoop,参照相关 Hadoop 书籍或网络 资料,或者也可以参考本教程官网的“实验指南”栏目的“HDFS 操作常用 Shell 命令”, 使用 Hadoop 提供的 Shell 命令完成如下操作: (1) 启动 Hadoop,在 HDFS 中创建用户目录“/user/hadoop”; 使用 hadoop 用户名登录进入 Linux 系统,假设 Hadoop 系统被安装在“/usr/local/hadoop”目录。使用如下命令启动 Hadoop: $cd /usr/local/hadoop $./sbin/start-dfs.sh #启动 HDFS $./bin/hdfs dfs -mkdir -p /user/hadoop #在 HDFS 中创建用户目录/user/hadoop (2) 在 Linux 系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件test.txt,并在该文件中随便输入一些内容,然后上传到 HDFS 的“/user/hadoop”目录下; $cd /home/hadoop $vim test.txt #在 test.txt 中随便输入一些内容,并保存退出 vim 编辑器 $cd /usr/local/hadoop $./bin/hdfs dfs -put

hive里面select count(*)始终为0,select * 有数据

坚强是说给别人听的谎言 提交于 2020-02-04 14:21:07
如题,在使用hive的时候,使用聚合函数select count(*) 的时候,不走MR程序,直接返回0,而select * 是有数据的: 原因是我的数据是直接通过put命令上传到指定目录的,并没用load进行上传,使用hdfs查看文件: 俩个文件的权限是不一样的,暂时没有好的办法解决,我的办法是删除原来的数据,老老实实使用load命令进行加载数据就可以了。 来源: CSDN 作者: thetimelyrain 链接: https://blog.csdn.net/thetimelyrain/article/details/104167383

HDFS的Shell操作

跟風遠走 提交于 2020-02-02 09:52:50
1、基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 2、命令大全 [test@hadoop151 ~] $ hadoop fs Usage: hadoop fs [generic options] [ - appendToFile <localsrc> . . . <dst> ] [ - cat [ - ignoreCrc ] <src> . . . ] [ - checksum <src> . . . ] [ - chgrp [ - R ] GROUP PATH . . . ] [ - chmod [ - R ] <MODE [ , MODE ] . . . | OCTALMODE> PATH . . . ] [ - chown [ - R ] [OWNER] [ : [GROUP] ] PATH . . . ] [ - copyFromLocal [ - f ] [ - p ] [ - l ] <localsrc> . . . <dst> ] [ - copyToLocal [ - p ] [ - ignoreCrc ] [ - crc ] <src> . . . <localdst> ] [ - count [ - q ] [ - h ] <path> . . . ] [ - cp [ - f ] [ - p | - p [topax

【Hadoop学习之HDFS】_06HDFS的shell操作

与世无争的帅哥 提交于 2020-02-02 02:25:10
一、基本语法 bin/hadoop fs 具体命令 #或者 bin/hdfs dfs 具体命令 注意:其中 dfs 是 fs 的实现类 二、命令大全 [ hadoop@SZMaster01 hadoop-2.8.3 ] $ bin/hadoop fs Usage: hadoop fs [ generic options ] [ -appendToFile < localsrc > .. . < dst > ] [ -cat [ -ignoreCrc ] < src > .. . ] [ -checksum < src > .. . ] [ -chgrp [ -R ] GROUP PATH .. . ] [ -chmod [ -R ] < MODE [ ,MODE ] .. . | OCTALMODE > PATH .. . ] [ -chown [ -R ] [ OWNER ] [ : [ GROUP ] ] PATH .. . ] [ -copyFromLocal [ -f ] [ -p ] [ -l ] [ -d ] < localsrc > .. . < dst > ] [ -copyToLocal [ -f ] [ -p ] [ -ignoreCrc ] [ -crc ] < src > .. . < localdst > ] [ -count [ -q ] [ -h ]

centos7 hadoop+hive 安装

旧时模样 提交于 2020-02-01 10:55:15
准备四台虚拟机 虚拟机安装 1.创建新虚拟机 2.点击典型安装 ( 推荐 ) 3.选择中文,点击自己分区 # 分区配置(JD使用) /boot 200M swap 512M # 本机内存不够用了,用swap / # 根目录 4.配置其它,如下图 更新yum yum install update -y 四台主机的ip 一主三从 172.20.10.9 密码:hadoop01 对应的虚拟机 hadoop01 172.20.10.10 密码:hadoop02 对应的虚拟机 hadoop02 172.20.10.11 密码:hadoop03 对应的虚拟机 hadoop03 172.20.10.12 密码:hadoop04 对应的虚拟机 hadoop04 # 重新设置root的密码 passwd root hadoop安装 https://www.cnblogs.com/shireenlee4testing/p/10472018.html 配置DNS 每个节点都配置 vim /etc/hosts 172.20.10.9 hadoop01 172.20.10.10 hadoop02 172.20.10.11 hadoop03 172.20.10.12 hadoop04 关闭防火墙 # 关闭防火墙 systemctl stop firewalld # 关闭自启动 systemctl

hadoop入门程序

巧了我就是萌 提交于 2020-02-01 09:08:34
首先复习一下hadoop中hdfs常用的命令 /** * hadoop fs -mkdir 创建HDFS目录 * hadoop fs -ls 列出HDFS目录 * hadoop fs -copyFromLocal 使用-copyFromLocal 复制本地(local)文件到HDFS * hadoop fs -put 使用-put 复制本地(local)文件到HDFS * hadoop fs -cat 列出HDFS目录下的文件内容 * hadoop fs -copyToLocal * 使用-copyToLocal 将HDFS上文件复制到本地(local) * hadoop fs -get 使用-get 将HDFS上文件复制到本地(local) * hadoop fs -cp 复制HDFs文件 * hadoop fs -rm 删除HDFS文件 */ 一、maven配置 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven

大数据随笔

六月ゝ 毕业季﹏ 提交于 2020-01-31 04:16:55
hadoop2.x启动步骤、 1:首先我们要先启动zookeeper。 zkServer.sh start 2:格式 化zkfc hdfs zkfc -formatZK 3:启动journalnode ( namenode的同步数据的 单独的进程) hadoop-daemon.sh start journalnode 4: 格式化namenode(不启动第三步的话,在namenode的初始化会报错 的) 5:启动 hadoop集群。 start-all.sh 6: 在主节点中取出hadoop的工作目录中的下的current目录复制到要 7: —————————————————————————————————————— webui界面查看 该集群的数据节点是否起来了。 hostname+50070 如我的webui地址为192.168.43.37:50070 192.168.43.37为我集群的组节点 如下图所示 注意三个数据节点的last contact参数是不会超过3的 如果超过了3说明该数据节点是有问题的。一般是在0到2之间。(不断的刷新这个页面,观察这个三个数据点的last contact的数值。) webui界面下也可以查看hadfs中存储的情况。如下 我们可以 可以清楚查看文件 目录和 文件 的大小及相关的权限,副本数。 如下图 我们查看一下 hdfs系统中test

大数据之Hadoop

泪湿孤枕 提交于 2020-01-29 22:04:58
经过前期的软件和应用程序的安装,我学习了一下Linux的基本命令,然后开始安装 hadoop,我看的是尚硅谷的大数据视频,我有源码,软件的压缩包,笔记等等很多 的资料,也是在B站群正常购买的,有想要的,请私聊我呀!! 然后就是开始真正的大数据学习,学习大数据,最显要了解Hadoop以及Hadoop的 生态圈,当然这里的东西特别多,没有经年累月的学习是学习不完的,经过和队友的 商议,和tzp学长的建议,他告诉我先学习一下Hadoop的hdfs,分布式文件管理系 统, 和mapredece,计算框架就算是大数据入门了,所以我看了网上一些配置的教程 感觉 这个配置超级麻烦,所以,我还是照着视频讲解的一步一步的配置吧,这里要为 尚硅谷 的那个2018讲大数据的老师点赞,我也建议大家看尚硅谷大数据2018年的课程 2019最 新版的我也看了,我认为里面的视频讲解的不太细致,因为那个老师直接拿已经 安装好 的伪分布式的hdfs开始讲,初学者一定会很蒙,所以建议大家去b站上搜索2018 的。按 照上面的视频一步一步的操作,再加上我自己手里的文档,几乎可以做到0失误。 下面我要说一下我对HDFS分布式文件系统的理解。 分布式文件管理系统会提供多个用户的服务器,而且一般是有备份和容错功能的,它是由 java语言实现的分布式,课横向扩展的文件系统。Namenode是中心服务器,它一般管理