大数据随笔

六月ゝ 毕业季﹏ 提交于 2020-01-31 04:16:55

hadoop2.x启动步骤、
1:首先我们要先启动zookeeper。

zkServer.sh start

2:格式 化zkfc

hdfs zkfc -formatZK

3:启动journalnode ( namenode的同步数据的 单独的进程)

hadoop-daemon.sh  start journalnode 

4: 格式化namenode(不启动第三步的话,在namenode的初始化会报错 的)
5:启动 hadoop集群。

start-all.sh

6: 在主节点中取出hadoop的工作目录中的下的current目录复制到要


7:

——————————————————————————————————————

webui界面查看 该集群的数据节点是否起来了。
hostname+50070
如我的webui地址为192.168.43.37:50070
192.168.43.37为我集群的组节点
如下图所示
注意三个数据节点的last contact参数是不会超过3的
如果超过了3说明该数据节点是有问题的。一般是在0到2之间。(不断的刷新这个页面,观察这个三个数据点的last contact的数值。)
在这里插入图片描述

webui界面下也可以查看hadfs中存储的情况。如下
我们可以 可以清楚查看文件 目录和 文件 的大小及相关的权限,副本数。 如下图
在这里插入图片描述
我们查看一下 hdfs系统中test.txt文件的,在webui界面下可以下载文件,和查看到数据块的id。 副本的存放的相关的机器。副本数位3。
在这里插入图片描述

在数据存放的节点中找到hdfs的目录
如下图的目录,我们可以 找到与数据块相同id的文件。如下:
在这里插入图片描述
在这里插入图片描述

在linux目录下创建一个appendToFile.txt;

在这里插入图片描述
添加如下的内容:
在这里插入图片描述
使用命令

添加命令:
hdfs dfs -appendToFile  appendToFile.txt   /test.txt

查看结果命令为:
hdfs dfs  -text /test.txt

观察最后一行的内容:如下图:
在这里插入图片描述

在webui中查看文件的大小为728B 加了134B
在这里插入图片描述

在eclipse中到入hadoop的相关的jar包?
在不配置maven的 情况下,在hadoop的安装目录下找到
share 目录下搜索*.jar包在,把所有的查询到的 jar 复制到 share/hadooop/_lib 中 (新建_lib文件夹来存放jar包)

使用java编程来完成对hadoop的hdfs的文件进行相关的操作?
java代码解析如下:

在这里插入代码片

eclipse中导入 hadoop的源码
使用maven配置来完成上述功能。
maven是用来管理相关的jar包的,使用maven来管理和下载jar是非常方便的。
maven的安装步骤?
下载压缩包
解压到目录下
在eclipse中的窗口得到首选项中打开
在里面搜索maven回车即可
找到

maven 的验证方式?
在cmd下输入mvn -v

在linux中安装eclipse?

hadoop中为什么块 的大小为128M?
为了减少寻址占读取数据的时间 ,我们通常是1%的
假设 磁盘的读取的速度是100M/s
10ms的寻址时间,1s的数据获取时间,大约是128M 大小左右。

hadoop可以用python来实现对hadoop的集群 中 的 hdfs进行相关的操作吗?

hadoop中的网络拓扑结构?

hadoop的脚本解析?
linux

win

hadoop的配置什么地方有参考 的配置?
在hadoop的安装的目录下,到share下搜索default.xml文件,把结果复制到share/hadoop/_conf文件下。

传统的电脑读取数据与hadoop集群读取数据的区别?

解:== 传统的电脑读取数据和hadoop中集群读数据一样。也是分为2个阶段,1:是寻址,2:然后再是读取相关的数据信息。
传统的电脑:读数据是 这样 的,比如1024M的数据,它是从头读到尾的。假设读取的速率是100M/s;t=10.24s
而hadoop是以块的大小128M大小来读取的
1024M/128M = 8块 ,128/100=1.28s;hdfs中数据读取是并行的 读取的。我们 可以想象在PB下,它比传统的计算机快多少?

hadoop集群中hdfs的黑名单与白名单?
yarn的黑名单与白名单

hdfs dfsadmin命令的操作

yarn rmadmin的命令的使用

yarn 命令的使用

dfs的命令的使用

数据的节点的扩容?

数据节点的退役?

hdfs目录的配额大小

hdfs目录的镜像

hadoop的相关的命令的使用

hdfs 的相关命令的使用

hdfs dfs的相关命令的使用

linux中的符号链接

linux中远程复制和远程同步

hadoop的四大模块?

为什么最小block为512的倍数?

hadoop中的hdfs中的安全 模式?

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!