HDFS

hadoop生态系列

你离开我真会死。 提交于 2021-01-07 05:55:09
1、 hadoop高可用安装和原理详解 2、 hadoop2.7+spark2.2+zookeeper3.4.简单安装 3、 windows下通过idea连接hadoop和spark集群 4、 hadoop2.7之作业提交详解(上) 5、 hadoop2.7之作业提交详解(下) 6、 hadoop2.7作业提交详解之文件分片 7、 hadoop之hdfs命令详解 8、 hadoop之hdfs架构详解 9、 hadoop之mapreduce详解(基础篇) 10、 hadoop之mapreduce详解(进阶篇) 11、 hadoop之mapreduce详解(优化篇) 12、 hadoop之yarn详解(基础架构篇) 13、 hadoop之yarn详解(命令篇) 14、 hadoop之yarn详解(框架进阶篇) 来源: oschina 链接: https://my.oschina.net/u/4387530/blog/3390616

Hadoop 生态系列之 HDFS

心已入冬 提交于 2021-01-07 05:49:36
目前 Hadoop 系列文章的规划就是这样,持续补充完善中... 同时可以访问 https://data.cuteximi.com Hadoop 生态系列之1.0和2.0架构 Hadoop 生态系列之 HDFS Hadoop 生态系列之 Mapreduce Hadoop 生态系列之 Yarn Hadoop 生态系列之 Zookeeper Hadoop 生态系列之 Hive Hadoop 生态系列之 HBase 上一篇文章 Hadoop 系列之 1.0和2.0架构 中,提到了 Google 的三驾马车,关于分布式存储,计算以及列式存储的论文,分别对应开源的 HDFS,Mapreduce以及 HBase。这里的 HDFS 是分布式文件系统,主要用于数据的存储。它的应用非常广泛,作为一款开源的文件系统,其高容错性、可靠性以及可部署在廉价机器上的特点,受到很多开发者的青睐。 今天我们就来撩一撩这个分布式文系统,HDFS 全称 Hadoop Distributed File System,初学者只需要知道我们大数据解决的两个主要问题就可以了,一个是数据如何存储,另一个是数据如何计算。本文的 HDFS 就是数据存储的一种方式。好了,说了这么多,大家应该对这个 HDFS 有一个清晰的认识了吧?说白了,就是一个文件系统,但是与我们普通的文件系统有很多不同。比如:多副本,分布式,自动备份等等。

Apache Flink 零基础入门(十二)Flink sink

佐手、 提交于 2021-01-07 05:03:24
将DataSet中的数据Sink到哪里去。使用的是对应的OutPutFormat,也可以使用自定义的sink,有可能写到hbase中,hdfs中。 writeAsText() / TextOutputFormat ,以String的形式写入 writeAsCsv(...) / CsvOutputFormat,以CSV的方式写进去 print() / printToErr() / print(String msg) / printToErr(String msg)以标准输出 writeAsText object DataSetSinkApp { def main(args: Array[String]): Unit = { val environment = ExecutionEnvironment.getExecutionEnvironment val data = 1.to(10) val text = environment.fromCollection(data) val filePath = "E:/test" text.writeAsText(filePath) environment.execute("DataSetSinkApp") } } 如果E:/test文件或者文件夹存在,将无法执行成功。除非增加一个WriteMode.OVERWRITE text

一文教你学会Hive视图和索引

这一生的挚爱 提交于 2021-01-07 01:50:22
前言 我们在写HQL有没有遇到过数据量特别大的时候比如,使用HQL 处理起来非常复杂,非常慢,这时候我们可以使用Hive给加个索引来提高我们的速度。多了就不说了,我们直接开始。​ 一、Hive视图 1.1 简介 Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0.0 引入的物化视图除外),当查询引用 视图 时,Hive 可以将视图的定义与查询结合起来,例如将查询中的 过滤器推送到视图 中。 1.2 特点 不支持物化视图 只查询,不能做加载数据操作 视图的创建,只是保存 一份元数据 ,查询视图才执行对应的子查询 view定义中若包含了ORDER BY/LIMIT语句,当查询视图时也进行了ORDER BY/LIMIT语句操作,view当中定义的优先级更高 ; Hive视图支持迭代视图 1.3 创建视图 CREATE VIEW [ IF NOT EXISTS ] [ db_name . ] view_name -- 视图名称 [ ( column_name [ COMMENT column_comment ] , . . . ) ] --列名 [ COMMENT view_comment ] --视图注释 [ TBLPROPERTIES ( property

解释DAS、NAS、SAN

纵饮孤独 提交于 2021-01-06 01:12:17
DAS其实就是最基本的主板上面通过各种接口直接插上就能被主板所在的电脑查知的硬盘的这种硬盘连接方式,被操作系统看到的时候设备是“块存储设备”,需要进行磁盘分区,构建本地文件系统后,格式化要使用的分区才能使用,现在常见方式:ide也就是pata(较老家用pc常见)、scsi(较老服务器设备常见)、sata(现代主要家用pc接口)、sas(现代主要家用pc接口)等; nas和san都是通过网络,不管光纤还是铜缆还是任何一种其他网络连接方式挂载到本机电脑,以前还有人分光纤和铜缆现在来说实际上铜缆也有了10g的速度可以说只有网络延时上微小的区别本质上的速度已经没啥区别了,所以我认为今天可以认为不区别也罢,区别是: NAS挂载到本机后是直接可用的文件系统,文件级存储file-level storage,操作的最小单元就是每个文件,nas是nas包括服务端和客户端协议两部分,服务端有硬件设备实现和软件的网络文件系统以及分布式文件系统方式的实现,最典型的协议(通常有对应的服务器端实现)例子比如:网络文件系统有linux的nfs、windows的cifs和smb、苹果系列系统支持的afp,分布式文件系统并且开源免费、今天生产环境还常有人用于mount的有ceph和GlusterFS(要注意的是貌似不是所有的dfs都是nas的,好几种dfs并不提供直接操作系统挂载方式

How to flush Hadoop Distributed Cache?

孤街浪徒 提交于 2021-01-04 17:01:47
问题 I have added a set of jars to the Distributed Cache using the DistributedCache.addFileToClassPath(Path file, Configuration conf) method to make the dependencies available to a map reduce job across the cluster. Now I would like to remove all those jars from the cache to start clean and be sure I have the right jar versions there. I commented out the code that adds the files to the cache and also removed them from where I had copied them in hdfs. The problem is the jars still appear to be in

How to flush Hadoop Distributed Cache?

浪子不回头ぞ 提交于 2021-01-04 16:58:32
问题 I have added a set of jars to the Distributed Cache using the DistributedCache.addFileToClassPath(Path file, Configuration conf) method to make the dependencies available to a map reduce job across the cluster. Now I would like to remove all those jars from the cache to start clean and be sure I have the right jar versions there. I commented out the code that adds the files to the cache and also removed them from where I had copied them in hdfs. The problem is the jars still appear to be in

How to flush Hadoop Distributed Cache?

拥有回忆 提交于 2021-01-04 16:53:09
问题 I have added a set of jars to the Distributed Cache using the DistributedCache.addFileToClassPath(Path file, Configuration conf) method to make the dependencies available to a map reduce job across the cluster. Now I would like to remove all those jars from the cache to start clean and be sure I have the right jar versions there. I commented out the code that adds the files to the cache and also removed them from where I had copied them in hdfs. The problem is the jars still appear to be in

Hadoop集群初始化启动

社会主义新天地 提交于 2021-01-03 08:01:27
hadoop集群初始化启动 启动zookeeper ./zkServer.sh start 启动journalnode ./hadoop-daemon.sh start journalnode 格式化namenode hadoop namenode -format 将节点 1上的元数据拷贝到 2上 先启动1 上的namenode ./hadoop-daemon.sh start namenode 拷贝元数据,在 2节点上 hadoop namenode –bootstrapStandby 在任意节点上格式化 zk hdfs zkfc -formatZK 启动 zkfc(两台机器) ./hadoop-daemon.sh start zkfc 启动全部 ./starl-all.sh 来源: oschina 链接: https://my.oschina.net/u/4416343/blog/4253125

Hadoop的启动和停止说明

↘锁芯ラ 提交于 2021-01-03 08:01:09
Hadoop的启动和停止说明 sbin/start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager sbin/stop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager sbin/start-dfs.sh 启动Hadoop HDFS守护进程NameNode、SecondaryNameNode、DataNode sbin/stop-dfs.sh 停止Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode sbin/hadoop-daemons.sh start namenode 单独启动NameNode守护进程 sbin/hadoop-daemons.sh stop namenode 单独停止NameNode守护进程 sbin/hadoop-daemons.sh start datanode 单独启动DataNode守护进程 sbin/hadoop-daemons.sh stop datanode 单独停止DataNode守护进程 sbin/hadoop-daemons.sh