HDFS

Hadoop(二)搭建伪分布式集群

自闭症网瘾萝莉.ら 提交于 2021-01-14 00:39:03
Hadoop(二)搭建伪分布式集群 前言   前面只是大概介绍了一下Hadoop,现在就开始搭建集群了。我们下尝试一下搭建一个最简单的集群。之后为什么要这样搭建会慢慢的分享,先要看一下效果吧! 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone Mode)   -默认情况下,Hadoop即处于该模式,用于开发和调式。   -不对配置文件进行修改。   -使用本地文件系统,而不是分布式文件系统。   -Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。   -用于对MapReduce程序的逻辑进行调试,确保程序的正确。 1.2、伪分布式模式(Pseudo-Distrubuted Mode)   -Hadoop的守护进程运行在本机机器,模拟一个小规模的集群    -在一台主机模拟多主机。   -Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行,是相互独立的Java进程。   -在这种模式下,Hadoop使用的是分布式文件系统,各个作业也是由JobTraker服务,来管理的独立进程。在单机模式之上增加了代码调试功能

微服务和大数据性能指标参考和相关组件

穿精又带淫゛_ 提交于 2021-01-13 10:15:12
发布时间:19-07-1720:12 一、引言 本文题为微服务和大数据性能指标参考,但实际上,无论是单体架构还是分布式架构、数据规模如何,在设计和开发各种功能性模块时,都需要提前考虑高性能需求水平并按需设计,对各种性能指标进行合理评估,从而尽量减少代码重构的可能性。 在完成功能模块的开发以后,还需要使用各种压力测试工具进行性能测试,从而判断代码是否能够满足性能要求,并找出性能瓶颈所在。 为了作出更加合理的性能评估值,我们需要先大概的了解一些常用的计算机操作所消耗的时间,从而心中有数的设计出一个符合需求、且易于实现的系统,减小线上系统失败的风险,并能够做到心中有数。 二、常用应用层性能指标参考标准 以下标准是使用PC X86 桌面机器的经验值,并不代表使用线上生产机器的经验值,仅供参考,评审时应该根据机器的不同进行调整。 2.1 通用标准 容量按照峰值的5倍冗余计算。分库分表后的容量一般可存储N年的数据(根据不同机器调整)。第三方查询接口吞吐量为5000/s。单条数据库记录占用大约1KB的空间。 2.2 MySQL 单端口读:1000/s。单端口写:700/s。单表容量:5000万条。 2.3 Redis 单端口读:40000/s。单端口写:40000/s。单端口内存容量:32GB。 2.4 Kafka 单机读:30000/s。单机写:5000/s。2.5 Flume HDFS

大数据时代的结构化存储--HBase

冷暖自知 提交于 2021-01-13 08:54:06
迄今,相信大家肯定听说过 HBase,但是对于 HBase 的了解可能仅仅是它是 Hadoop 生态圈重要的一员,是一个大数据相关的数据库技术。 今天我带你们一起领略一下 HBase 体系架构,看看它是如何大规模处理海量数据。 一、什么是 HBase? 关于 HBase 的实现,是基本遵循 Bigtable 的论文。HBase 是一个面向列的分布式数据库,也是个非关系型数据库系统(NoSQL),它建立在 Hadoop 文件系统之上。面向列的数据库是将数据表存储为数据列的一部分而不是数据行的数据库。 HBase 是一个分布式,持久,严格一致的存储系统,具有接近最佳的写入 I / O 通道饱和度和出色的读取性能。而且 HBase 只考虑单个索引,类似于 RDBMS 中的主键,提供服务器端实现灵活的二级索引解决方案。 二、为什么使用 HBase? HBase 是 Hadoop 生态圈中重要的一环,用于存储,管理和处理数据。我们知道 Hadoop HDFS 是无法处理高速随机写入和读取,也无法在不重写文件的情况下对文件进行修改。HBase 正好解决了 HDFS 的缺点,因为它使用优化的方式快速随机写入和读取。此外,随着数据呈指数增长,关系数据库无法提供更好性能去处理海量的数据。HBase提供可扩展性和分区,以实现高效的存储和检索。 三、HBase 体系架构 我们先来看看 HBase

Hadoop入门基础知识总结

谁说我不能喝 提交于 2021-01-13 08:46:27
  大数据时代的浪潮袭来,Hadoop作为一种用来处理海量数据分析的工具,是每一个大数据开发者必须要学习和掌握的利器。本文总结了Hadoop入门基础知识,主要包括了Hadoop概述、Hadoop的发展历程和Hadoop的特性。下面一起来看看吧!   1、Hadoop概述   Hadoop 是 Apache 旗下的一个用 Java 语言实现开源软件框架,它还是一个开发和运行处理大规模数据的软件平台。Hadoop允许使用简单的编程模型,在大量计算机集群上,对大型数据集进行分布式处理。   狭义上说,Hadoop 指 Apache 这款开源框架,它的核心组件有:HDFS(分布式文件系统):解决海量数据存储 ;YARN(作业调度和集群资源管理的框架):解决资源任务调度;MAPREDUCE(分布式运算编程框架):解决海量数据计算。   广义上来说,Hadoop 通常是指一个更广泛的概念——Hadoop 生态圈。当下的 Hadoop 已经成长为一个庞大的体系,随着生态系统的成长,新出现的项目越来越多,其中不乏一些非 Apache 主管的项目,这些项目对 HADOOP 是很好的补充或者更高层的抽象。比如,HDFS: 分 布 式 文 件 系 统;MAPREDUCE:分布式运算程序开发框架;HIVE:基于 HADOOP 的分布式数据仓库,提供基于 SQL 的查询数据操作;HBASE

hadoop基础知识总结

自古美人都是妖i 提交于 2021-01-13 08:36:49
Hadoop 是一个由 Apache基金会所开发的 分布式系统 基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。 Hadoop生态圈: MapReduce: 分布式计算框架 Yarn: 集群资源管理和调度平台 Hdfs: 分布式文件系统 Hive: 数据仓库 HBase: 实时分布式数据库 Flume: 日志收集工具 Sqoop: 数据库 ETL工具 Zookeeper: 分布式协作服务 Mahout: 数据挖掘库 Hadoop由4个主要构成部分: 1) 基础核心:提供基础的通用的功能, 一组分布式文件系统和通用 I/O的组件与接口(序列化、Java RPC和持久化数据结构) 2) HDFS:分布式存储, 高容错性适合部署在廉价的机器上。 HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序,HDFS块的默认大小64 MB 3) MapReduce:分布式计算 4) YARN:资源分配(多个任务是排队执行还是同时执行) HDFS由3种主要的节点构成: 1) NameNode :用来存储数据的存放位置等元数据(不存放数据)(如文件名、文件大小、文件所在目录、所有者名称、读写执行权限等) 2) DataNode :只用来存储数据 3)

presto集成kerberos以及访问集成了kerberos的hive集群

坚强是说给别人听的谎言 提交于 2021-01-12 04:36:19
1、 创建主体 注: 192.168.0.230 为单节点集群 192.168.4.50 为 kdc 服务器 192.168.0.9 为客户端 1.1、 Kdc 服务器创建主体 # kadmin.local -q ‘addprinc -randkey presto’ #kadmin.local -q ‘addprinc -randkey presto/yjt’ 1.2、 创建秘钥文件 # kadmin.local -q ‘xst -norandkey -k presto.keytab presto presto/yjt hive/yjt nn/yjt’ 上述的 hive/yjt 和 nn/yjt 两个认证用户也需要添加到秘钥表, hive/yjt 用于 presto 连接 hive 集群时使用, nn/yjt 用户操作 hdfs 时使用 1.3、 分发秘钥文件 # scp presto.keytab 192.168.0.230:/data1/hadoop/presto 如下操作在集群 # chmod 444 /data1/hadoop/presto/presto.keytab 1.4、 生成 keystore 文件 在 presto 主节点生成 keystore # keytool -genkeypair -alias localhost -keyalg RSA -keystore

hadoop实战视频教程 Hadoop深入浅出实战经典视频教程

﹥>﹥吖頭↗ 提交于 2021-01-12 03:22:47
最新在学习hadoop 、storm大数据相关技术,发现网上hadoop 、storm 相关学习视频少之又少,更可恶的是不少机构使用段海涛老师Hadoop视频进行商业买卖,气愤至急,我这里整理了传智播客段海涛老师的hadoop学习视频,分享出来给大家学习交流。 ps:传智播客是个不错的学习地方,段海涛老师视频中的表达也很有趣,中间还有内涵段子哈哈,希望大家多支持传智播客;此次分享只是供喜欢技术钻研新技术的同学学习交流,全新hadoop培训大纲,比之前七天的培训更加完善,非常适合想从事Hadoop开发学习的朋友们,另外整理java架构师的一些资料 教程下载地址: http://demo.liuy88.cn/jp0468.html 第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和伪分布式安装.avi 06-hadoop版本选择和伪分布式安装2.avi 07-hdfs&mapreduce测试.avi 08-hdfs的实现机制初始.avi 09-hdfs的shell操作.avi 10-hadoop集群搭建的无密登陆配置.avi 第二天

Hadoop开发 Hadoop视频教程 段海涛老师Hadoop完全攻克Hadoop视频教程 Hadoop开发

假如想象 提交于 2021-01-12 03:19:51
最新在学习hadoop 、storm大数据相关技术,发现网上hadoop 、storm 相关学习视频少之又少,更可恶的是不少机构使用段海涛老师Hadoop视频进行商业买卖,气愤至急,我这里整理了传智播客段海涛老师的hadoop学习视频,分享出来给大家学习交流。 ps:传智播客是个不错的学习地方,段海涛老师视频中的表达也很有趣,中间还有内涵段子哈哈,希望大家多支持传智播客;此次分享只是供喜欢技术钻研新技术的同学学习交流,全新hadoop培训大纲,比之前七天的培训更加完善,非常适合想从事Hadoop开发学习的朋友们,另外整理java架构师的一些资料 视频下载地址: http://demo.liuy88.cn/jp0471.html 第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和伪分布式安装.avi 06-hadoop版本选择和伪分布式安装2.avi 07-hdfs&mapreduce测试.avi 08-hdfs的实现机制初始.avi 09-hdfs的shell操作.avi 10-hadoop集群搭建的无密登陆配置.avi 第二天

Hadoop三大组件以及Hive的基础认知

落花浮王杯 提交于 2021-01-11 08:28:11
Hadoop三大组件: 分布式文件系统:HDFS —— 实现将文件分布式存储在很多的 服务器 上(分布式存储) 分布式运算编程框架:MapReduce——实现多台机器的分布式并行运算。(分布式运算) 分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源 Hive 入门 Hive构建在Hadoop上 HQL中对查询语句的解释、优化、生成查询计划是由Hive完成的所有的数据存储在Hadoop上。 查询计划被转化为 MapReduce 任务(job),在 Hadoop 中执行(有些查询没有 MR 任务,如:select * from table) Hadoop和Hive都是用UTF-8编码的 常见数据库(database简称DB) 关系型数据库(关系型数据库就是由二维表及其之间的联系组成的一个数据组织): mysql oracle sqlServer postgresql(小oracle) 非关系型数据库:mangodb hbase redis 数据仓库datawarehouse简称DW(数据处理分为两大类,) 数据仓库和数据库的区别: 数据仓库的数据量大,数据库以数据量小 数据仓库可新增但很慢,且复杂并且不能修改删除,一般只用于大批量查询; 数据库支持量小的增删改查 数据仓库是用来分析(OLAP)的,以读操作为主;数据库主要用来处理事务

#Note# Analyzing Twitter Data with Apache Hadoo...

只谈情不闲聊 提交于 2021-01-10 08:33:36
#Note# Analyzing Twitter Data with Apache Hadoop 系列 1、2、3 Andy erpingwu@gmail.com 2013/09/28-2013/09/30 markdown的语法高亮格式在oschina的blog上有问题,在git.oschina.net上没有问题 http://git.oschina.net/wuerping/notes/blob/master/2013/2013-09-30/AnalyzingTwitterDatawithApacheHadoop.md Analyzing Twitter Data with Apache Hadoop by Jon Natkins September 19, 2012 http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/ 这是这个系列的第一篇,讲的是如何用 Apache Flume , Apache HDFS , Apache Oozie , 和 Apache Hive 去设计一个能够分析 Twitter数据的,端到端的数据 pipeline。 相关代码在 Cloudera Github . Who is Influential? Now we know the question we