hadoop集群搭建

大数据(2)---HDFS集群搭建

不问归期 提交于 2019-12-24 01:01:07
一、准备工作   1. 准备几台机器,我这里使用 VMware 准备了四台机器, 一个 name node ,三个 data node 。   VMware 安装虚拟机: https://www.cnblogs.com/nijunyang/p/12001312.html   2.Hadoop 生态几乎都是用的 java 开发的,因此四台机器还需要 安装 JDK 。   3. 集群内 主机域名映射 ,将四台机器的 IP 和主机名映射分别写到 hosts 文件中 ( 切记主机名不要带非法字符 ,图片中的下划线 ”_” 请忽略 )   vim /etc/hosts   配好一个之后可以直接将这个复制到其他机器上面去,不用每台都去配置:   scp /etc/hosts nijunyang69:/etc/   scp /etc/hosts nijunyang70:/etc/   scp /etc/hosts nijunyang71:/etc/ 二、 hdfs 集群安装   1. 下载 hadoop 安装包到 linux 服务器上面,并进行解压,我这里使用的的 2.8.5 ,   tar -zxvf hadoop-2.8.5.tar.gz   2. hadoop 指定 java 环境变量 :   hadoop-2.8.5/etc/hadoop/hadoop-env.sh 文件中指定 java

Hadoop学习之路(1)腾讯云搭建Hadoop3集群

自作多情 提交于 2019-12-23 20:16:55
1主机名和IP配置 1.1主机名 1.首先使用root用户名和root密码分别登录三台服务器 2.分别在三台虚拟机上执行命令: hostnamectl set-hostname node1 hostnamectl set-hostname node2 hostnamectl set-hostname node3 3.分别在三台服务器上执行logout 1.2 IP设置 systemctl restart network 2配置免密登录 2.1 生成公钥和私钥 使用此命令:ssh-keygen -t rsa 分别在三台机器中都执行一遍,这里只在node1上做演示,其他两台机器也需要执行此命令。 2.2 配置hosts文件 hosts文件中配置三台机器ip和主机名的映射关系,其他两台机器按照相同的方式操作:vi /etc/hosts 特别注意的是如果在云服务器中配置,本节点的IP地址一定要配置内网地址 127.17.0.17是服务器node1的内网地址 127.17.0.7是服务器node2的内网地址 127.17.0.8是服务器node3的内网地址 2.3 拷贝公钥文件 (1)将node1的公钥拷贝到node2,node3上 (2)将node2的公钥拷贝到node1,node3上 (3)将node3的公钥拷贝到node1,node2上 以下以node1为例执行秘钥复制命令:ssh

Hadoop上传文件到hdfs报错:org.apache.hadoop.ipc.RemoteException(java.io.IOException)

让人想犯罪 __ 提交于 2019-12-22 02:57:54
搭建好Hadoop集群之后使用hdfs命令上传文件到hdfs报错: hdfs dfs -put jn_gaj_lgxx.csv /input 报错内容如下所示: [root@master local]# hdfs dfs -put jn_gaj_lgxx.csv /input 19/08/21 15:55:40 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applic able 19/08/21 15:55:42 WARN hdfs.DataStreamer: DataStreamer Exception org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /input/jn_gaj_lgxx.csv._COPYING_ could only be replicated to 0 nodes instead o f minReplication (=1). There are 0 datanode(s) running and no node(s) are excluded in this operation.

十大国内外知名大数据专家探讨:Hadoop是生是死?

左心房为你撑大大i 提交于 2019-12-22 02:15:54
2017年,Gartner发布的《2017年数据管理技术成熟度曲线》将Hadoop掀上舆论巅峰,报告极其明显的标识出Hadoop即将在到达生产成熟期之前进入淘汰席。 Gartner预测,到2018年,70%的Hadoop部署无法实现节约成本和收入增长的目标。在今年年初,Hadoop被列为2018年大数据领域的“渐冻”趋势之一,不少人将Hadoop称作“倒下的大象”,比如Lucidworks首席执行官Will Hayes。 Gartner认为,Hadoop到达生产成熟期前即被淘汰 当然,国内很多人将这种现象归结于国内外大数据领域发展状况不平衡造成的,因此笔者耗费了半年时间,走访了国内数家大数据厂商及技术专家,以下是10位技术专家的观点汇总,这些技术专家涵盖了国外的大数据厂商、银行、国内互联网公司以及国内大数据厂商,“Hadoop是生是死”一目了然。 1、任何IT技术发展到一定阶段都会被挑战,Hadoop也不例外! 采访对象:王苹,荣之联解决方案架构师。曾就职于IBM大数据团队,具有多年大数据平台研发经验。目前专注于大数据企业级应用的方案设计及技术选型,同时带领团队研发荣之联大数据产品。 王苹认为,企业之所以愿意使用Hadoop,是因为其足以解决现阶段企业用户在大数据方面存在的问题,并且其开源社区成熟完善。企业用户没有互联网公司乐于冒险,他们更愿意选择成熟稳定的解决方案

sqoop安装和基本操作

北慕城南 提交于 2019-12-21 20:08:42
目录 1、简介 2、安装 3. sqoop导入hdfs 注意( Hadoop集群搭建好 ) 1、简介 sqoop是apache旗下一款 “ Hadoop和关系数据库服务器之间传送数据 ” 的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 2、安装 2.1 下载sqoop1: sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz ( 下载带*bin__hadoop-2.6.0,要不后面安装会报错 ) [hadoop@hadoop01 ~]$ tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz --解压 [hadoop@hadoop01 ~]$ cd sqoop-1.4.7.bin__hadoop-2.6.0 [hadoop@hadoop01 sqoop-1.4.7.bin__hadoop-2.6.0]$ ls -ll -查看目录 total 2020 drwxr-xr-x. 2 hadoop hadoop 4096 Dec 19 2017 bin -rw-rw-r--. 1 hadoop hadoop 55089 Dec 19 2017 build.xml -rw-rw-r--. 1 hadoop

大数据-Hadoop环境搭建

孤者浪人 提交于 2019-12-21 04:05:34
2:环境搭建 在 Hadoop 具体开始前, 先来搭建一下环境 创建虚拟机 安装虚拟机 VMWare 创建虚拟机 安装 CentOS 组成集群 配置每台主机 关闭防火墙 关闭 SELinux 设置主机名 重启 设置时钟同步服务 配置用户权限 免密登录 安装辅助软件 JDK Zookeeper 安装 Hadoop 下载并解压 修改配置 分发到每个节点 格式化 HDFS 启动集群 创建虚拟机 1:通过ISO镜像安装 2: 直接复制安装好的虚拟机 注意事项 :windows系统确认所有的关于VmWare的服务都已经启动, 确认好VmWare生成的网关地址,另外确认VmNet8网卡已经配置好了IP地址。 网络模式 内存设置 规划集群, 创建多台虚拟机 1. 网络模式详解 桥接 把虚拟出来的网卡直接连接外部的路由器, 看起来就好像是网络中多出了一台真正的计算机一样 从路由器来看, 虚拟机等同于局域网内其它的物理机 NAT 在宿主机中创建一个子网, 把虚拟机放入子网中, 子网中有一个NAT服务 仅主机 创建子网, 把虚拟机放入这个子网 2. 内存设置 需要三台虚拟机, 并且需要同时运行, 所以总体上的占用为: 每 台 虚 拟 机 内 存 × 3 每台虚拟机内存 \times 3 每 台 虚 拟 机 内 存 × 3 在分配的时候, 需要在总内存大小的基础上, 减去1-2G作为系统内存,

Hadoop集群的搭建

◇◆丶佛笑我妖孽 提交于 2019-12-20 22:38:47
1、Hadoop集群搭建 1.1 虚拟机环境 VMware Workstation Pro 15.0 Centos 6.5 64bit 内存4G,硬盘50G,采用NAT方式联网。 安装好linux /boot 200M /swap 2g / 剩余 1.2 安装JDK(以root为例) 1.2.1卸载已有JDK (1)查询系统是否安装JDK: 命令:rpm -qa | grep java (2)如果安装的版本低于1.7,卸载该JDK: root用户命令:rpm -e 软件包路径 (3)查看JDK安装路径: 命令:which java 1.2.2安装JDK (1)上传jdk安装包 : jdk-8u171-linux-x64.tar.gz (2)解压安装包到指定目录: tar -zxvf jdk-8u171-linux-x64.tar.gz -C /root/apps (3)配置系统环境变量: 到系统配置文件中添加JAVA_HOME vi /etc/profile 在profile文件中添加 export JAVA_HOME=/usr/local/soft/jdk1.8.0_171 export PATH=$PATH:$JAVA_HOME/bin (4)刷新配置 source /etc/profile (5) 检查安装是否成功 java -version 1.3 关闭防火墙,同步时间 1

Hadoop运行环境搭建

情到浓时终转凉″ 提交于 2019-12-20 20:16:16
Hadoop运行环境搭建 更改为阿里的 Centos7的yum源 # 下载 wget yum -y install wget #echo 下载阿里云的 yum 源配置 Centos-7.repo wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo yum clean all yum makecache 环境配置 关闭防火墙 关闭防火墙:systemctl stop firewalld.service 禁用防火墙:systemctl disable firewalld.service 查看防火墙:systemctl status firewalld.service 关闭 Selinux:vi /etc/selinux/config 将 SELINUX=enforcing改为SELINUX=disabled 修改 IP 善用 Tab键 vi /etc/sysconfig/network-scripts/ifcfg-ens33 BOOTPROTO=static ONBOOT=yes IPADDR=192.168.X.51 GATEWAY=192.168.X.2 DNS1=8.8.8.8 NETMASK=255.255.255.0 vi /etc/resolv.conf

hadoop学习(二)hadoop集群的启动

扶醉桌前 提交于 2019-12-20 07:27:23
一、完全分布式集群环境的搭建   1、配置hosts文件:将三台集群服务器的主机名与IP的对应关系互相配置到对方的hosts文件中,以便对方服务器能通过主机名寻找IP,hosts文件在/etc目录下。   2、建立hadoop运行账号,这个就不说了。   3、配置ssh免密码连入,配置这个地方可能会出现问题,具体细节看上一篇博客。   4、下载并解压hadoop安装包,需要说明的是最好是先chmod更改一下权限,使用tar xzvf 包名 来解压。   5、在namenode节点上配置hadoop:     (1)修改~/hadoop-0.20.2/conf目录下的core-size.xml文件内容,用来配置namenode节点IP和断口,如下:       <configuration>         <property>           <name>fs.default.name</name>           <value>hdfs://namenode服务器ip地址:9000</value>         </property>       </configuration>     (2)修改~/hadoop-0.20.2/conf目录下的hdfs-site.xml文件内如,用来配置备份数据的份数,如下:       <configuration>        

大数据面试题

房东的猫 提交于 2019-12-20 03:38:01
第一部分选择题 1. 下面哪个程序负责 HDFS 数据存储。 答案C DataNode a)NameNode b)Jobtracker c)DataNode d)secondaryNameNode e)tasktracker NameNode:负责调度,比如你需要存一个640m的文件 如果按照64m分块 那么namenode就会把这10个块(这里不考虑副本)分配到集群中的datanode上 并记录对于关系 。当你要下载这个文件的时候namenode就知道在哪些节点上给你取这些数据了。。。它主要维护两个map 一个是文件到块的对应关系 一个是块到节点的对应关系。(文件分成哪些块,这些块分别在哪些节点) 2. HDfS 中的 block 默认保存几份? 答案A默认3分 a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与 NameNode 在一个节点启动? 答案D a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 此题分析: hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个SecondaryNameNode内存需求和NameNode在一个数量级上