hadoop集群搭建

【Hadoop离线基础总结】伪分布模式环境搭建

纵饮孤独 提交于 2020-02-15 10:20:14
伪分布模式环境搭建 服务规划 适用于学习测试开发集群模式 步骤 第一步:停止单节点集群,删除/export/servers/hadoop-2.7.5/hadoopDatas,重新创建文件夹 停止单节点集群 cd /export/servers/hadoop-2.7.5/ sbin/stop-dfs.sh sbin/stop-yarn.sh sbin/mr-jobhistory-daemon.sh stop historyserver 删除文件夹 rm -rf /export/servers/hadoop-2.7.5/hadoopDatas 重新创建文件夹 mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/tempDatas mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2 mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2

大数据之虚拟机配置和环境准备及hadoop集群搭建

心不动则不痛 提交于 2020-02-10 14:45:09
一、VMnet1和VMnet8路由器 VMware-workstation软件选择默认安装时,会自动创建VMnet1和VMnet8路由器设备。(安装失败使用CCleaner清理vm软件)   VMnet1对应仅主机模式。如果在网络适配器-网络连接里面选择仅主机模式,那么Linux的虚拟网卡就会接入VMnet1路由设备,应该使用VMnet1设备子网IP段,一般情况下使用DHCP获取的IP地址就在子网IP段范围。   VMnet8对应NAT模式。如果在网络适配器-网络连接里面选择NAT模式,那么Linux的虚拟网卡就会接入VMnet8路由设备,应该使用VMnet8设备子网IP段,一般情况下使用DHCP获取的IP地址就在子网IP段范围。 比如网络适配器-网络连接里面选择NAT模式,那么自动获取的IP地址范围就在192.168.201.128~254,如下: 二、各种模式网络配置详解 (1)桥接模式   桥接模式就是将主机网卡与虚拟机虚拟的网卡利用虚拟网桥进行通信。在桥接的作用下,类似于把物理主机虚拟为一个交换机,所有桥接设置的虚拟机连接到这个交换机的一个接口上,物理主机也同样插在这个交换机当中,所以所有桥接下的网卡与网卡都是交换模式的,相互可以访问而不干扰。在桥接模式下,vm中的虚拟机与主机是一样的,都连在了和主机一样的路由中(相当于多台主机连接了同一个路由器上);其网络结构如图:

大数据技术学习笔记:Hadoop集群搭建

梦想的初衷 提交于 2020-02-10 04:14:00
在近期大数据的学习过程中,我们接触了很多关于Hadoop的理论和操作性的知识点,尤其在近期学习的Hadoop集群的搭建问题上,小细节,小难点拼频频出现,所以,今天集中总结以下笔记,希望对各位同学有所帮助。ps:以下不涉及完全分布式,只说明单机版和伪分布式。 一、hadoop本地模式和伪分布式模式之间的区别 1.单机(非分布式)模式。这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。 2.伪分布式运行模式。这种模式也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)。请注意分布式运行中的这几个结点的区别:从分布式存储的角度来说,集群中的结点由一个NameNode和若干个DataNode组成,另有一个SecondaryNameNode作为NameNode的备份;从分布式应用的角度来说,集群中的结点由一个JobTracker和若干个TaskTracker组成,JobTracker负责任务的调度,TaskTracker负责并行执行任务。TaskTracker必须运行在DataNode上,这样便于数据的本地计算。JobTracker和NameNode则无须在同一台机器上。一个机器上,既当namenode

hadoop集群简单搭建

感情迁移 提交于 2020-02-10 03:15:37
分布式搭建 在ubuntu下创建hadoop用户组和用户 bigdata@master:~$ sudo addgroup hadoop bigdata@master:~$ s udo adduser --ingroup hadoop hadoop 给hadoop用户添加权限 bigdata@master:~$ sudo gedit /etc/sudoers 在root ALL=(ALL) ALL下面添加 hadoop ALL=(root) NOPASSWD:ALL 配置ssh,配置ssh注意是在hadoop用户下进行的 hadoop@master:~$ su -hadoop hadoop@master:~$ sudp apt-get update hadoop@master:~$ sudo apt-get install openssh-server 修改hostname,设置hostname=master hadoop@master:~$ sudo vi /etc/hostname 修改自己节点的ip映射(一定要记得注释掉上方的127.0.1.1,不然会影响到后面的namenode和datanode的访问) hadoop@master:~$ sudo vi /etc/hosts 192.168.100.10 master 192.168.100.20 salves1 192

Hadoop分布式集群配置

拈花ヽ惹草 提交于 2020-02-10 03:14:21
硬件环境: 安装一个Hadoop集群时,需要专门指定一个服务器作为主节点。 三台虚拟机搭建的集群:(搭建集群时主机名不能一样,主机名在 /etc/hostname 修改) master机器:集群的主节点,驻留NameNode和JobTracker守护进程 ) dbrg1 192.168.0.102 slaves机器:( 集群的从节点,驻留DataNode和TaskTracker守护进程 ) dbrg2 192.168.0.112 dbrg3 192.168.0.113 这三台机器都安装好了hadoop-0.20.2,JDK和ssh。 安装方法参考上一篇博文。 共有 3 台机器,均使用的 linux 系统, Java 使用的是 sun jdk1.7.0 。 1. 修改主机名和IP地址 vi /etc/hostname (分别给每一台主机指定主机名) vi /etc/hosts (分别给每一台主机指定主机名到 IP 地址的映射) 这里有一点需要强调的就是,务必要确保每台机器的主机名和 IP 地址之间能正确解析。一个很简单的测试办法就是 ping 一下主机名,比如在dbrg1 上 ping dbrg2 ,如果能 ping 通就 OK !若不能正确解析,可以修改 /etc/hosts 文件,如果该台机器作 Namenode 用,则需要在 hosts 文件中加上集群中所有机器的 IP

hadoop 集群调优实践总结

不问归期 提交于 2020-02-10 03:12:37
调优概述 # 几乎在很多场景,MapRdeuce或者说分布式架构,都会在IO受限,硬盘或者网络读取数据遇到瓶颈.处理数据瓶颈CPU受限.大量的硬盘读写数据是海量数据分析常见情况. IO受限例子: 索引 分组 数据倒入导出 数据移动和转换 CPU受限例子: 聚类/分类 复杂的文本挖掘 特征提取 用户画像 自然语言处理 我们需要从硬件规划和软件规划等多方面结合实现性能和效率的提升。 硬件规划 # 评估集群规模 # 我们需要搭建多少节点的hadoop集群?回答这个问题考虑的因素比较多:预算?数据量?计算资源? 需要多少计算资源可能不是特别好评估,推荐横向扩展,随业务规模和应用发展再考虑扩展。开始可以就按照数据量来评估数据规模,估计一下每天的数据增量?保存数据的周期是多少?有没有冷数据方案? 假设每天增长的数据为600G、3备份存储,以一年规划为例,大概存储为600G 3 360天=633T, 再考虑增加%20的预留,考虑未来数据增长的趋势,考虑应用计算等空间需求。为节省空间可考虑压缩存储(大概可以节省70%空间)。 同时考虑一定冗余量,如果集群一部分节点不可用也要保证业务正常使用(根据集群规模评估冗余比例)。 然后结合节点硬件规划和预算,确定集群规模。假如我们需要650T存储,可以采用30台12 x 2TB的存储配置或者 60台6 x 2TB配置,但是节点数量翻翻

centos7 安装jdk 1.8

限于喜欢 提交于 2020-02-09 05:16:27
首先说明,本文记录的是博主搭建的3节点的完全分布式hadoop集群的过程,环境是centos 7,1个nameNode,2个dataNode,如下: 1、首先,创建好3个Centos7的虚拟机,具体的操作可以参考网上其他教程,这个给个链接《 windows环境安装VMware,并且安装CentOS7 虚拟机 》 2、完成虚拟机的java环境的搭建,可以参考我的博客《 centos7 安装jdk 1.8 》 3、关闭或者禁用防火墙, systemctl stop firewalld.service 关闭防火墙;systemctl disable firewalld.service 关闭防火墙   firewall-cmd --state 查看状态    4、修改hosts文件,vim /etc/hosts ,注释原有的内容,加入如下内容,ip地址为你自己的虚拟机的IP地址: 192.168.10.128 master.hadoop 192.168.10.129 slave1.hadoop 192.168.10.130 slave2.hadoop   more /etc/hosts查看是否正确,需要重启后方能生效。重启命令 reboot now   此处可以添加ssh key,创建无密码的公钥 a、在master机器上输入 ssh-keygen -t dsa -P '' -f ~/

hadoop全分布式的搭建

穿精又带淫゛_ 提交于 2020-02-09 04:02:24
修改主机名:vim /etc/sysconfig/network 1 修改 hadoop-env.sh 2 修改 core-site.xml /hadoop/tmpdir: 产生 namenode 中 fsimasage 和 edits 文件 合并元数据 3 修改 hdfs-site.xml 4 yarn-site.xml <property> <name>yarn.resourcemanager.scheduler.address</name> <!--RPC 的地址,并且用于分配资源的端口 --> <value>haha:8030</value> </property> ResourceManager: ----> application manager( 服务 ) appMaster ( RM-container() ) Scheduler: 专注于: AM----->RM ( 资源 ) 5 mapred-site.xml 6 修改 slaves (从节点指定出来) 从节点配置三台 7 分发  scp -r hadoop/ root@Linux03:/root/Downloads/hadoop-2.6.5/etc/ 8 把集群进行格式化: hdfs namenode -format 9 免密: ssh-keygen -t rsa ---->.ssh ( 删除 ) 9.1 配置

hadoop集群环境的搭建

本小妞迷上赌 提交于 2020-02-09 03:26:30
今天终于把hadoop集群环境给搭建起来了,能够运行单词统计的示例程序了。 集群信息如下: 主机名 Hadoop角色 Hadoop jps命令结果 Hadoop用户 Hadoop安装目录 master Master slaves NameNode DataNode JobTracker TaskTracker SecondaryNameNode 创建相同的用户的组名:hadoop。 安装hadoop-0.20.2时使用hadoop用户,并且hadoop的文件夹归属也是hadoop:hadoop /opt/hadoop slave1 slaves DataNode TaskTracker slave2 slaves DataNode TaskTracker   注:master即使master又是slave. 搭建步骤如下:   一、首先是搞好master   1、创建用户组     groupadd hadoop 添加一个组     useradd hadoop -g hadoop 添加用户   2、jdk的安装     这里安装的版本是jdk-7u9-linux-i586.tar.gz ,使用 tar -zsvf jdk-7u9-linux-i586.tar.gz -C /opt/ 命令将其解压到/opt目录下,并将解压后的文件夹jdk-7u9-linux-i586改名为java

hadoop集群环境的搭建

北城以北 提交于 2020-02-09 03:20:27
hadoop集群环境的搭建 今天终于把hadoop集群环境给搭建起来了,能够运行单词统计的示例程序了。 集群信息如下: 主机名 Hadoop角色 Hadoop jps命令结果 Hadoop用户 Hadoop安装目录 master Master slaves NameNode DataNode JobTracker TaskTracker SecondaryNameNode 创建相同的用户的组名:hadoop。 安装hadoop-0.20.2时使用hadoop用户,并且hadoop的文件夹归属也是hadoop:hadoop /opt/hadoop slave1 slaves DataNode TaskTracker slave2 slaves DataNode TaskTracker   注:master即使master又是slave. 搭建步骤如下:   一、首先是搞好master   1、创建用户组     groupadd hadoop 添加一个组     useradd hadoop -g hadoop 添加用户   2、jdk的安装     这里安装的版本是jdk-7u9-linux-i586.tar.gz ,使用 tar -zsvf jdk-7u9-linux-i586.tar.gz -C /opt/ 命令将其解压到/opt目录下,并将解压后的文件夹jdk-7u9