64位linux下支持lzo的Hadoop 2.2.0分布式集群配置细节摘要
初学者搭建Hadoop环境容易陷入细节漩涡中,并不是说细节不重要,在程序世界中,细节恰恰是决定成败的关键。然而,如果能在深入细节之前对整体有全面、逻辑性的认识,那么遇到细节时也能准确定位自己所处位置,知道如何退、如何进。 搭建Hadoop总的来说分为以下步骤: 检查集群机子环境,准备合适的Hadoop部署文件,一般有以下内容: 检查Java安装(一般不用自带的openJDK,具体原因暂不清楚); 自编译Hadoop 64位部署文件(32bit Hadoop部署文件在x64机子上会有些小问题) 分布式环境下对机子进行整理,罗列其ip(更改/ect/hosts文件需要),划分其Master、Slaver职责(也可以划分更细的ResourceManager、SecondNameNode等,一般来说每个机子都充分利用,均充当DataNode) “规划”Hadoop文件夹结构,包括安装目录、数据文件(hadoop_data)、临时文件(hadoop_tmp)等;一般来说,建议一个hadoop x.x.0目录下,分别设立hadoop x.x.0目录(解压的Hadoop部署文件存放位置)、hadoop-data(数据文件)、hadoop_tmp(临时文件);当然这是笔者自己的实践,如果不是“行业标准”,请勿见笑; 配置运行环境,这里指的是除Hadoop部署文件中配置文件之外的与系统相关的配置: