hadoop 集群搭建与注意点
一花一世界 一叶一菩提。 这应该是第二次学习hadoop , 第一次是两年前,刚开始找工作,当时个人眼界 认为ssh 与移动app 开发比较流行,至于hadoop 是一个比较高端的东西,还有一个原因就是当时急需摆脱对父母的依赖,需要一份工作,用活自己;这两年过去了,再次从新审视大数据,感觉一切又回到起点,只不过个人心态,经历,行业环境都发生改变。 我用hadoop 2.7.3 算是比较新版本。 http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz (我用浏览器,百度云下载都失败, 最后用迅雷下载成功); hadoop 基本知识: (1)HADOOP是apache旗下的一套开源软件平台 (2)HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 ; (3)HADOOP的核心组件有 A.HDFS(分布式文件系统) B.YARN(运算资源调度系统) C.MAPREDUCE(分布式运算编程框架) hadoop 历史: (1) 当时 Nutch 爬虫框架, 面对海量的网页,面临两大瓶颈: 一个海量数据存储索引问题, 另外就是网页价值计算; (2)2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案: 一个是谷歌分布式存储GFS