大数据笔记

不想你离开。 提交于 2019-12-06 03:16:09

scrapy爬取交互表格数据:https://blog.csdn.net/loveaborn/article/details/16916559

爬取表格数据:https://bbs.csdn.net/topics/392193340

 

Mapreduce算法:

MapReduce常见算法:https://blog.csdn.net/qq_19968255/article/details/82803707

常见算法练习要求:https://blog.csdn.net/MyronCham/article/details/84566192

Mapreduce实现多表join:https://blog.csdn.net/sofuzi/article/details/81265402

MapReduce实现数据过滤、聚合、排序:

https://blog.csdn.net/wdr2003/article/details/80317817

 

mapreduce基本算法:

单词计数 ok

数据去重

排序

Top K

选择

投影

分组

多表连接

单表关联

 

 

 

Hadoop启动jar实例:https://blog.csdn.net/a377987399/article/details/80510776

  在打包第3步的时候千万不要选择主类,让它空着。hadoop jar命令的第二个参数需要你输入主类的名称,如果你打包时选择了主类的名称,它就会将你的包名.主类名当成输入路径,因为它已经知道主类是什么了,所以会产生这样的错误。

 

 

 

Hive函数大全:https://www.iteblog.com/archives/2258.html

练习:https://www.jianshu.com/p/58be497e6c7d

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!