scrapy爬取交互表格数据:https://blog.csdn.net/loveaborn/article/details/16916559
爬取表格数据:https://bbs.csdn.net/topics/392193340
Mapreduce算法:
MapReduce常见算法:https://blog.csdn.net/qq_19968255/article/details/82803707
常见算法练习要求:https://blog.csdn.net/MyronCham/article/details/84566192
Mapreduce实现多表join:https://blog.csdn.net/sofuzi/article/details/81265402
MapReduce实现数据过滤、聚合、排序:
https://blog.csdn.net/wdr2003/article/details/80317817
mapreduce基本算法:
单词计数 ok
数据去重
排序
Top K
选择
投影
分组
多表连接
单表关联
Hadoop启动jar实例:https://blog.csdn.net/a377987399/article/details/80510776
在打包第3步的时候千万不要选择主类,让它空着。hadoop jar命令的第二个参数需要你输入主类的名称,如果你打包时选择了主类的名称,它就会将你的包名.主类名当成输入路径,因为它已经知道主类是什么了,所以会产生这样的错误。