使用Hive+MR统计分析网站指标
https://blog.csdn.net/shenfuli/article/details/50034085 网站用户行为分析背景 数据源来自网站渠道用户行为日志,每天产生10G用户日志。产生的日志的特点: (1)每小时生成一个文件,每个文件约50M,每天每台日志采集服务器产生24个文件 (2)生产环境共有8台日志采集服务器,故每天产生日志:8 * (50*24) 约为10G (3)通过shell脚本,对每天采集服务器上的日志文件进行合并形成一个大约1G的文件,命名格式:日期.log。例如: 2015-07-05.log 1.1 数据收集 在”统计电商网站的PV“案例中,我们收集的原始日志文件部分内容如图所示。 “05/Jul/2015:00:01:04 +0800” “GET” “http%3A//jf.10086.cn/m/” “HTTP/1.1” “200” “ http://jf.10086.cn/m/subject/100000000000009_0.html ” “Mozilla/5.0 (Linux; U; Android 4.4.2; zh-cn; Lenovo A3800-d Build/LenovoA3800-d) AppleWebKit/533.1 (KHTML, like Gecko)Version/4.0 MQQBrowser/5.4 TBS