问题一:预处理是什么意思?
问题二:获取时间是在哪里输出的?这个是在hive中写的吗?
问题三:log.preprocess.sh这个预处理文件是用来做什么的?需要详细解释一下
问题四:log_click.sh点击流脚本
雪花模型与星型模型:
星型表:一个事实表,关联多个维度表
3.雪花模型,一个事实表关联过个维度表,维度表在关联其他的表,维度表是按3F式设计,
模块开发-ETL
start-dfs.sh
strat-yarnsh
starthive.sh
startbeeline.sh 是什么东西?
1.创建原始数据表
show databases ;
use shizhan;
show tables;
shows tables;
desc ods_weblog_origin
在创建点击流模型pageviews表 ods_click_pageviews、点击流visit模型表 click_stream_visit
要导入数据,已经在本地生成了,按理说应该生成到hdfs上取‘
2.向hive中导入数据:
load data local inpath '/home/hadoop/wash-part-m-0000' into tabales ods_weblog_origin partition(datestr='2013-1-1');
导入不同的数据作用是什么?3个数据的来源与前面的preprocess预处理有啥关系?
来源:oschina
链接:https://my.oschina.net/u/4434424/blog/3217138