项目讲解2

旧巷老猫 提交于 2020-04-06 12:55:18

问题一:预处理是什么意思?

问题二:获取时间是在哪里输出的?这个是在hive中写的吗?

问题三:log.preprocess.sh这个预处理文件是用来做什么的?需要详细解释一下

问题四:log_click.sh点击流脚本

雪花模型与星型模型:

星型表:一个事实表,关联多个维度表

3.雪花模型,一个事实表关联过个维度表,维度表在关联其他的表,维度表是按3F式设计,

模块开发-ETL

start-dfs.sh

strat-yarnsh

starthive.sh

startbeeline.sh   是什么东西?

1.创建原始数据表

show databases ;

use shizhan;

show tables;

shows tables;

desc  ods_weblog_origin

在创建点击流模型pageviews表 ods_click_pageviews、点击流visit模型表   click_stream_visit

要导入数据,已经在本地生成了,按理说应该生成到hdfs上取‘

2.向hive中导入数据:

load data local inpath '/home/hadoop/wash-part-m-0000' into tabales ods_weblog_origin partition(datestr='2013-1-1');

导入不同的数据作用是什么?3个数据的来源与前面的preprocess预处理有啥关系?

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!