数仓分层
数仓分层 ODS :Operation Data Store 原始数据 DWD :data warehouse detail(数据清洗) 数据明细详情,去除空置,脏数据,超过极限范围的 明细解析 具体表 DWS :data warehouse service(宽表-用户行为,轻度聚合) 服务层-留存-转化-GMV-复购率-日活 点赞、评论、收藏 轻度聚合对DWD ADS :Application data store(出报表结果) 做分析同步到RDS数据库里边 数据集市 :狭义ADS层,广义上指DWD,DWS,ADS从hadoop同步到RDS的数据 数据搭建之ODS & DWD 1)创建gmall数据库 create database gmall 说明:如果数据库存在且有数据,需要强制删除时执行:drop database gmall cascade; 2)使用gmall数据库 use gmall; 1.ODS层 原始数据层,存放原始数据,直接加载日志、数据,数据保持原貌不做处理 1)创建启动日志表ods_start_log 创建输入数据是lzo输出时text,支持Json解析的分区数据 drop table if exists ods_start_log; create external table ods_start_log('line' string) partition