数据仓库是什么,如何建立(总结)
一、是什么 官方解释: 面向主题的 、 集成的 、 相对稳定 、 反应历史变化 ,用于企业的管理决策分析。 开发者角度:通过 接入各种数据源 ,打破数据壁垒,根据 业务方的需求 ,设计方便使用和准确的 数据模型 ,高效将结果输出给业务方。 业务方角度:能快速准确提供数据,给公司的日常运营和领导决策提供 数据支持和指导 。 二、如何建立 1、分析业务需求、确认仓库主题 例:领导想看各部门GMV、毛利情况。运营团队要了解各个渠道的订单转化率,商品、品牌、品类、销售情况。用户团队关注用户相关的销售、商家团队关注商家的销售… 通过业务需求分析,需要做一个销售交易相关的主题 2、确定总线矩阵 维度:用户维度、商品维度、商家维度、订单渠道维度 业务过程:用户下单、支付成功、确认收获 3、设计分层架构 一般是业务接入层、明细层、汇总层、应用层 A、业务接入层:同步订单、用户、商家、商品、订单渠道相关的业务表到仓库中,不做任何清洗操作。 B、一致性维度:目标是尽量丰富维度属性,但是又不要 过度运算,保证核心维度模型的整洁 性,做好维度属性的整合和拆分。(商品表:对于产出快且使用率高的维度属性,比如名称、品牌、品类等,可放在商品基础维度表。但对于产出慢且使用率低的维度属性,比如上市季节、上架时间等,可放在商品的扩展维度表)。 C、明细层:保证粒度最细,使用退化维度的方法,将常用的维度属性加入明细表中