数据仓库(Data Warehouse):是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
数据仓库的目标
- 实现跨系统数据共享,解决信息孤岛
- 提升数据质量
- 辅助决策分析
- 提供统一的数据服务
数据仓库的构建的挑战
- 信息整合在技术上的复杂度
- 信息整合的管理成本
- 数据资源的获取
- 信息整合的实施周期以及整合项目的风险等。
数据存储区
ODS整个企业单位全局级的明细数据、 数据仓库/数据集市集市中存储了不同级别的汇总数据、 共享数据库、 特征库-存放各种数据分群特征、业务分类特征等业务信息、 模型库-存放构建的各种业务模型信息等
2 关键步骤
明确主题-为谁分析、分析什么
基于商业维度分析数据维度-确定任务相关的所有维,维度层次和名称
基于事件 提取指标,确定事实表的度量变量和数据粒度
确定数据量级
确定时效性要求、更新频率
分析型数据源通常使用星型结构布局 分拆维度DIM 事实表FACT ,join得到星型或者雪花型模型
3.建立数据仓库的逻辑模型
具体步骤如下:
(1)确定建立数据仓库逻辑模型的基本方法。
(2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。
(3)识别主题之间的关系。
(4)分解多对多的关系。
(5)用范式理论检验逻辑数据模型。
(6)由用户审核逻辑数据模型。
4.逻辑数据模型转化为数据仓库数据模型
具体步骤如下:
(1)删除非战略性数据:数据仓库模型中不需要包含逻辑数据模型中的全部数据项,某些用于操作处理的数据项要删除。
(2)增加时间主键:数据仓库中的数据一定是时间的快照,因此必须增加时间主键。
(3)增加派生数据:对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。
(4)加入不同级别粒度的汇总数据:数据粒度代表数据细化程度,粒度越大,数据的汇总程度越高。粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的查询类型。显然,粒度级别越低,则支持的查询越多;反之,能支持的查询就有限。
对数据操作的效率与能得到数据的详细程度是一对矛盾,通常,人们希望建成的系统既有较高的效率,又能得到所需的详细资料。实施数据仓库的一个重要原则就是不要试图包括所有详细数据,因为90%的分析需求是在汇总数据上进行的。试图将粒度细化到最低层,只会增加系统的开销,降低系统的性能。
5.数据仓库数据模型优化数据仓库设计时,性能是一项主要考虑因素。
在数据仓库建成后,也需要经常对其性能进行监控,并随着需求和数据量的变更进行调整。 优化数据仓库设计的主要方法是:
- 合并不同的数据表。
- 通过增加汇总表避免数据的动态汇总。
- 通过冗余字段减少表连接的数量,不要超过3~5个。
- 用ID代码而不是描述信息作为键值。
- 对数据表做分区。
6.数据清洗转换和传输
由于业务系统所使用的软硬件平台不同,编码方法不同,业务系统中的数据在加载到数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。 在设计数据仓库的数据加载方案时,必须考虑以下几项要求: ·加载方案必须能够支持访问不同的数据库和文件系统。
·数据的清洗、转换和传输必须满足时间要求,能够在规定的时间范围内完成。
·支持各种转换方法,各种转换方法可以构成一个工作流。
·支持增量加载,只把自上一次加载以来变化的数据加载到数据仓库。
思为数据仓库建设
多维数据模型
基于时间范围的事件统计 得到指标
提供的分析能力
事件分析(原始埋点) 漏斗分析(转化率分析) 留存分析 (时间周期的行为关联) 分布分析 (特征分布) 用户路径 (操作地图) 模型归因 相同维度的度量关联
基础库DW
标准区——基础档案——维度
项目(楼盘)维度 房源维度 资源维度 用户维度
标准区——业务记录(事实表)——度量
分享 邀请 签到
主题库DM
- 客户关系
- 客户商品偏好
- 客户活跃度 (活动等)
- 商品销售统计
主题——推客、获客
经纪人的客户情况,访客情况 主被动获客 项目租户的获客情况
维度——用户基本信息、用户来源+来源资源(关联项目)、用户推荐关系
指标事件—— 首次访问、首次授权
主题——用户意向画像
维度——用户基本信息、用户来源、用户使用偏好(功能次数)
指标事件——参与活动、 买点功能使用次数与时间
主题—— 商品销售情况
维度 —— 时间 地区 项目
公共维度 时间 年-月-周-日 地点 地区 session 域名 设备 应用
基本事件 用户浏览 用户授权(留点) 用户到访
来源:oschina
链接:https://my.oschina.net/huawenyao/blog/4329664