数据仓库原理<2>:数据仓库系统的体系结构
1. 引言 本篇主要讲述数据仓库系统的体系结构与组成要素、数据集市与数据仓库之间的关系、元数据的定义与作用。 在 上一篇 ,笔者介绍了数据仓库的定义: “数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的用来更好地支持企业或组织决策分析的数据集合。” 数据仓库是区别于传统操作型数据库的数据集合,主要应用于分析型数据操作,支持企业全局的决策分析。但是要实现这一应用目的,单一的数据仓库是无法完成的,需要建立一个数据仓库系统。 基于数据仓库系统,完成数据从操作型数据库等数据源到数据仓库或者数据集市的流动、传输,以支持前台的决策分析处理工作。 2. 数据仓库系统的体系结构 一个典型的数据仓库系统的体系结构图,如下所示。 简单地说,数据从操作型数据库、文件、网络等数据源,通过ETL集成工具进行数据抽取、清洗、转换、加载等工作,进入到数据仓库和数据集市中,进而通过OLAP服务器支持前台的多维分析、查询报表、数据挖掘等操作。 3. 组成要素 数据仓库系统是由数据源、集成工具、数据仓库与数据仓库服务器、OLAP服务器、元数据与元数据管理工具、数据集市和前台分析工具等组成。 (1)数据源: 数据源就是提供初始数据的地方,是数据仓库系统的基础。通常包括企业内部数据和外部数据。内部数据包括各种操作型数据库中的数据以及文档数据,外部数据包括各类法律法规、市场信息