(一)、三层结构
(1)底层:仓库数据库服务器(基本是一个关系型数据库)
由ods或者其他外部数据源提取数据,放入底层。ETL工具和程序进行数据提取、数据清洗和变换(例如:将来自不同数据源的数据合并成一致的格式),已经装入和刷新,以更新数据仓库。
数据提取方式:信关程序
a.信关(使用后端程序或者工具提取数据):信关由DBMS支持,允许产生SQL代码
例如:微软的ODBC(开放数据库连接)、OLE-DB(数据库开放链接和嵌入)、JDBC(java数据库连接)
(2)中间层:OLAP服务器
关系OLAP:扩充的关系DBMS,将多维数据上的操作映射为标准的关系操作。
多维OLAP:专门的服务器,他直接实现多维数据和操作。
(3)顶层:前端客户层
包括查询和报告工具、分析工具和数据挖掘工具(例如趋势分析和预测)
或者你可以理解成下面结构的数据仓库和数据集市
(二).三种模型
从结构的角度看,有三种数据仓库模型:企业仓库、数据集市和虚拟仓库
(1)企业仓库(enterprise data warehouse简称:EDW)
搜集了关于主题的所有信息,跨越整个企业。提供企业范围内的数据集成,通产来自一个或者多个操作数据库系统或者外部信息提供者。
(2)数据集市(data mart简称:DM)
包含企业数据的一个子集,对于特定的用户群有用。范围是限于选定的主题例如:销售数据集市可以限定主题为顾客(用户)、商品、销售额(销量)
独立数据集市:来源于一个或者多个数据库操作系统或者外部提供者。
依赖数据集市:直接来源于企业数据仓库
(3)虚拟仓库(virtual warehouse)
操作数据库上视图的集合。
【注意】开发数仓的方案三步走:
三步走:
a。合理短时间内(1-2个月)定义一个高层次的企业数据模型,在不同主题和可能打的应用间提供数据视图
b.基于上述企业数据模型,并行实现独立数据集市和企业数据仓库
c。通过中心服务器集成不同的数据集市,构造分布数据集市,构造一个多层数据仓库
这里企业仓库是所有仓库数据的唯一管理者,仓库数据分布在一些依赖额数据集中。
来源:CSDN
作者:Hi洛一
链接:https://blog.csdn.net/qq_40233706/article/details/103605739