Warehouse

银行数仓体系发展之路

社会主义新天地 提交于 2020-12-24 08:29:31
银行的数据仓库往往汇聚了银行主要系统的客户、业务、财务等数据,为银行的日常运营分析、市场营销、风险控制、财务分析、内部审计、监管报送提供数据支持和服务。 银行的数字化实践必须建设好数仓体系。 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库之父比尔在著作《B uilding the Data Warehouse 》中提出数据仓库的特征: 面向主题的 集成的 保留历史的 面向决策支持的 面向全企业的 最明细的数据存储 数据快照式的数据获取 数据集市和数据中台,是与数据仓库有关的两个概念。 数据集市是数据仓库的一个子集,用于从数据仓库获取相关的数据加工后提供给用户。数据集市通常面向特定的业务或者团队,如市场部门有对应的营销数据集市,运营部门有运营数据集市。 银行的数据集市包括财务、营销、风险集市等。这些集市为对应的数据系统提供数据加工,此外也为各业务部门数据分析人员提供分析集市,在数据仓库提供相关数据后,由业务人员自行进行数据探索分析。通常我们认为,银行的数据仓库体系一般包括了数据集市,数据集市其实是作为数据仓库体系的一部分。 另一个概念则是数据中台。 如今数据应用到业务场景里的需求大幅增加,需要和应用系统打通,并把数据应用于业务分析。这也要求数据仓库有数据中台的概念。但由于原来数据仓库的架构都打得很坚实,因此倘若想调整架构去支撑业务

数据仓库ODS、DW和DM概念区分

邮差的信 提交于 2020-12-24 05:17:43
ODS(Operational Data Store)——操作性数据 DW(Data Warehouse)——数据仓库 DM(DataMart)——数据集市 1.数据中心整体架构 数据中心整体架构 数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。 2.数据仓库的ODS、DW和DM概念 ods、dw、dm区分 3.ODS、DW、DM协作层次图 协作层次 4.通过一个简单例子看这几层的协作关系 例子 5.ODS到DW的集成示例 集成例子 为什么要分层 1、空间换时间 。通过建设多层次的数据模型供用户使用,避免用户直接使用操作型数据,可以更高效的访问数据。 2、把复杂问题简单化 。讲一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。 3、便于处理业务的变化 。随着业务的变化,只需要调整底层的数据,对应用层对业务的调整零感知. 转自:https://www.jianshu.com/p/72e395d8cb33 https://www.cnblogs.com/benchen/p/6010265.html 来源:

ODS与EDW的区别

心已入冬 提交于 2020-12-24 04:40:04
http://blog.csdn.net/bitcarmanlee/article/details/51013474 根据自己的理解与实际项目经验,说说ODS与EDW的异同。如果有不对的地方,欢迎大家批评指正。 维基百科对于ODS的定义为”An operational data store (or “ODS”) is a database designed to integrate data from multiple sources for additional operations on the data. Unlike a master data store, the data is not passed back to operational systems. It may be passed for further operations and to the data warehouse for reporting.” 翻译过来”ODS是一种数据架构或数据库设计的概念,出现原因是来自于当需要集成来自多个系统的数据,结果又要给一或多个系统使用时。” ODS全称为Operational Data Store,按照字面意思理解为操作型数据存储, 是“面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合,用来满足企业综合的、集成的以及操作型的处理需求”(Bill

数据仓库知识点梳理(2)

自古美人都是妖i 提交于 2020-12-06 18:15:33
接着上一篇 文章 介绍了数据仓库的发展历史和基本概念,本文将着重介绍数据仓库的主流建模方式——维度建模。 01 业务分析与维度建模 常见的业务分析过程,包含对分析对象的定性分析和定量分析。维度建模在确定一个主题后,会将数据存储在事实表和维度表。对比下这两个分类,非常巧合的,在维度模型里面维度表存放的是分析 主题的属性 ,对应于 定性分析 ;而事实表中存放的是属性组合下的 数量度量 ,对应于 定量分析 。 以分析销售主题为例,对于销售可量化的数据如销售金额、销售数量等可以量化的数据是存在事情表中。对销售有影响的属性如,地区、产品、时间等。 同时,每个主要的影响因子维度下,存在多种不同的粒度,比如地区可以按照省、市、区进行划分;时间可以按照季度、月度甚至节假日等进行划分。在分析业务时,可以使用鱼骨图将这些因子罗列起来。下图为使用鱼骨图做的销售主题的归因或者相关分析。 02 事实表和维度表 上文中已经提到事实表中存放定量数据,按照Kimball在《The Data Warehouse Toolkit, 3rd Edition》的定义:在维度模型中,事实表存放业务事件的测度(perfromance measurement)结果。事件的测试,对于销售事件来说,常规的如金额、商品件数等。在维度模型下,获取的测度值需要在各个维度的最小粒度下获取。例如在产品维度上

数据岗位以后再也没有数据分析师!

若如初见. 提交于 2020-12-04 02:01:57
大家好,我是朱小五 本文我主要带大家梳理5个数据相关的岗位,分别是: 一、数据分析(数据挖掘和商业分析) 二、数据产品 三、数据开发 四、数据运营 引言 最近几年,大数据成为互联网最火的领域之一,现在似乎所有的岗位不和数据挂点钩,就显得没那么有前(钱)途。但是大家清楚到底有哪些岗位和数据相关么?如何在这个大势中把握住机会呢? 一般来说,提到大数据想到的就是机器学习、数据挖掘这些,当然除此之外,还有商业分析、数据产品、数据开发和数据运营。 等等,为什么我经常听到的数据分析没有在这里面??? 是的,我在这里特意没有提数据分析这个词,因为它太抽象了,以至于很多人都没有弄清楚到底是怎么回事。数据挖掘是分析数据,商业分析也是分析数据,数据运营也需要分析数据。 所以准确来说,其实是不存数据分析这个岗位的!它是对很多岗位的统称,一般泛指数据挖掘和商业分析。 读到这里,肯定很多人一肚子问题: 1、你说的商业分析是什么?听起来好高大上。 2、你说没有数据分析这个岗位,为啥我在招聘网站上经常看到招数据分析师? 3、 我是做数据分析的,为什么工作内容没什么模型,天天写SQL? …… 别急,让我慢慢带你梳理清楚。 数据挖掘和商业分析 首先,从我们经常听到的数据分析开始,前面也说到,它主要是指数据挖掘和商业分析。那怎么理解这两个岗位呢: 1、数据挖掘是从算法维度理解数据。 2、商业分析是从业务维度理解数据。

ETL构建数据仓库五步法

可紊 提交于 2020-12-02 02:37:44
  ETL构建企业级数据仓库 五步法   在数据仓库构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线,包括了从数据清洗,整合,到转换,加载等的各个过程,如果说数据仓库是一座大 厦,那 么ETL就是大厦的根基,ETL抽取整合数据的好坏直接影响到最终的结果展现。所以ETL在整个数据仓库项目中起着十分关键的作用,必须摆到十分重要的位 置。 一、什么是ETL   ETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写,它是将OLTP系统中的数据经过抽取,并将不同数据源的数据进行转换、整合,得出一致性的数据,然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程(图一:pic1.jpg)。 二、数据仓库的架构   数据仓库(Data Warehouse \ DW)是基于OLTP系统的数据源,为了便于多维分析和 多角度展现将其数据按特定的模式进行存储而建立的关系型数据库,它不同于多维数据库,数据仓库中的数据是细节的,集成的,数据仓库是面向主题的,是以 OLAP系统为分析目的。它包括星型架构(图二:pic2.jpg)与雪花型架构(图三:pic3.jpg),其中星型架构中间为事实表,四周为维度表, 类似星星;雪花型架构中间为事实表,两边的维度表可以再有其关联子表,而在星型中只允许一张表作为维度表与事实表关联,雪花型一维度可以有多张表

hive之SQL

眉间皱痕 提交于 2020-11-27 04:55:41
提示:查看学习SQL主要通过官网 输入hive.apache.org进入hive的官网。 点击Hive Wiki 进入一个界面选择DDL或者DML选择你需要的进行语法查询 一)、DDL:CREATE/DROP/ALTER/MSCK/SHOW/DESCRIBE CREATE (DATABASE|SCHEMA 2选一 ) [IF NOT EXISTS 可有可无 ] database_name( 必须存在 ) [COMMENT database_comment] [LOCATION hdfs_path] ) [WITH DBPROPERTIES (property_name=property_value, ...)]; 1.CREATE DATABASE hive; 创建一个database 名字叫hive 提问:hive这个库建立起来以后存在于哪里?如何查看? 答:desc database hive; 查看hive的默认目录 hdfs://hadoop001:9000/user/hive/warehouse/hive.db hdfs://hadoop001:9000: HDFS目录 /user/hive/warehouse/ :默认的hive存储在HDFS上的目录 hive.metastore.warehouse.dir hive的元数据metastorede

数据仓库架构和建设方法论

眉间皱痕 提交于 2020-11-25 11:46:53
1.数据仓库概要 1.1.数据仓库起因 在建设数据仓库之前,数据散落在企业各部门应用的数据存储中,它们之间有着复杂的业务连接关系,从整体上看就如一张巨大的蜘蛛网:结构上错综复杂,却又四通八达。在企业级数据应用上单一业务使用方便,且灵活多变;但涉及到跨业务、多部门联合应用就会存在:①数据来源多样化,管理决策数据过于分散;②数据缺乏标准,难以整合;③数据口径不统一,可信度低;④缺乏数据管控体系,数据质量难以保证。如下图: 如果企业在数据建设方面没有一个整体的规划,而采取自然演化的方式,那么在未来数据应用的过程中,将不得不面对以下问题: 数据缺乏可信性:缺乏统一的维度;数据算法上存在差异;抽取的多层次;外部数据问题;无起始的公共数据源; 生产率低:需要根据全部数据生成企业报表;定位数据需要浏览大量文件;抽取程序很多,并且每个都是定制的,不得不克服很多技术上的障碍。 数据转化为信息的不可行性:数据没有集成化;缺乏将数据转化为信息所需的历史数据。 基于以上这些的问题,就产生了建立企业级数据仓库的必要性。 1.2.数据仓库发展 数据仓库的萌芽阶段:MIT(麻省理工学院)在20世纪70年代进行了大量研究,经过一系列测试论证,最终提出将业务系统和分析系统分开,将业务处理和分析处理分成不同的层次。也就是如下结论:分析系统和业务系统,只能采用完全不同的架构和设计方法分别处理。 数据仓库的原理

数据仓库整理

眉间皱痕 提交于 2020-11-20 07:29:07
一 概念 数据仓库,英文名称为 Data Warehouse ,可简写为 DW 或 DWH 。数据仓库,是为 企业 所有级别的决策制定过程,提供所有类型数据支持的战略 集合 。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 二 特点 1 、数据仓库是面向主题的 : 操作型数据库的数据组织面向 事务处理 任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 2 、数据仓库是集成的 : 数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库; 数据仓库中的数据是在对原有分散的数据库 数据抽取 、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点 ( 如开始应用数据仓库的时点 ) 到当前的各个阶段的信息

微软全面拥抱 AI!「云+终端」打造「世界计算网络」

放肆的年华 提交于 2020-11-13 02:22:35
记者 | Aholiab 责编 | 刘静 出品 | CSDN(ID:CSDNnews) 11月4日,一年一度的微软IT大会Ignite在美国奥兰多举行,来自全球的2.6万名IT从业者、开发者、数据专家出席会议。在本次会议中,微软发布了多项最新的技术、产品、服务与解决方案,涵盖从Azure到经典的办公服务等多个领域。CSDN记者应邀出席了本次大会,并从现场发回了最新报道。 作为专业的技术社区,本篇文章除了向大家介绍微软本次发布的重要服务和产品之外,也特别为国内的开发者整理了新发布的开发工具。接下来就让我们一起来看看本次Ignite大会的那些亮点吧~ 美国东部时间11月4日~8日,一年一度的微软IT大会Ignite在美国奥兰多举行。作为微软最重要的技术会议之一,每年微软都会在Iginite大会上宣布一系列的产品及服务的升级,也会发布一些新的技术解决方案。今年也是如此。 萨提亚: 让所有公司都成为软件技术公司 在万众瞩目中,微软CEO萨提亚·纳德拉(Satya Nadella)以「技术密集度」(Tech Intensity)为主题的演讲拉开了大会的序幕,并以一种「行为艺术」的方式来阐释选择这个主题的原因。 微软CEO萨提亚·纳德拉 在过去的110天里,一个临时组成的开发团队在奥兰多环球影城实现了一个新的展厅。利用Azure Kinect的AI传感器所提供的计算机视觉能力和语音模型,萨提亚