数据仓库

建模的技巧及优化

£可爱£侵袭症+ 提交于 2020-04-08 03:29:16
建立模型应该考虑的几个问题 数 据仓库建模质量直接影响数据仓库项目的质量,甚至成败。在进行建模之前,要对数据仓库的规模、组成及模型不同部分的功能定位有明确的定义。影响数据仓库建 模的因素众多,且根据不同项目的具体情况而变化口下面的几个问题是较为通用和常见的,远远不是建立模型应该考虑的全部问题。 数据仓库的业务特点对建模的要求 1 数据仓库的数据组织是面向主题的,而不是面向报表的 数据仓库是面向业务分析的主要主题领域的,进行形成数据模型的定义。典型的主题领域主要包括: · ·顾客购买行为 · ·产品销售情况 · ·企业生产事务 · ·原料采购 · ·合作伙伴关系 · ·会计科目余额 要 对现有的报表需求进行细致的分类、分析和调整,不能为了实现单个报表而进行大量的建模工作。要根据分析的不同内容和主题对报表进行分类,明确报表中每一个 数据的定义、统计口径及不同数据之间的关系,建立在整个数据仓库内统一的数据指标的定义,将数据指标按分析主题及分析维度进行归集,从而形成面向主题的数 据模型。 例如:我们的利润表报表,当业务部门发我们一个利润表 的报表,作为需求时,我们应该进行细致的分析,最终我们确定我们面向的主题不是利润表,而是比利润表更大的一个层次的所有科目业务量的主题,这样我们在做 别的报表,例如资产负债表,现金流量表等报表时,就不用重复建模的工作了,做到了软件工程中的可重用规则。 2.

数据仓库中的 SQL 性能优化(MySQL篇)

淺唱寂寞╮ 提交于 2020-04-06 22:04:47
做数据仓库的头两年,使用高配置单机 + MySQL的方式来实现所有的计算(包括数据的ETL,以及报表计算。没有OLAP)。用过MySQL自带的MYISAM和列存储引擎Infobright。这篇文章总结了自己和团队在那段时间碰到的一些常见性能问题和解决方案。 P.S.如果没有特别指出,下面说的mysql都是指用MYISAM做存储引擎。 1. 利用已有数据避免重复计算 业务需求中往往有计算一周/一个月的某某数据,比如计算最近一周某个特定页面的PV/UV。这里出现的问题就是实现的时候直接取整周的日志数据,然后进行计算。这样其实就出现了重复计算,某一天的数据在不同的日子里被重复计算了7次。 解决办法非常之简单,就是把计算进行切分,如果是算PV,做法就是每天算好当天的PV,那么一周的PV就把算好的7天的PV相加。如果是算UV,那么每天从日志数据取出相应的访客数据,把最近七天的访客数据单独保存在一个表里面,计算周UV的时候直接用这个表做计算,而不需要从原始日志数据中抓上一大把数据来算了。 这是一个非常简单的问题,甚至不需要多少SQL的知识,但是在开发过程中往往被视而不见。这就是只实现业务而忽略性能的表现。从小规模数据仓库做起的工程师,如果缺乏这方面的意识和做事规范,就容易出现这种问题,等到数据仓库的数据量变得比较大的时候,才会发现。需求决定能力。 2 . case when 关键字的使用方法

数据仓库学习

半腔热情 提交于 2020-04-06 05:47:28
第一部分 导论 第1章 商业数据挖掘简介  1.1 介绍  1.2 进行数据挖掘需要什么  1.3 数据挖掘  1.4 集聚营销  1.5 商业数据挖掘  1.6 数据挖掘工具 第2章 数据挖掘过程与知识发  2.1 CRISP-DM  2.2 知识发现过程 第3章 数据挖掘的数据库支持  3.1 数据仓库  3.2 数据集市  3.3 联机分析处理  3.4 数据仓库的实现  3.5 元数据  3.6 系统示范  3.7 数据质量  3.8 软件产品  3.9 实例 第二部分 数据挖掘工具 第4章 数据挖掘方法概述  4.1 数据挖掘方法  4.2 数据挖掘视野  4.3 数据挖掘的作用  4.4 实证数据集 附录4A 第5章 聚类分析  5.1 聚类分析  5.2 聚类分析的描述  5.3 类数量的变动  5.4 聚类分析的运用  5.5 在软件中使用聚类分析  5.6 大数据集的方法运用  5.7 软件产品 附录5A 第6章 数据挖掘中的回归算法  6.1 回归模型  6.2 逻辑回归  6.3 线性判别分析  6.4 数据挖掘中回归的实际应用  6.5 大样本数据集的模型应用 第7章 数据挖掘中的神经网络  7.1 神经网络  7.2 数据挖掘中的神经网络  7.3 神经网络的商业应用  7.4 神经网络应用于大样本数据集  7.5 神经网络产品 第8章 决策树算法  8

数据中台,概念炒作还是另有奇效? | TVP思享

偶尔善良 提交于 2020-03-24 19:56:59
3 月,跳不动了?>>> 数据中台被誉为大数据的下一站,成为了人们谈论的焦点,2019年也被称为数据中台元年。但是数据中台是什么?它和数据仓库、商业智能、大数据平台有什么区别?它的主要功能是什么?本文是对TVP史凯老师的直播演讲整理,为大家剖析数据中台的愿景和本质。「TVP思享」专栏,凝结大咖思考,汇聚专家分享,收获全新思想,欢迎长期关注。 一、数据中台现象及剖析 去年3月份我写了一篇关于数据中台的文章,得到了10万+的浏览量。我当时非常意外,怎么这样一篇1万多字,还不是特别好理解的技术类的文章能得到10万+呢?这个现象是不是意味着,数据中台热起来了呢? 作为一个数据工作者,我从不靠直觉做判断,我们尽可能的利用数据作判断。我第一时间注册了“数据中台”这个百度指数,然后观察它的搜索热度。 因为,不像过去所有的IT概念、云计算、大数据等全是来源于国外,中台是中国人自己发明的概念。所以我们通过百度的搜索指数,也能够看到数据平台在行业里的热度。 下图展示的是:数据中台和数字化转型的百度搜索指数的热度对比,能够发现数据中台搜索热度在2019年初,正好是3月份的样子,已经超越了数字化转型的热度,并且在发生启动前达到顶峰。 再来看跟数据中台相关的商业智能、数据仓库两个概念。在过去,数据仓库、商业智能都是非常火热的概念,尤其是数据仓库。而在今年数据仓库有了下滑的趋势,数据中台却到达了顶峰。

数据挖掘是如何解决问题的

旧巷老猫 提交于 2020-03-22 02:10:28
数据挖掘是如何解决问题的 本节通过几个数据挖掘实际案例来诠释如何通过数据挖掘解决商业中遇到的问题。 2.1.1 节中关于“啤酒和尿不湿”的故事是数据挖掘中最经典的案例。而 Target 公司通过“怀孕预测指数”来预测女顾客是否怀孕的案例也是近来为数据挖掘学者最津津乐道的一个话题。 很多人会问,究竟数据挖掘能够为企业做些什么?下面我们通过一个在数据挖掘中最经典的案例来解释这个问题——一个关于尿不湿与啤酒的故事。 尿不湿和啤酒 超级商业零售连锁巨无霸沃尔玛公司( Wal Mart )拥有世界上最大的数据仓库系统之一。为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,从而知道顾客经常一起购买的商品有哪些。在沃尔玛庞大的数据仓库里集合了其所有门店的详细原始交易数据,在这些原始交易数据的基础上,沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘。一个令人惊奇和意外的结果出现了:“跟尿不湿一起购买最多的商品竟是啤酒”!这是数据挖掘技术对历史数据进行分析的结果,反映的是数据的内在规律。那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值? 为了验证这一结果,沃尔玛派出市场调查人员和分析师对这一结果进行调查分析。经过大量实际调查和分析,他们揭示了一个隐藏在“尿不湿与啤酒”背后的美国消费者的一种行为模式:在美国

构造数据仓库系统的元数据——读书笔记

烂漫一生 提交于 2020-03-18 05:24:52
数据仓库系统是以面向主题,面向决策的数据存储为基础,在企业内部实现的从数据采集,处理,存储到决策支持的 端到端的解决方案。 什么是元数据? 元数据 Metadata 可以定义为描述应用系统或业务流程中数据结构或意义的数据或文档,是关于数据的数据。 在数据仓库系统中,元数据可以分成两类: 技术元数据和业务元数据。 技术元数据是存储关于数据仓库系统技术细节的元数据,主要包括以下信息 业务元数据时保证用户能正确,方便的使用数据仓库系统所必需的,主要用来提供介于使用者和实际系统之间 的语义层,包括如下信息 为什么需要元数据 元数据是进行数据集成所必需的 数据仓库的集成性就是将不同时间,不同地点,不同系统中的数据采集,整理并且按照一定的模式存储在数据仓库中。 这个过程所必需的时间,地点信息,原始数据和数据仓库中数据的对应关系以及校验,转换,过滤的规则等都存放在 元数据库中。 元数据是实现应用程序间的数据通信,避免“自动化孤岛”所必需的 元数据是用户实现数据检索和数据挖掘所必需的 元数据提供了数据访问的入口,就像图书馆中的目录一样。每次用户或系统要查找输入仓库中的数据时, 首先要根据 某种标志 在元数据中找到该数据的存放位置,再进一步找到希望的数据。 元数据定义了语义层,实现了业务模型和数据模型之间的对应 在企业当前的信息系统中,使用者往往不能充分利用系统所提供的数据。

(ETL)ETL架构师面试题(转载)

懵懂的女人 提交于 2020-03-17 11:54:42
1. What is a logical data mapping and what does it mean to the ETL team? 什么是逻辑数据映射?它对ETL 项目组的作用是什么? 答:逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的格式保存如下的信息: 目标表名: 目标列名: 目标表类型:注明是事实表、维度表或支架维度表。 SCD类型:对于维度表而言。 源数据库名:源数据库的实例名,或者连接字符串。 源表名: 源列名: 转换方法:需要对源数据做的操作,如Sum(amount)等。 逻辑数据映射应该贯穿数据迁移项目的始终,在其中说明了数据迁移中的ETL策略。在进行物理数据映射前进行逻辑数据映射对ETL项目组是重要的,它起着元数据的作用。项目中最好选择能生成逻辑数据映射的数据迁移工具。 2. What are the primary goals of the data discovery phase of the data warehouse project? 在数据仓库项目中,数据探索阶段的主要目的是什么? 答:在逻辑数据映射进行之前,需要首先对所有的源系统进行分析。对源系统的分析通常包括两个阶段,一个是数据探索阶段(Data

大数据学习day39----数据仓库02------1. log4j 2. 父子maven工程

痞子三分冷 提交于 2020-03-14 01:54:57
1. log4j(具体见log4j文档)   log4j是一个java系统中用于输出日志信息的工具。log4j可以将日志定义成多种级别:ERROR / WARN / INFO / DEBUG   log4j通过获取到一个logger对象来输出日志: val logger = Logger.getLogger("logger名称"); logger.info("日志内容")   所拿到的这些logger对象之间是有“父子”关系的,所有logger都是rootLogger的子!    "org.apache" 这个名字的logger是 "org"这个名字的logger的子! log4j的日志输出格式和目的地,都是可以通过参数配置的; 目的地的控制用Appender输出组件 常用的Appender组件: log4j.appender.xx=org.apache.log4j.ConsoleAppender log4j.appender.rollingFile=org.apache.log4j.RollingFileAppender 格式的控制用LayOut布局组件 log4j.appender.xx.layout=org.apache.log4j.PatternLayout log4j.appender.xx.layout.ConversionPattern=[%-5p] %d(%r) -

数据仓库常见面试问题

牧云@^-^@ 提交于 2020-03-10 10:47:25
一、 数据库 1、 Oracle数据库,视图与表的区别?普通视图与物化视图的区别?物化视图的作用?materialized view 答:a:视图是虚拟表,提高了表的安全性,视图没有实际物理空间,而表有实际存储的物理空间 b:物化视图存储了实实在在的数据,而普通视图之存储了定义 c:物化视图的优点像索引一样,提高查询性能。当基表发生变化时,物化视图也应当刷新。 物化视图是数据库中的一种存储数据的对象,和表一样,存储了数据。用于预先计算并保存表连接或者聚集等耗时较多的操作。这样,在执行查询的时候,就可以避开连接、聚集等耗时的操作,从而快速的得到结果。它可以查询表,视图甚至是其他物化视图中的数据。和视图不同的是,它存储了实实在在的数据,而视图只是存储了定义而已,所以,也是可以在物化视图上创建索引的。物化视图在很多方面,和索引很相似:使用它的主要目的是为了提高查询性能;物化视图对应用是透明的,增加或者删除物化视图不会影响应用程序中查询语句的正确性和有效性;物化视图会占用存储空间;当基表发生变化时,物化视图也应当刷新。通常情况下,物化视图被称为主表(在复制期间)或者明细表(在数据仓库中)。 2、 Oracle数据库,有哪几类索引,分别有什么特点? 答:三类索引 a:B树索引 b:文本索引 c:位图索引 3、 Union与Union All的区别? Union 会去掉重复,效率比 union

数据仓库系统 体系结构

梦想的初衷 提交于 2020-03-09 12:30:21
数据源: 数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于关系型数据库RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;目前,我们的数据仓库的数据源主要是内部信息,也就是来源于各个信息系统下的关系型数据库。 数据的存储与管理: 整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。装载入数据仓库。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。 OLAP服务器: 对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中 前端工具: 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库 来源: https://www.cnblogs.com/weiying121/p/9033683.html