数据仓库

数据仓库之抽取数据:通过openrowset执行存储过程

▼魔方 西西 提交于 2019-12-10 23:46:19
原文: 数据仓库之抽取数据:通过openrowset执行存储过程 在做数据仓库时,最重要的就是ETL的开发,而在ETL开发中的第一步,就是要从原OLTP系统中抽取数据到过渡区中,再对这个过渡区中的数据进行转换,最后把经过处理的干净的数据加载到数据仓库中。 目标数据库是sql server,通过openrowset函数调用存储过程,但是存储过程中不能带参数。 1、开启即席查询 --修改高级参数sp_configure 'show advanced options',1go--允许即席分布式查询sp_configure 'Ad Hoc Distributed Queries',1go--如果配置的值不在合理范围(在最小值最大值范围内),那么可以强制覆盖reconfigure with override go 2、调用存储过程 这种用法最大的好处时,能把存储过程执行的结果select 出来,如果前面写上insert ,就可以插入到表中,非常方便。 但是局限性也很明晰,就是存储过程不能带参数。 在用openrowset函数时,注意参数格式,以及参数之间的字符的格式。 SELECT * FROM OPENROWSET('SQLOLEDB', 'Server=PC0627JVC\MSSQLSERVER2008;Trusted_Connection=yes;database=master',

大数据Hive和Spark究竟是凭借什么优势而大获成功?

て烟熏妆下的殇ゞ 提交于 2019-12-10 07:22:23
什么是Hive? Hive是在Hadoop分布式文件系统上运行的开源分布式数据仓库数据库,用于查询和分析大数据。数据以表格的形式存储(就像关系数据库管理系统一样)。数据操作可以使用名为HiveQL的SQL接口来执行。Hive在Hadoop之上引入了SQL功能,使其成为一个水平可扩展的数据库,是DWH环境的绝佳选择。 Hive发展史掠影 Hive(即后来的Apache)最初是由Facebook开发的,开发人员发现他们的数据在几天内出现了从GBs到TBs的指数级增长。当时,Facebook使用Python将数据加载到RDBMS数据库中。因为RDBMS数据库只能垂直伸缩,很快就面临着性能和伸缩性问题。他们需要一个可以水平伸缩并处理大量数据的数据库。Hadoop在当时已经很流行了;不久之后,构建在Hadoop之上的Hive出现了。Hive与RDBMS数据库类似,但不是完整的RDBMS。 为什么选择Hive? 选择Hive的核心原因是它是运行在Hadoop上的SQL接口。此外,它还降低了MapReduce框架的复杂性。Hive帮助企业在HDFS上执行大规模数据分析,使其成为一个水平可伸缩的数据库。它的SQL接口HiveQL使具有RDBMS背景的开发人员能够构建和开发性能、使拓展的数据仓库类型框架。 Hive特性和功能 Hive具有企业级的特性和功能,可以帮助企业构建高效的高端数据仓库解决方案

『小洑谈工业智能专栏系列』之一:5分钟快速看懂大数据

断了今生、忘了曾经 提交于 2019-12-10 06:49:08
随着时代的发展,存储、计算和处理技术手段的跃进可以使得人们运用更跳跃的想象,从更多维的视角对研究对象提出更野心的诉求。 大数据之“大” “大数据”之“大”并不在于数据量绝对意义上的“大”,而是相对于“部分采样”只能采用部分数据量的情况,“大数据”时代允许研究人员可以利用研究对象尽可能多的数据,甚至是所有的数据针对研究对象进行分析。 此前数百年的科技、财力和人力限制,很多调查并不能涉及到所有的调查对象,故而随机采用被广泛运用各行各业,如电视节目收视率调查、街头路人采访、民调指数调查、工业产品质量抽检、行业调研等,“部分采样”的思路已经习以为常,被大家奉为圭臬,导致很多在此前数十年堪称标准的思想: 1.变量少,低维度: 如因为计算能力的受限,变量不能太多,所以做事要分清主要矛盾和次要矛盾,尽可能地专注于参量较少的主要矛盾; 2.测量精确: 因为模式变量较少以及采样样本较少,故而对测量精确性有着近乎严苛的要求,因为测量的不精确度会被成倍地放大; 3.因果推断: 但是有时候和第二点矛盾的是,相比于在测量时务求精确,无论是传统工业界或是学术界都对直接复杂输出结果的数学模型的准确性没有多少要求,却专注其可适范围尽可能广。 但是相比于数理领域的至简至洁的逻辑美感,其他领域一个模型吃遍所有定义域的这种表现形式会给人造成强烈的因果关系错觉,并将结果的偏离归结于现实环境的不确定性和噪声干扰

BI&ETL&OLTP之概念熟悉

怎甘沉沦 提交于 2019-12-10 03:50:16
最近在了解BI方面知识,因为主要关注与数据仓库方面,有关基本概念先学习下:) BI 确切地讲,BI并不是一项新技术,它将数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等技术与客户关系管理(CRM)等结合起来 应用于商业活动实际过程当中,实现了技术服务于决策的目的;Mark Hammond从管理的角度看待BI,认为BI是从“根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或者知识),并且在恰当的时间通过恰 当的手段把恰当的信息传递给恰当的人”。 ETL ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要环节。数据仓库是面向主题 的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。数据仓库系统中有可能存在着大量的噪声数据,引起的主要原因有:滥用 缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化等。即便是一个设计和规划良好的数据库系统,如果其中存在着大量的噪声数据,那么这个系统也是 没有任何意义的,因为“垃圾进,垃圾出”(garbage in, garbage out),系统根本就不可能为决策分析系统提供任何支持。为了清除噪声数据,必须在数据库系统中进行数据清洗。目前有不少数据清洗研究和ETL研究,但是 如何在ETL过程中进行有效的数据清洗并使这个过程可视化

大数据学习路线是怎么样的?

与世无争的帅哥 提交于 2019-12-09 16:39:54
1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此阶段可解决的现实问题: 搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服务; 学完此阶段可拥有的市场价值: 具备初级程序员必要具备的Linux服务器运维能力。 1.内容介绍: 在大数据领域,使用最多的操作系统就是Linux系列,并且几乎都是分布式集群。该课程为大数据的基础课程,主要介绍Linux操作系统、Linux常用命令、Linux常用软件安装、Linux网络、防火墙、Shell编程等。 2.案例:搭建互联网高并发、高可靠的服务架构。 2.离线计算系统课程阶段 1. 离线计算系统课程阶段 hadoop核心技术框架 学完此阶段可掌握的核心能力: 1、通过对大数据技术产生的背景和行业应用案例了解hadoop的作用;2、掌握hadoop底层分布式文件系统HDFS的原理、操作和应用开发;3、掌握MAPREDUCE分布式运算系统的工作原理和分布式分析应用开发;4、掌握HIVE数据仓库工具的工作原理及应用开发。 学完此阶段可解决的现实问题: 1、熟练搭建海量数据离线计算平台;2、根据具体业务场景设计、实现海量数据存储方案;3

(十一)Hive数据仓库的使用

佐手、 提交于 2019-12-09 12:54:23
目录 一、目的及要求: 目的: 要求: 二、环境要求: 所需环境: 集群规划: 三、详细步骤: 步骤一:启动 步骤二:数据仓库的使用 1、查看表信息 2、hive常用命令 3、Hive的数据模型_内部表; 4、Hive的数据模型_分区表 5、Hive的数据模型_外部表 6、Hive的数据模型_桶表 7、Hive的数据模型_视图 四、总结 一、目的及要求: 目的: 掌握数据仓库Hive的使用 要求: 1. 掌握数据仓库Hive的使用; 2.能够正常操作数据库、表、数据。 二、环境要求: 所需环境: 五台独立PC式虚拟机; 主机之间有有效的网络连接; 每台主机内存2G以上,磁盘剩余空间500M以上; 所有主机上安装CentOS7-64位操作系统; 已完成Hadoop平台的搭建; 已完成MySQL数据库平台的搭建; 已完成Hive数据仓库的安装。 集群规划: 主机名 IP 地址 服务描述 Cluster-01 192.168.10.111 MC 管理节点 Cluster-02 192.168.10.112 MC 数据服务节点 Cluster-03 192.168.10.113 MC 数据服务节点 Cluster-04 192.168.10.113 MC SQL 服务节点 Cluster-05 192.168.10.114 MC SQL 服务节点 三、详细步骤: 步骤一:启动 Hadoop

数据仓库与ODS

最后都变了- 提交于 2019-12-09 12:27:49
1. 引言 本篇主要讲述操作数据存储(ODS)系统产生的背景、定义、特点,以及它与数据仓库的区别。 在前两篇,笔者介绍了什么是数据仓库?为什么需要数据仓库?数据仓库系统的体系结构是什么?因此可能在读者心里已经形成了企业数据存储的DB~DW两层体系结构的概念,但在实际应用中,并不总是这样,有时候我们可能需要ODS这一系统来搭建DB~ODS~DW三层数据体系,那么什么是ODS?为什么需要ODS?ODS与DW的区别又是什么?下面将在第2-6节介绍ODS的理论知识,在第7节以电信运营商为例介绍ODS的实际应用。由于是学习心得,如有错误或者不严谨的地方,希望读者批评指正。 2. ODS产生的背景 人们对数据的处理行为可以划分为操作型数据处理和分析型数据处理,操作型数据处理一般放在传统的 数据库 ( Database,DB )中进行,分析型数据处理则需要在 数据仓库 ( Data Warehouse,DW )中进行。但是并不是所有的数据处理都可以这样划分,换句话说,人们对数据的处理需求并不只有这两类,比如,有些操作型处理并不适合放在传统的数据库上完成,也有些分析型处理不适合在数据仓库中进行。这时候就需要第三种数据存储体系, 操作数据存储 ( Operational Data Store,ODS )系统就因此产生。它的出现,也将 DB~DW 两层数据架构转变成 DB~ODS~DW 三层数据架构。

OLTP和 OLAP区别

天涯浪子 提交于 2019-12-08 08:30:30
联机事务处理OLTP(on-line transaction processing) 主要是执行基本日常的事务处理,比如数据库记录的增删查改。比如在银行的一笔交易记录,就是一个典型的事务。 OLTP的特点一般有: 1.实时性要求高。我记得之前上大学的时候,银行异地汇款,要隔天才能到账,而现在是分分钟到账的节奏,说明现在银行的实时处理能力大大增强。 2.数据量不是很大,生产库上的数据量一般不会太大,而且会及时做相应的数据处理与转移。 3.交易一般是确定的,比如银行存取款的金额肯定是确定的,所以OLTP是对确定性的数据进行存取 4.高并发,并且要求满足ACID原则。比如两人同时操作一个银行卡账户,比如大型的购物网站秒杀活动时上万的QPS请求。 联机分析处理OLAP(On-Line Analytical Processing) 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。典型的应用就是复杂的动态的报表系统。 OLAP的特点一般有: 1.实时性要求不是很高,比如最常见的应用就是天级更新数据,然后出对应的数据报表。 2.数据量大,因为OLAP支持的是动态查询,所以用户也许要通过将很多数据的统计后才能得到想要知道的信息,例如时间序列分析等等,所以处理的数据量很大; 3.OLAP系统的重点是通过数据提供决策支持,所以查询一般都是动态,自定义的

数据仓库介绍

房东的猫 提交于 2019-12-08 08:30:30
面向业务的数据库常叫 OLTP(on-line transaction processing)面向 分析的数据仓库常叫OLAP(On-Line Analytical Processing),区别见 : https://www.cnblogs.com/hongfeng2019/p/12004551.html 一个交易流程包括多个事务,比如定单 ,支付 等,比如购物篮的分析 ,比如做了一次活动后的分析,比如拉新转换率有多高, 这些都是面向场景的分析。还有支持决策的分析,如BI 来源: https://www.cnblogs.com/hongfeng2019/p/12004552.html