数据仓库

大数据时代Hadoop的本质,你有过认真了解吗

你。 提交于 2019-12-21 15:30:49
​除非你过去几年一直隐居,远离这个计算机的世界,否则你不可能没有听过Hadoop,全名Apache Hadoop,是一个在通用低成本的硬件上处理存储和大规模并行计算的一个开源框架,Hadoop本质的12点介绍,具体如下: 1.hadoop是由多个产品组成的。 人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的产品共同组成。 Russom说:“Hadoop是一系列开源产品的组合,这些产品都是Apache软件基金会的项目。” 一提到Hadoop,人们往往将其与MapReduce放在一起,但其实HDFS和MapReduce一样,也是Hadoop的基础。 2.Apache Hadoop是开源技术,但专有厂商也提供Hadoop产品。 由于Hadoop属于开源技术,可免费下载,所以IBM、Cloudera和EMC Greenplum等厂商都可以推出他们各自的Hadoop特别发行版本。 这些特别发行版本一般都会有一些附加特性,比如高级管理工具及相关的支持维护服务。有人可能对此嗤之以鼻:既然开源社区是免费的,那么我们为什么还要为它的服务付费?Russom解释道,这些版本的HDFS对一些IT部门更合适,特别是企业IT系统已经相对成熟的用户。 3.Hadoop是一个生态系统,而非一个产品。 Hadoop是由开源社区和各个厂商共同开发和推动的。具体说来

数仓知识06_数仓的三层结构和三种模型

谁说我不能喝 提交于 2019-12-21 05:02:12
(一)、三层结构 (1)底层:仓库数据库服务器(基本是一个关系型数据库) 由ods或者其他外部数据源提取数据,放入底层。ETL工具和程序进行数据提取、数据清洗和变换(例如:将来自不同数据源的数据合并成一致的格式),已经装入和刷新,以更新数据仓库。 数据提取方式:信关程序 a.信关(使用后端程序或者工具提取数据):信关由DBMS支持,允许产生SQL代码 例如:微软的ODBC(开放数据库连接)、OLE-DB(数据库开放链接和嵌入)、JDBC(java数据库连接) (2)中间层:OLAP服务器 关系OLAP:扩充的关系DBMS,将多维数据上的操作映射为标准的关系操作。 多维OLAP:专门的服务器,他直接实现多维数据和操作。 (3)顶层:前端客户层 包括查询和报告工具、分析工具和数据挖掘工具(例如趋势分析和预测) 或者你可以理解成下面结构的数据仓库和数据集市 (二).三种模型 从结构的角度看,有三种数据仓库模型:企业仓库、数据集市和虚拟仓库 (1)企业仓库(enterprise data warehouse简称:EDW) 搜集了关于主题的所有信息,跨越整个企业。提供企业范围内的数据集成,通产来自一个或者多个操作数据库系统或者外部信息提供者。 (2)数据集市(data mart简称:DM) 包含企业数据的一个子集,对于特定的用户群有用。范围是限于选定的主题例如:销售数据集市可以限定主题为顾客

HIVE-数据仓库

99封情书 提交于 2019-12-21 03:29:02
转自: https://www.cnblogs.com/sdifens/p/10297625.html 1.1.1 hive是什么? Hive是基于 Hadoop 的一个数据仓库工具: hive本身不提供数据存储功能,使用HDFS做数据存储; hive也不分布式计算框架,hive的核心工作就是把sql语句翻译成MR程序; hive也不提供资源调度系统,也是默认由Hadoop当中YARN集群来调度; 可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。 1.1.2 hive和Hadoop关系 Hive利用HDFS存储数据,利用MapReduce查询数据,聚合函数需要经过MapReduce,非聚合函数直接读取hdfs块信息,不通过MapReduce。 1.1.3 hive特点 可以将结构化的数据文件映射为一张数据库表(二维表),并提供类SQL查询功能 可以将sql语句转换为MapReduce任务进行运行。Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。 Hive 在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS 中Hive 设定的目录下,因此,Hive 不支持对数据的改写和添加,所有的数据都是在加载的时候确定的。

山东大学2019-2020年数据仓库期末回忆版

百般思念 提交于 2019-12-18 17:35:58
一、问答题 1、数据分析的基本步骤(6) 2、大数据4V 3、维度归约 4、DWH主要特征 5、数据流 6、离群点 二、OLAP星型模型+操作 三、数据仓库 1、体系结构 2、各层作用 3、数据集市定义 4、MOLAP工作原理 四、K-means聚类过程 五、FP树 构建和挖掘 六、决策树 1、实现思想,两种方法 2、对给定数据: (1)按(,,,)归约后数据形式 (2)数据集 (3)形成的规则 (4)判定设置节点的方法 七、推荐方法(用户/对象) 只复习一天的辣鸡考完后前来汇报,,, 数据挖掘最后一节课的复习总结课一定要好好听!全是精华!基本都有用!没有什么误导信息的! 复习最好提前一周开始,先大体按照老师说的重点整理一遍,然后细究算法,可以再额外补充一些课后题练习。 课后题答案之一: 链接 PPT页数太多不要怕,在正确的重点指挥下,一切都是纸老虎!olg! 考试时题计算比较基础,主要还是考察的思想。 答案对照和参考资料见下载 复习不完也还是不能放弃的,万一就刚好复习的都考了呢。(: 来源: CSDN 作者: Holly_Zhou 链接: https://blog.csdn.net/Holly_Zhou/article/details/103596529

山东大学2019-2020数据仓库与数据挖掘期末考试

折月煮酒 提交于 2019-12-18 14:06:56
山东大学2019-2020数据仓库与数据挖掘期末考试 一、 1.数据分析的步骤,每个步骤都干啥 2.数据仓库的特点,解释 3.大数据4v理论 4.数据流概念,难点是什么,解决方案的特点 5.检测离群点的四种方法 二、 1、给出三个维度(item,time,location)两个度量构建星型模型 2、想要得到2017第一季度的所有品牌销售状况,进行哪些olap操作 三、 1.数据仓库的体系结构图 2.解释每个层的作用 3.数据集市的定义 4.molap的原理 四、 给出几个点,进行k-means 列出每次的聚类结果 写出第三次聚类的详细过程 五、 Fp树的构建 寻找t的条件模式基 六、 决策树的思想、两种类型是什么 给出离散化的标准,列出符合某一个标准的数据集 将决策树转化为判断过程 给出一个条件,判断是否会购买(写过程) 树中有一个?,判断?应该是什么,说出理由 七、 给出abcdef几个商品,ABCDEF几个用户 给出F喜欢的商品abd,给出用户喜欢的商品列表 1.应该用哪种推荐算法,算法思想是什么 2.应该给F推荐哪个商品 题量很大,希望能帮到要考这门课的同学 By naggy 来源: CSDN 作者: Departuresna 链接: https://blog.csdn.net/Departuresna/article/details/103595931

[SQL]~ETL讲解

我的未来我决定 提交于 2019-12-16 04:52:45
ETL讲解(很详细!!!) ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。   ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。数据的抽取是从各个不同的数据源抽取到ODS(Operational Data Store,操作型数据存储)中——这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。ETL三个部分中,花费时间最长的是“T”(Transform,清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。数据的加载一般在数据清洗完了之后直接写入DW(Data Warehousing,数据仓库)中去。   ETL的实现有多种方法,常用的有三种。一种是借助ETL工具(如Oracle的OWB、SQL Server 2000的DTS、SQL Server2005的SSIS服务、Informatic等)实现,一种是SQL方式实现,另外一种是ETL工具和SQL相结合。前两种方法各有各的优缺点,借助工具可以快速的建立起ETL工程

一文读懂Apache Kylin(麒麟)

荒凉一梦 提交于 2019-12-16 00:10:58
“麒麟出没,必有祥瑞。”                               —— 中国古谚语 Kylin思维导图 前言 随着移动互联网、物联网等技术的发展,近些年人类所积累的数据正在呈爆炸式的增长,大数据时代已经来临。但是海量数据的收集只是大数据技术的第一步,如何让数据产生价值才是大数据领域的终极目标。Hadoop的出现解决了数据存储问题,但如何对海量数据进行OLAP查询,却一直令人十分头疼。 企业中的查询大致可分为即席查询和定制查询两种。之前出现的很多OLAP引擎,包括Hive、Presto、SparkSQL等,虽然在很大程度上降低了数据分析的难度,但它们都只适用于即席查询的场景。它们的优点是查询灵活,但是随着数据量和计算复杂度的增长,响应时间不能得到保证。而定制查询多数情况下是对用户的操作做出实时反应,Hive等查询引擎动辄数分钟甚至数十分钟的响应时间显然是不能满足需求的。在很长一段时间里,企业只能对数据仓库中的数据进行提前计算,再将算好后的结果存储在MySQL等关系型数据库中,再提供给用户进行查询。但是当业务复杂度和数据量逐渐升高后,使用这套方案的开发成本和维护成本都显著上升。因此,如何对已经固化下来的查询进行亚秒级返回一直是企业应用中的一个痛点。 在这种情况下,Apache Kylin应运而生。不同于“大规模并行处理”(Massive Parallel

oricle----稳定性

橙三吉。 提交于 2019-12-14 01:51:54
数据是按照一定的周期升级到数据仓库中,包括复杂的提取、概括、聚集和老化的过程。数据一旦进入数据仓库以后,在一般情况下会长期保留,也就是说数据仓库基本上是保留的,反映的是历史数据的内容,是不同时点的数据库快照的集合,以及通过这些快照的通过统计综合和重组所导出的数据,它所涉及的操作主要是查询操作,用户不能对其进行删除和更新一旦数据超过了数据仓库的存储期限,这些数据将从当前数据仓库中删去。 来源: CSDN 作者: fd2015 链接: https://blog.csdn.net/fd2015/article/details/103533324

数据仓库-shell脚本实现hive hdfs文件上传到目标ftp

主宰稳场 提交于 2019-12-11 04:14:29
总的来说就是一行一行的linux命令,组装起来就变成一个脚本了! #!/bin/bash cd /web/data/file/tmpjf rm -rf bm_jingfeng_export_zte_login_d_{Date_No}.txt rm -rf bm_jingfeng_export_cms_content_d_{Date_No}.txt rm -rf bm_jingfeng_export_channel_info_d_{Date_No}.txt rm -rf bm_jingfeng_export_stb_info_d_{Date_No}.txt #导出hdfs上面的文件到指定目录,date_no为批次 hadoop fs -getmerge hdfs://SH1/user/hive/warehouse/nginxlogdb.db/bm_jingfeng_export_zte_login_d/date_no={Date_No}/ /web/data/file/tmpjf/bm_jingfeng_export_zte_login_d_{Date_No}.txt hadoop fs -getmerge hdfs://SH1/user/hive/warehouse/nginxlogdb.db/bm_jingfeng_export_cms_content_d/date_no=

大数据存储框架之Hive概述

廉价感情. 提交于 2019-12-11 00:00:45
原文地址:http://www.blog.sun-iot.xyz/2019/12/10/bigdata/hive-interview/ 大数据存储框架之Hive概述 之前有写到HBase,那是老夫在开发过程中实际使用的一个存储数据库,HBase和Hive同样作为大数据存储中最优秀的两个存储框架,都有着彼此的优势,HBase更适合实时,Hive更适合离线。这里呢,就先简单的介绍一下HIve的基础架构以及Hive的一些基本安装步骤。 认识我们的主角Hive 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能(HQL)。 本质是:将HQL转化成MapReduce程序 如图所示: Hive处理的数据存储在HDFS Hive分析数据底层的实现是MapReduce 执行程序运行在Yarn上 Hive的优缺点 优点 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。 避免了去写MapReduce,减少开发人员的学习成本。 Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。 Hive优势在于处理大数据,对于处理小数据没有优势,因为Hive的执行延迟比较高。 Hive支持用户自定义函数