Warehouse

数据仓库之数据分析

余生颓废 提交于 2021-02-18 07:19:12
1. 数据仓库基本介绍   英文名称为 Data Warehouse ,可简写为DW或DWH。数据仓库的目的是 构建面向分析的集成化数据环境 ,为企业提供 决策支持 (Decision Support)。它出于分析性报告和决策支持目的而创建。   数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。 2. 数据仓库的定义   数据仓库是 面向主题的 (Subject-Oriented )、 集成的 (Integrated)、 稳定性的 (Non-Volatile)和 时变的 (Time-Variant )数据集合,用以支持管理决策。 2.1、面向主题   数据仓库中的数据是按照一定的主题域进行组织。   主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 2.2、集成性   根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,最终集成到数据仓库中。 2.3、稳定性   数据的相对稳定性,数据仓库中的数据只进行新增,没有更新操作、删除操作处理。   反映历史变化,以查询分析为主。 2.4、时变性   数据仓库的数据一般都带有时间属性,随着时间的推移而发生变化,不断地生成主题的新快照 4.

AkShare-期货数据-仓单日报-上海期货交易所

99封情书 提交于 2021-02-17 08:42:25
作者寄语 本接口提供上海期货交易所的仓单日报数据 更新接口 "futures_shfe_warehouse_receipt" # 上海期货交易所的仓单日报数据 仓单日报 仓单日报-上海期货交易所 接口: futures_shfe_warehouse_receipt 目标地址: http://www.shfe.com.cn/statements/dataview.html?paramid=dailystock&paramdate=20200703 描述: 提供上海期货交易所指定交割仓库期货仓单日报 限量: 单次返回当前交易日的所有仓单日报数据 输入参数 名称 类型 必选 描述 trade_date str Y trade_date="20200702"; 交易日 输出参数 名称 类型 默认显示 描述 键值对字典 dict Y 键值对, 键为品种代码, 值为 pandas.DataFrame 格式的数据 接口示例 import akshare as ak futures_shfe_warehouse_receipt_df = ak.futures_shfe_warehouse_receipt(trade_date= "20200702" ) print(futures_shfe_warehouse_receipt_df) 数据示例 { '线材' : VARNAME VARSORT

Hive安装及部署

血红的双手。 提交于 2021-02-16 22:04:14
1.Hive 安装及配置 (1)解压安装包到安装目录。    (2) 修改 apache-hive-1.2.1-bin.tar.gz 的名称为 hive。    (3) 修改 /opt/module/hive/conf 目录下的 hive-env.sh.template 名称为 hive-env.sh:$ mv hive-env.sh.template hive-env.sh (4) 配置 hive-env.sh 文件   ( a )配置 HADOOP_HOME 路径     export HADOOP_HOME=/opt/module/hadoop-2.7.2   ( b )配置 HIVE_CONF_DIR 路径     export HIVE_CONF_DIR=/opt/module/hive/conf 2.Hadoop 集群配置 ( 1 )必须启动 hdfs 和 yarn    $ sbin/start-dfs.sh   $ sbin/start-yarn.sh ( 2 )在 HDFS 上创建 /tmp 和 /user/hive/warehouse 两个目录并修改他们的同组权限可写   $ bin/hadoop fs -mkdir /tmp   $ bin/hadoop fs -mkdir -p /user/hive/warehouse   $ bin/hadoop fs

PlanetTogether APS安装与配置

别来无恙 提交于 2021-02-09 08:18:34
一、 PT 安装 1、PT Server与Client的下载 下载网址: https://download.planettogether.com/ 2、 安装 .net framework 4.6.2 安装 PT Server与PT 客户端,前提是安装.net framework4.6.2(文件名:NDP462-KB3151800-x86-x64-AllOS-ENU),下载链接为: https://www.microsoft.com/zh-cn/download/details.aspx?id=53345 ;如果是在 Windows Server2012的系统下安装.net framework4.6.2需要安装更新KB2919355,可以在控制面板中检查更新并安装对应的更新,也可以在网站下载(下载网址: https://www.microsoft.com/en-us/download/details.aspx?id=42334 ),离线安装,这个更新大小为 690M,安装比较慢;然而安装KB2919355的先决条件是需要先安装更新KB2919442(下载网址: https://www.microsoft.com/en-us/download/details.aspx?id=42153 ),否则有可能安装 KB2919355提示“此更新不适用你的计算机”;确保安装上.net

我所经历的大数据平台发展史-上篇 非互联网时代 1

荒凉一梦 提交于 2021-01-31 11:19:53
备注:本文是面向数据领域的一篇专业文章,里面有大量的专有术语,阅读完大约需要15分钟左右. 前言,这个数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆,文章引用了历史项目&平台规划架构,在这里不做更深入描述。 我是从2000年开始接触数据仓库,大约08年开始进入互联网行业,那时在互联网接触到数据平台与传统第三代数据架构还是有很大的类似之处,随着互联网的突飞猛进,每一次的技术变革都带来一场从技术、架构、业务的渐进式变革,到今天互联网、非互联网的数据平台架构已经差异非常大。 回顾早期的企业环境,企业的生产与服务是一个很长周期,导致业务数据呈现一种粗粒度模式。随着互联网的快速渗透从早期的PC终端到“裆下“的 移动终端,对用户的需求与服务周期将逐渐的缩短,业务量级、数据类型多样化与存储的暴增,对应着技术、架构、业务呈现出迅猛发展,相应的数据沉淀与积累也成指数暴涨。 从”数据仓库“ 词开始到现在的“大数据”,中间经历了太多的知识、架构模式的演进与变革,比如说“数据仓库、海量数据、大数据”等。(备注:数据仓库一般指的是:在相当长的时间内堆积数据,仅仅需要处理大量数据请求中的少部分的系统。数据仓库不等同于“海量数据” 。恰恰相反,而是其子集。海量数据也包含:通过大量的连接提供每秒百万次服务请求的系统。大数据是海量数据+复杂类型数据基础上的大分析、高宽带、大内容)。

【原创】大数据基础之ETL vs ELT or DataWarehouse vs DataLake

百般思念 提交于 2021-01-30 02:51:16
ETL ETL is an abbreviation of Extract, Transform and Load. In this process, an ETL tool extracts the data from different RDBMS source systems then transforms the data like applying calculations, concatenations, etc. and then load the data into the Data Warehouse system. In ETL data is flows from the source to the target. In ETL process transformation engine takes care of any data changes. ELT ELT is a different method of looking at the tool approach to data movement. Instead of transforming the data before it's written, ELT lets the target system to do the transformation. The data first copied

使用设计模式出任CEO迎娶白富美(3)--一番对单例模式的讲解让老板熨帖

ⅰ亾dé卋堺 提交于 2021-01-15 11:03:15
面试阵容 第二天,陈二毛如约来到公司参加面试,但见公司名称:沃特搜古德。啥意思,二毛一脸懵。 前台妹子还是比较漂亮的,白白净净,让二毛顿生好感。 恋恋不舍的坐在前台妹子安排的面试房间,二毛打量了下公司,但见:窗明几净,灯光明亮,嗯不错。 过了一会进来几个人,一个是老猫,坐一边,一个干练的女性,坐一边,另一个颇为威严的中年,坐中间。毫无悬念,老猫是软件部老大需要过来,中间的肯定是老板,旁边的应该是人力资源。 单刀直入 开始是老猫不痛不痒的问了几个基础的计算机常识,例如C语言形参实参啊、Http请求方式啊、做过的项目啊,由于昨天晚上准备了,二毛答的还可以。 然后突然老板就开始问了一句:熟不熟悉设计模式。 果然来了!二毛直接硬气回答:那还是比较熟悉的。 老板又问,单例模式的应用场景说说,二毛那个激动啊,昨天晚上看书有点蒙圈,但是第一个看到的单例模式印象还是很深刻的。 单例模式应用场景 二毛开始回答,以咱们公司来说吧: 单例模式能保证公司只有一个财务部可以出钱。 单例模式能保证公司只有仓储可以存储待发货设备。 单例模式可以保证公司只有一个电源总开关,控制整个公司的设备。 营业执照也是单例,相当于公司在国家的企业信息库注册了一个单例。 法律合规的老婆也是单例,也就是说婚姻法的一个重要目的就是实现配偶的单例,以便实现配偶资源的合理配置。 哈哈…,最后一个案例是二毛的神来之笔

阿里下一代云分析型数据库AnalyticDB入选Forrester云化数仓象限

不打扰是莪最后的温柔 提交于 2021-01-06 20:55:44
前言 近期, 全球权威IT咨询机构Forrester发布"The Forrester Wave: CloudData Warehouse Q4 2018"研究报告, 阿里巴巴分析型数据库(AnalyticDB) 成功入选。 AnalyticDB作为阿里巴巴自主研发的PB级实时云数据仓库,全面兼容MySQL协议以及SQL:2003 语法标准,可以毫秒级针对万亿级数据进行即时的多维分析透视和业务探索,帮客户将整个数据分析和价值化从传统的离线分析带到下一代的在线实时分析模式。本文将深入解读AnalyticDB成功入选背后的核心产品以及带来的客户价值。 核心能力一:快和实时 分析型数据库AnalyticDB在瞬间即可对万亿级别的数据进行实时的多维度分析透视,快速发现数据价值。AnalyticDB对复杂SQL查询速度相比传统的关系型数据库快10倍,此外,AnalyticDB还可以快速扩容至数千节点的超大规模,进一步提升查询响应速度。三大模块合力构筑了远远领先竞争对手的性能优势: 智能SQL优化器 :针对复杂的SQL查询,AnalyticDB的SQL Optimizer 实现了多种查询改写优化,同时依据统计信息选择JOIN ORDERING最优路径,并支持 CTE 归并等功能。同时针对高并发低延迟查询,提供智能的 Plan cache,将相似SQL Pattern 计划都缓存起来

阿里下一代云分析型数据库AnalyticDB入选Forrester云化数仓象限

徘徊边缘 提交于 2021-01-06 20:55:30
摘要: 近期, 全球权威IT咨询机构Forrester发布"The Forrester Wave: CloudData Warehouse Q4 2018"研究报告,阿里巴巴分析型数据库(AnalyticDB)成功入选。 前言 近期, 全球权威IT咨询机构Forrester发布"The Forrester Wave: CloudData Warehouse Q4 2018"研究报告, 阿里巴巴分析型数据库(AnalyticDB) 成功入选。 AnalyticDB作为阿里巴巴自主研发的PB级实时云数据仓库,全面兼容MySQL协议以及SQL:2003 语法标准,可以毫秒级针对万亿级数据进行即时的多维分析透视和业务探索,帮客户将整个数据分析和价值化从传统的离线分析带到下一代的在线实时分析模式。本文将深入解读AnalyticDB成功入选背后的核心产品以及带来的客户价值。 核心能力一:快和实时 分析型数据库AnalyticDB在瞬间即可对万亿级别的数据进行实时的多维度分析透视,快速发现数据价值。AnalyticDB对复杂SQL查询速度相比传统的关系型数据库快10倍,此外,AnalyticDB还可以快速扩容至数千节点的超大规模,进一步提升查询响应速度。三大模块合力构筑了远远领先竞争对手的性能优势: 智能SQL优化器 :针对复杂的SQL查询,AnalyticDB的SQL Optimizer

【收藏】关于元数据(Metadata)和元数据管理,这是我的见过最全的解读!

耗尽温柔 提交于 2020-12-24 17:49:49
本文主要从元数据的定义、作用、元数据管理现状、管理标准和元数据管理功能等方面讲述了我对元数据(Metadata)和元数据管理的认知及理解。 元数据管理 一、元数据的定义 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息: 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容; 业务系统、数据仓库和数据集市的体系结构和模式; 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告; 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。 业务元数据 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息