Greenplum DB

GreenPlum数据库安装

随声附和 提交于 2020-10-01 19:27:00
第一章 文档概述 本文描述适用于Greenplum4.0以上版本的安装操作。所涉及到的操作系统相关参数调整,主要针对Redhat Linux操作系统。 第二章 安装介质   操作系统:CentOS release 6.5 (Final)。   Greenplum安装版本:greenplum-db-4.3.8.1-build-2-RHEL5-x86_64.zip 第三章 安装前准备 3.1、网络规划 建议在Greenplum数据库系统安装之前,把网络配置规划好 3.2、存储空间规划 首先,需要评估目标数据库数据所需要的空间容量。建议了解客户搭建Greenplum数据库的具体应用。 举例:估计数据库所需空间为U,数据库需要启用Mirror,磁盘阵列总可用空间为D(Raid之后)。空间规划服务和如下公式: 2 * U + U / 3 = D * 70% 磁盘空间D平均分配到各个Segment服务器上。 Master需要相应的空间。使用服务器内置硬盘的计算方式类似。 3.3、数据库实例规划 规划每个Segment服务器上建立的数据库实例的数量(instance数量),通常建议每2个CPU内核(core)对应一个数据库实例 第四章 操作系统设置 4.1 、设置主机名   修改各台主机的主机名称。一般建议的命名规则如下: Master:mdw Standby Master:smdw

Greenplum安装

*爱你&永不变心* 提交于 2020-08-12 10:35:24
Greenplum安装 评估存储能力 计算可用的空间 步骤1:初始存储能力=硬盘大小*硬盘数 步骤2:配置RAID10,格式化磁盘空间=(初始存储能力*0.9)/2 步骤3:可用磁盘空间=格式化磁盘空间*0.7 步骤4:用户数据使用空间 使用镜像:(2*用户数据)+用户数据/3=可用磁盘空间 不使用镜像:用户数据+用户数据/3=可用磁盘空间 计算用户数据大小 平均来说,实际占用磁盘空间大小=用户数据*1.4 页面开销:32KB页面需要20 bytes 行开销:每行24 bytes,'append-only'表需要4bytes 索引开销: B-tree:唯一值*(数据类型大小+24bytes) Bitmap:(唯一值*行数*1bit*压vi缩比率/8)+(唯一值*32) 为元数据和日志计算空间需求 系统元数据:20M 预写日志(WAL):WAL被拆分成多个64M的文件,WAL文件数最多为 2*checkpoint_segments+1,checkpoint_segments默认值为8。也就意味着每个实例需要1088MB的WAL空间 GP数据库日志文件:日志轮转 性能监控数据 实验环境 硬件环境 VMware虚拟机软件10.0 三台Linux虚拟机:Red Hat Enterprise Linux Serverrelease 5.42 数据库:greenplum-db-4.2.8.0

【大数据之数据仓库】GreenPlum PK DeepGreen(TPCH)

浪子不回头ぞ 提交于 2020-04-27 04:04:27
1.背景 一张UML类图可以简单的说明GreenPlum和DeepGreen之间的关系: GreenPlum: 主页: http://greenplum.org/ 源码:开源, https://github.com/greenplum-db/gpdb , DeepGreen: 主页: http://vitessedata.com/deepgreen-db 源码:不开源,安装包: http://vitessedata.com/deepgreen-db-download DeepGreen官方宣传的优势: 事实是否如此呢? 2.测试 在 10GB数据集 下的测试结果如下: DeepGreen比GreenPlum快,基本符合预期,至于快多少倍,我们暂不关心,毕竟10GB的容量对于数据仓库来讲太小了。 在 1TB数据集 下的测试结果如下: 大部分sql都是DeepGreen比GreenPlum快,但是3、5、17都是GreenPlum快, 不符合预期! 3.分析 我在附件中贴上了第1和第3两个sql的explain以及DDL,大家感兴趣的话可以对比下,能发现一些有趣的东西:) 我们关心的是为什么DeepGreen会比GreenPlum慢!? 我们以第3个sql来进行分析。 照着explain文件逐行分析比对数据总结成如下两个执行计划图,左边是GreenPlum的执行计划

【干货】在docker中安装配置Greenplum集群的过程

别等时光非礼了梦想. 提交于 2020-04-11 19:37:37
—— 原文发布于本人的微信公众号“大数据与人工智能Lab”(BigdataAILab),欢迎关注。 Greenplum是一个MPP(海量并行处理)计算框架的分布式数据库,其数据库引擎层是基于著名的Postgresql数据库,企业级数据库产品,现已开源。Greenplum拥有丰富的特性,包括: 1、完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展,支持ODBC和JDBC 2、支持分布式事务,支持ACID 3、支持行存储、列存储,以及可通过外部表的方式访问其它关系型数据库或者Hadoop 4、拥有良好的线性扩展能力,支持上千个节点 Greenplum的体系架构如下: master节点可实现主备高可用,避免单点故障;segments节点分散存放数据,数据作多副本保存,可进行数据的并行查询和操作,非常高效。 下面描述在docker中安装配置greenplum集群的过程 一、安装docker 本人手上只有一台笔记本,安装了Ubuntu操作系统,为了方便安装测试greenplum集群,在Ubuntu操作系统上安装docker,然后创建多个容器构建出一个greenplum集群。 1、安装docker sudo apt-get install docker 2、拉取centos镜像 docker pull centos:latest 3、创建容器