Apache HAWQ

基于【CentOS-7+ Ambari 2.7.0 + HDP 3.0】HAWQ数据仓库 使用之 gpfdist协议

旧时模样 提交于 2020-12-06 03:03:32
一、HAWQ基本安装自带gpfdist协议 gpfdist是HAWQ支持的外部表访问协议之一,这是hawq自带的一个简单的集成http服务命令。 在我的前述安装hawq之后,gpfdist命令位于hawq的bin目录之中。/opt/gpadmin/apache-hawq/bin/gpfdist gpfdist使用说明很简单,且看: [root@ep-bd01 ~]# /opt/gpadmin/apache-hawq/bin/gpfdist -- help gpfdist -- file distribution web server usage: gpfdist [ --ssl <certificates_directory>] [-d <directory>] [-p <http(s)_port>] [-l <log_file>] [-t <timeout>] [-v | -V] [-m <maxlen>][-c file ] gpfdist [ -? | --help] | -- version -?, -- help : print this screen - v : verbose mode -V : more verbose -p port : port to serve HTTP(S), default is 8080 -d dir : serve files

Presto——本质上是和spark内存计算框架一样 但不负责数据存储

别来无恙 提交于 2020-08-06 08:02:34
Presto入门介绍 有需要的自取~ 链接: https://h5.luezhi.com/app/index.php?i=2&c=entry&id=75880&do=yd_detail&saas_code=825611007YBD&m=saas_luezhi 1,Presto基本认识 1.1 定义 Presto是一个分布式的查询引擎,本身并不存储数据,但是可以接入多种数据源,并且支持跨数据源的级联查询。Presto是一个OLAP的工具,擅长对海量数据进行复杂的分析;但是对于OLTP场景,并不是Presto所擅长,所以不要把Presto当做数据库来使用。 和大家熟悉的Mysql相比:首先Mysql是一个数据库,具有存储和计算分析能力,而Presto只有计算分析能力;其次数据量方面,Mysql作为传统单点关系型数据库不能满足当前大数据量的需求,于是有各种大数据的存储和分析工具产生,Presto就是这样一个可以满足大数据量分析计算需求的一个工具。 1.2 数据源 Presto需要从其他数据源获取数据来进行运算分析,它可以连接多种数据源,包括Hive、RDBMS(Mysql、Oracle、Tidb等)、Kafka、MongoDB、Redis等 一条Presto查询可以将多个数据源的数据进行合并分析。 比如:select * from a join b where a.id=b.id;

基于【CentOS-7+ Ambari 2.7.0 + HDP 3.0】搭建HAWQ数据仓库——安装配置OPEN-SSH,设置主机节点之间免密互访

霸气de小男生 提交于 2020-04-25 07:52:10
配置root用户免密互访(为了方便,各台系统中使用统一的证书文件) 一、安装Open-SSH 1,查询系统中是否安装了openssh [root@]# opm -qa | grep ssh 如已安装,则列出下面类似的软件包 openssh-server- 7 .4p1- 16 .el7.x86_64 openssh - 7 .4p1- 16 .el7.x86_64 libssh2 - 1.4 . 3 - 10 .el7_2. 1 .x86_64 openssh -clients- 7 .4p1- 16 .el7.x86_64 如果没有列出openssh,则安装 [root@]# yum install openssh openssh-clients openssh-server- 7 -y 二,生成证书文件,或上传现有的证书,配置免密访问。 1,生成证书文件: 进入root用户ssh目录 [root@]# cd /root/. ssh ssh-keygen生成证书: ssh-keygen -t rsa -f id_rsa 注:本人是集群内各个主机节点都使用统一的证书文件,上传本地保存的证书文件id_rsa及id_rsa.pub 2,添加公钥到授权文件中 [root@]# cat hadoop_ssh_rsakey.pub >> authorized_keys 3,添加公钥到其他节点

数据运营者的福音:海量数据处理利器Greenplum

折月煮酒 提交于 2020-03-01 14:32:05
前言:近年来,互联网的快速发展积累了海量大数据,而在这些大数据的处理上,不同技术栈所具备的性能也有所不同,如何快速有效地处理这些庞大的数据仓,成为很多运营者为之苦恼的问题!随着Greenplum的异军突起,以往大数据仓库所面临的很多问题都得到了有效解决,Greenplum也成为新一代海量数据处理典型代表。本文结合个推数据研发工程师李树桓在大数据领域的实践,对处理庞大的数据量时,如何选择有效的技术栈做了深入研究,探索出Greenplum是当前处理大数据仓较为高效稳定的利器。 一、Greenplum诞生的背景 时间回到2002年,那时整个互联网数据量正处于快速增长期,一方面传统数据库难以满足当前的计算需求,另一方面传统数据库大多基于SMP架构,这种架构最大的一个特点是共享所有资源,扩展性能差,因此面对日益增长的数据量,难以继续支撑,需要一种具有分布式并行数据计算能力的数据库,Greenplum正是在此背景下诞生了。 和传统数据库的SMP架构不同,Greenplum主要基于MPP架构,这是由多个服务器通过节点互联网络连接而成的系统,每个节点只访问自己的本地资源(包括内存、存储等),是一种完全无共享(Share Nothing)结构,扩展能力较之前有明显提升。 二、解读 Greenplum架构 Greenplum 主要由