Apache HBase

sqoop1.4.6 to hbase1.2 in hue4.1躺坑总结

蓝咒 提交于 2019-11-29 00:54:00
一、sqoop1.4.6 to hbase1.2 in hue4.1 CM安装 cdh 5.15.x, 因想用简单的sqoop1所以parce装的sqoop1 client,经测试报:SQOOP_CONF_DIR找不到,mysql drive no find ,检查发现安装目录和classpath都有,依然如此,后找文档说是cdh只支持sqoop2,sqoop1需要手配置 oozie/libext并上传到hdfs下,链接https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_oozie_sqoop_jdbc.html,翻译如下 : 在Oozie中使用Sqoop动作 Sqoop 1不附带第三方JDBC驱动程序。您必须单独下载它们并将它们保存到在/ var / lib中/ sqoop /Oozie服务器上的目录。有关更多信息,请参阅 使用命令行设置Apache Sqoop 。 建议 Cloudera建议您不要将Sqoop CLI命令与Oozie Shell Action一起使用。此类部署不可靠,并且在升级和配置更改期间容易中断。 要将数据导入Hive,请使用Sqoop Action和Hive2 Action的组合。 SQoop Action简单地将数据摄入HDFS。 Hive2

hue oozie再踩坑,workflow,coordinator终于都可以跑了

安稳与你 提交于 2019-11-29 00:53:31
前边总结 了些hue下sqoop1,oozie,hbase的一些坑,今日项目到期,一定要搞定oozie工作流和定时调度执行,以是skr skr skr .... 1.前边 的sqoop mysql 导入出的坑已都踩过了,后来发现除了cdh(5.15)没有自动配置好sqoop1之外也无关紧要,手动配置后,按装sharelib后在拷些不全的包(如 sqoop,hbase,mysql,oozie等),基本是也可以在hue里跑的(hue 用oozie跑sqoop ,python写的xml 转义bug不能带引号之类),开始一直找不到驱动,后边按网上OOZIE 下各lib libext libtools 和其它sqoop lib的目录下加了mysql驱动后依然不行,后来改了下hdfs 下的 core-site.xml 的代理用户后就好了: <property><name>hadoop.proxyuser.hue.hosts</name><value>*</value></property> <property><name>hadoop.proxyuser.hue.groups</name><value>*</value></property> <property><name>hadoop.proxyuser.oozie.hosts</name><value>*</value><

总结:Hive,Hive on Spark和SparkSQL区别

℡╲_俬逩灬. 提交于 2019-11-28 22:51:59
Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结 Hive on Mapreduce执行流程 执行流程详细解析 Step 1:UI(user interface) 调用 executeQuery 接口,发送 HQL 查询语句给 Driver Step 2:Driver 为查询语句创建会话句柄,并将查询语句发送给 Compiler, 等待其进行语句解析并生成执行计划 Step 3 and 4:Compiler 从 metastore 获取相关的元数据 Step 5:元数据用于对查询树中的表达式进行类型检查,以及基于查询谓词调整分区,生成计划 Step 6 (6.1,6.2,6.3):由 Compiler 生成的执行计划是阶段性的 DAG,每个阶段都可能会涉及到 Map/Reduce job、元数据的操作、HDFS 文件的操作,Execution Engine 将各个阶段的 DAG 提交给对应的组件执行。 Step 7, 8 and 9:在每个任务(mapper / reducer)中,查询结果会以临时文件的方式存储在 HDFS 中。保存查询结果的临时文件由 Execution Engine 直接从

sqoop导入数据到Base并同步hive与impala

邮差的信 提交于 2019-11-28 20:52:42
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 基础环境 Sqool和Hive、HBase简介 Sqoop Hive HBase 测试Sqoop 使用Sqoop从MySQL导入数据到Hive 使用复杂SQL 调整Hive数据类型 不断更新 使用Sqoop从MySQL导入数据到HBase 使用复杂SQL 不断更新 Hive使用HBase数据 关于Sqoop2 综上所述 其他感受 基础环境 sqoop:sqoop-1.4.5+cdh5.3.6+78,hive:hive-0.13.1+cdh5.3.6+397,hbase:hbase-0.98.6+cdh5.3.6+115 Sqool和Hive、HBase简介 Sqoop Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的开源工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Hive 不想用程序语言开发MapReduce的朋友比如DB们,熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

基于Kafka+SparkStreaming+HBase实时点击流案例

百般思念 提交于 2019-11-27 13:54:48
前言 最近在专注Spark开发,记录下自己的工作和学习路程,希望能跟大家互相交流成长 本文章更倾向于实战案例,涉及框架原理及基本应用还请读者自行阅读相关文章,相关在本文章最后参考资料中 关于Zookeeper/Kafka/HBase/Hadoop相关集群环境搭建作者会陆续更新 本文章发布后会及时更新文章中出现的错误及增加内容,欢迎大家订阅 QQ:86608625 微信:guofei1990123 背景 Kafka实时记录从数据采集工具Flume或业务系统实时接口收集数据,并作为消息缓冲组件为上游实时计算框架提供可靠数据支撑,Spark 1.3版本后支持两种整合Kafka机制(Receiver-based Approach 和 Direct Approach),具体细节请参考文章最后官方文档链接,数据存储使用HBase 实现思路 实现Kafka消息生产者模拟器 Spark-Streaming采用Direct Approach方式实时获取Kafka中数据 Spark-Streaming对数据进行业务计算后数据存储到HBase 本地虚拟机集群环境配置 由于笔者机器性能有限,hadoop/zookeeper/kafka集群都搭建在一起主机名分别为hadoop1,hadoop2,hadoop3; hbase为单节点 在hadoop1 缺点及不足 由于笔者技术有限,代码设计上有部分缺陷

基于分布式关系型数据库,实现轻松应对百亿级数据分析场景解决方案

筅森魡賤 提交于 2019-11-27 12:26:25
MyCat是什么? 从定义和分类来看,它是一个开源的分布式数据库系统,是一个实现了MySQL协议的服务器,前端用户可以把它看作是一个数据库代理,用MySQL客户端工具和命令行访问,而其后端可以用MySQL原生协议与多个MySQL服务器通信,也可以用JDBC协议与大多数主流数据库服务器通信,其核心功能是分表分库读写分离,即将一个大表水平分割为N个小表,存储在后端MySQL服务器里或者其他数据库里。也可以指定多个写库多个读库。 MyCat发展到目前的版本,已经不是一个单纯的MySQL代理了,它的后端可以支持MySQL、SQL Server、Oracle、DB2、PostgreSQL等主流数据库,也支持MongoDB这种新型NoSQL方式的存储,未来还会支持更多类型的存储。而在最终用户看来,无论是那种存储方式,在MyCat里,都是一个传统的数据库表,支持标准的SQL语句进行数据的操作,这样一来,对前端业务系统来说,可以大幅降低开发难度,提升开发速度。 MyCat可以干什么? 单纯的读写分离,此时配置最为简单,支持读写分离,主从切换 分表分库,对于超过 1000 万的表进行分片,最大支持 1000 亿的单表分片 多租户应用,每个应用一个库,但应用程序只连接 Mycat,从而不改造程序本身,实现多租户化 报表系统,借助于 Mycat 的分表能力,处理大规模报表的统计 替代 Hbase

表格存储TableStore2.0重磅发布,提供更强大数据管理能力

限于喜欢 提交于 2019-11-27 09:52:31
表格存储TableStore是阿里云自研的面向海量结构化和半结构化数据存储的Serverless NoSQL多模型数据库,被广泛用于社交、物联网、人工智能、元数据和大数据等业务场景。表格存储TableStore采用与Google Bigtable类似的宽表模型,天然的分布式架构,能支撑高吞吐的数据写入以及PB级数据存储。 原生的宽表数据模型,存在一些天然的缺陷,例如无法很好的支持属性列的多条件组合查询,或者更高级的全文检索或空间检索。另外在与计算系统的对接上,特别是流计算场景,传统的大数据Lambda架构,需要用户维护多套存储和计算系统,没法很天然的支持数据在存储和计算系统之间的流转。以上这些问题,均在表格存储TableStore在支持阿里巴巴集团内、阿里云公共云以及专有云等业务中逐渐暴露出来。 表格存储TableStore简单可靠的数据模型和架构,开始承担越来越丰富的不同类型的数据存储,例如时序时空数据、元数据、消息数据、用户行为数据和轨迹溯源数据等。越来越多的客户也开始把表格存储TableStore当做一个统一的在线大数据存储平台,所以我们迫切需要支持海量数据中对数据的高效查询、分析和检索。同时也需要考虑如何更贴近业务,抽象出更贴近业务的数据模型,让数据的接入变得更加简单。 在2019年3月6日的阿里云新品发布会上,表格存储TableStore对以下几个方面做了重大升级:

阿里云HBase Ganos全新升级,推空间、时空、遥感一体化基础云服务

坚强是说给别人听的谎言 提交于 2019-11-27 01:41:25
1、HBase Ganos是什么 Ganos是阿里云时空PaaS服务的自研核心引擎。Ganos已作为云数据库时空引擎与数据库平台融合,建立了以自研云原生数据库POALRDB为基础,联合NoSQL大数据平台(Ali-HBASE和X-Pack Spark)的完整时空地理信息云化管理解决方案。 HBase Ganos是为PB级分布式、大规模时空数据管理而生,主打NoSQL时空大数据处理能力,兼容HBase、Spark、GeoMesa、GeoServer等广泛开源生态,内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等,可广泛应用于空间/时空/遥感大数据存储、查询、分析与数据挖掘场景。 2、新版本重要特性 全球首发时空栅格引擎云服务,支撑航天航空遥感云计算与智能化发展 对地观测技术的快速发展正促使遥感应用走向在线化和服务化。全新的云上时空栅格数据引擎面向未来遥感大数据云端智能分析计算需求而设计,采用了极为灵活的时空数据组织方式,在保留多时相、多分辨率且每一寸像素光谱信息的同时,兼顾传统遥感应用的快速浏览需求。引擎内置的ETL工具可以打通OSS、HBase、POLARDB/PG等数据存储产品,支持栅格数据的全自动化快速入库,包含投影转换、数据分块和索引创建等。栅格数据存储组织支持多种模式,常用的包括全球标准格网剖分和本地坐标系格网剖分(见下图)。 此外,2

Spark读写Hbase数据

别说谁变了你拦得住时间么 提交于 2019-11-25 16:54:43
环境 spark: 2.4.3 hbase: 1.1.5 步骤 启动hadoop-3.1.2,hbase2.2.0 把HBase的lib目录下的一些jar文件拷贝到Spark中,这些都是编程时需要引入的jar包,需要拷贝的jar文件包括:所有hbase开头的jar文件、guava-12.0.1.jar、protobuf-java-2.5.0.jar hbase建表,插入数据 idea开发spark操作hbase代码 build.sbt spark读取hbase数据 import org.apache.hadoop.hbase.client.Put import org.apache.hadoop.hbase.mapreduce.TableInputFormat import org.apache.hadoop.hbase.util.Bytes import org.apache.hadoop.hbase.{HBaseConfiguration, TableName} import org.apache.spark.{SparkConf, SparkContext} object SparkOperateHBase { def main(args: Array[String]) { val conf = HBaseConfiguration.create() val sc = new