Apache HBase

Java工程中嵌入scala代码

我的未来我决定 提交于 2019-12-03 00:33:52
今天我将介绍如何在 Java 工程使用 Scala 代码。对于那些想在真实场景中尝试使用 Scala 的开发人员来说,会非常有意思。这和你项目中有什么类型的东西毫无关系:不管是Spring还是Spark还是别的。我们废话少说,开始吧。 抽象 Java Maven项工程   这里我们使用Maven来管理我们的 Java 项目,项目的结果如下所示: 如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号: iteblog_hadoop 正如你所看到的,工程的结构非常简单。它有标准的布局和仅仅三个Java类,如下所示: package com.iteblog.demo.model; /** * User: 过往记忆 * Date: 2016-12-30 * Time: 下午23:16 * bolg: https://www.iteblog.com * 本文地址:https://www.iteblog.com/archives/1947.html * 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货 * 过往记忆博客微信公共帐号:iteblog_hadoop */ public class Book { private String name = null; private String author =

MacOS安装单机版HBase

这一生的挚爱 提交于 2019-12-02 07:03:02
MacOS安装HBase,必然是用于测试了,从简入手、从简配置。 直接通过brew安装即可: brew install hbase 成功安装后,验证是否成功,如果不出意外的话,应该有如下输出: RippleMBP:~ username$ hbase Usage: hbase [<options>] <command> [<args>] Options: --config DIR Configuration direction to use. Default: ./conf --hosts HOSTS Override the list in 'regionservers' file --auth-as-server Authenticate to ZooKeeper using servers configuration Commands: Some commands take arguments. Pass no args or -h for usage. shell Run the HBase shell hbck Run the hbase 'fsck' tool snapshot Create a new snapshot of a table snapshotinfo Tool for dumping snapshot information wal Write

sqoop 完成与关系型数据库的互导

爷,独闯天下 提交于 2019-12-01 23:49:06
一.安装SQOOP后可使用如下命令列出mysql数据库中的所有数据库,与检验是否安装成功。 # sqoop list-databases --connect jdbc:mysql://localhost:3306/ --username root --password 123456 二. hive与mysql数据互导 一. 使用命令范例: sqoop import --connect jdbc:mysql://192.168.137.1:3306/test --username root --password 123456 --table mytabs --fields-terminated-by '\t' -m 1 [--hive-import] --append --check-column 'id' --incremental append --last-value 5 --where 'id>2 and id<5' 参数详解: 1.--fields-terminated-by '\t',表示将数据导入到hadoop中列记录之间的间隔符,默认符号为英文逗号。这里通常使用制表符\t来间隔数据,避免数据再次从HDFS到入到关系数据库时引起分割混乱 2.-m 1,是--num-mappers的缩写,表示指定MapReduce的个数为1个(默认会自动开启多个),sqoop转化的MR程

大数据(hadoop-数据入库系统Sqoop原理架构)

霸气de小男生 提交于 2019-12-01 23:48:52
Sqoop是什么 Sqoop:SQL-to-Hadoop 连接传统关系型数据库和Hadoop的桥梁 把关系型数据库的数据导入到 Hadoop 系统 ( 如 HDFS、HBase 和 Hive) 中; 把数据从 Hadoop 系统里抽取并导出到关系型数据库里。 利用MapReduce 批处理方式进行数据传输 Sqoop优势 高效、可控的利用资源 任务并行度、超时时间等 数据类型映射与转换 可自动进行,用户也可自定义 支持多种数据库 MySQL Oracle PostgreSQL Sqoop1架构 Sqoop2架构 Sqoop import 将数据从关系型数据库导入Hadoop 中 步骤1 :Sqoop 与数据库Server通信,获取数据库表的元数据信息; 步骤2 :Sqoop 启动一个Map- Only 的MR 作业,利用元数据信息并行将数据写入Hadoop 。 Sqoop import使用 sqoop import \ --connect jdbc:mysql://mysql.example.com/sqoop \ --username sqoop \ --password sqoop \ --table person --target-dir --connnect: 指定JDBC URL --username/password :mysql 数据库的用户名 --table

CDH + phoenix+ zeppelin

久未见 提交于 2019-12-01 17:38:42
内容概述 1.安装及配置Phoenix 2.Phoenix的基本操作 3.使用Phoenix bulkload数据到HBase 4.使用Phoenix从HBase中导出数据到HDFS 测试环境 1.CDH5.11.2 2.RedHat7.2 3.Phoenix4.7.0 前置条件 1.CDH集群正常 2.HBase服务已经安装并正常运行 3.测试csv数据已准备 4.Redhat7中的httpd服务已安装并使用正常 2.在CDH集群中安装Phoenix 1.到Cloudera官网下载Phoenix的Parcel,注意选择与操作系统匹配的版本,因为本次测试使用的是Redhat7,所以选择后缀名为el7的文件。下载地址为: http://archive.cloudera.com/cloudera-labs/phoenix/parcels/latest/ 具体需要下载的三个文件地址为: http://archive.cloudera.com/cloudera-labs/phoenix/parcels/latest/CLABS_PHOENIX-4.7.0-1.clabs_phoenix1.3.0.p0.000-el7.parcel http://archive.cloudera.com/cloudera-labs/phoenix/parcels/latest/CLABS_PHOENIX-4

数据中台在阿里巴巴集团内部的实践情况

北城余情 提交于 2019-12-01 16:13:22
作者:品鉴 数据中台门在阿里巴巴集团干什么的,由哪个部门掌管?数据中台在阿里巴巴的主要作用是什么呢?外面吹嘘这么神秘的数据中台在阿里实践的如何呢?今天小编正好要采访数据技术及产品部门里面一个老大,带大家来一探究竟。 刚一开头,老大就陷入沉思,沉重的说:“数据技术及产品部门在阿里巴巴集团其实已走过16个年头,掌管着全集团的数据资产,那么多年的积累,帮助阿里建立起了一套完整的数据体系,对业务有全面的支撑。”整个数据中台从基础设施,基础数据技术起步,到数据资产管理;从内部的数据挖掘到体系规范、标准、流程和体系制定;外部产出从数据可视化技术到数据应用,使得内部的小二从方方面面都感受到数据中台的真实存在。 数据技术及产品部门历史 说到数据中台不能不说阿里的底层基础架构的扎实程度,数据中台基于阿里云的基础设施,使用了Maxcompute大数据平台、Analysis database、HBase、ECS等基础组件,基于这些基础组件之上,数据技术及产品部门的智慧工程师们开发了数据资产,它管理着全域大数据,统一的数据建设、管理、服务,服务阿里外部千万用户和内部业务给全集团小二们方便使用全集团的数据,当然这些都有严格的安全和权限管理哦,只有有需要的小二才可以看到和使用哦! 数据技术及产品部门汇集了各种数据,因此数据官们开发了各种各样的数据技术帮助业务部门实现快速而准确的数据

HBase1.2.0 windows单机版安装配置

时光毁灭记忆、已成空白 提交于 2019-12-01 16:07:17
使用Hadoop自带的例子pi计算圆周率 1、首先从官网上下载HBase1.2.0安装包 http://archive.apache.org/dist/hbase/ 2、解压到指定目录 3、修改conf/hbase-env.cmd set HBASE_MANAGES_ZK=true set HBASE_CLASSPATH=C:\Users\86070315\hbase\conf 4、修改conf/hbase-site.xml <property> <name>hbase.rootdir</name> <value>file:///C:/cygwin64/tmp/hbase/root</value> </property> <property> <name>hbase.tmp.dir</name> <value>C:/cygwin64/tmp/hbase/tmp</value> </property> <property> <name>hbase.zookeeper.quorum</name> <value>127.0.0.1</value> </property> <property> <name>hbase.zookeeper.property.dataDir</name> <value>C:/cygwin64/tmp/hbase/zoo</value> </property>

LSM-Tree 大数据索引技术

两盒软妹~` 提交于 2019-12-01 15:52:30
一、LSM-Tree概述 核心思想就是放弃部分读能力,换取写入能力的最大化。LSM-Tree ,这个概念就是结构化合并树(Log-Structured Merge Tree)的意思,它的核心思路其实非常简单,就是假定内存足够大,因此不需要每次有数据更新(插入、删除)就必须将数据写入到磁盘中,而可以先将最新的数据驻留在内存中,等到积累到一定限制大小之后,再使用归并排序的方式将内存中的数据合并追加到磁盘队尾(因为所有待合并的树都是有序的,可以通过合并排序的方式快速合并到一起)。 磁盘的技术特性:对磁盘来说,能够最大化的发挥磁盘技术特性的使用方式是:一次性的读取或写入固定大小的一块数据,并尽可能的减少随机寻道这个操作的次数。 日志结构的合并树(LSM-tree)是一种基于硬盘的数据结构,与B+ tree相比,能显著地减少硬盘磁盘寻道开销,并能在较长的时间提供对文件的高速插入(删除)。然而LSM-tree在某些情况下,特别是在查询需要快速响应时性能不佳。通常LSM-tree适用于索引插入比检索更频繁的应用系统。 二、LSM-Tree VS B+ Tree B+Tree RDBMS一般采用B+树作为索引的数据结构。RDBMS中的B+树一般是3层n路的平衡树。B+树的节点对应于磁盘数据块。因此对于RDBMS,数据更新操作需要5次磁盘操作(从B+树3次找到记录所在数据块,再加上一次读和一次写)

HBase之一:HBase原理和设计

穿精又带淫゛_ 提交于 2019-12-01 15:26:50
一、简介 HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle、MySQL、MSSQL等一样,对外提供数据的存储和读取服务。而从应用的角度来说,HBase与一般的数据库又有所区别,HBase本身的存取接口相当简单,不支持复杂的数据存取,更不支持SQL等结构化的查询语言;HBase也没有除了rowkey以外的索引,所有的数据分布和查询都依赖rowkey。所以,HBase在表的设计上会有很严格的要求。架构上,HBase是分布式数据库的典范,这点比较像MongoDB的sharding模式,能根据键值的大小,把数据分布到不同的存储节点上,MongoDB根据configserver来定位数据落在哪个分区上,HBase通过访问Zookeeper来获取-ROOT-表所在地址,通过-ROOT-表得到相应.META.表信息,从而获取数据存储的region位置。 二、架构 上面提到,HBase是一个分布式的架构,除去底层存储的HDFS外,HBase本身从功能上可以分为三块:Zookeeper群、HMaster群和HRegionServer群。 Zookeeper群

Windows HBase2.2.0安装部署踩坑

江枫思渺然 提交于 2019-12-01 15:26:40
下载安装 hbase下载 解压之后根目录,没有什么要修改的。 配置文件目录,主要修改hbase-env.cmd和hbase-site.xml hbase-env.cmd set HBASE_MANAGES_ZK=true set JAVA_HOME=C:\Program Files\Java\jre1.8.0_201 set HBASE_CLASSPATH=G:\datacenter\hbase-2.2.0\conf HBASE_MANAGES_ZK值为false表示zookeeper外装,HBASE_MANAGES_ZK的为true,表示zookeeper自带。 这里我们配置的是单机测试模式,所以使用HBase自带的ZK就可以了,所以配置为true。 hbase-site.xml <configuration> <property> <name>hbase.master</name> <value>localhost</value> </property> <property> <name>hbase.rootdir</name> <value>file:///G:/datacenter/hbdata/root</value> </property> <property> <name>hbase.tmp.dir</name> <value>G:/datacenter/hbdata