Apache HBase

Cloudera Labs中的Phoenix

让人想犯罪 __ 提交于 2019-11-30 12:19:26
Fayson 发表于 Hadoop实操 订阅 607 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 1.导读 Cloudera Labs在2016-06-27宣布打包了Apache Phoenix项目,版本为4.7.0,并基于CDH5.7.0。安装依旧是大家熟悉的Parcel方式,下载地址为: http://archive.cloudera.com/cloudera-labs/phoenix/parcels/1.3/ Fayson这两天亲测了一下,CDH5.12.1也能勉强一用,想知道具体该怎样安装和使用,欢迎关注本公众号明天的文章。 Cloudera Labs说白了就是有群人在“实验室”会研究或者玩玩一些有趣的比如其他Apache的项目,虽然会偶尔打包一些项目,但是官方是不Support的。另外Cloudera Labs也不会保证从旧的Phoenix版本升级到4.7的兼容性。 2.概述 ApachePhoenix是Apache HBase上一个高效的SQL引擎,也挺火的。很多公司都在使用它,比如Salesforce,它开源了这个项目,并将该项目贡献到社区。现在也已经是顶级项目了。 ClouderaLabs在2015-05-06宣布打包Phoenix并集成到CDH平台,本文主要为了描述这几个问题:Phoenix可以做什么?为什么大家想要使用它

总结:ElasticSearch

老子叫甜甜 提交于 2019-11-30 12:04:18
一、 ElasticSearch 是什么 • 搜索引擎 : 一切设计都是为了提高搜索的性能 • 分布式,高可用,易扩展 • Lucence :最 先进、性能 最好、 功能最全的搜索引擎库 二、 Why not DB? • Redis :是一个高性能的 key-value 数据库。 • HBase : HBase 是一个分布式的、面向列的开源数据库。 • Tidb :开源分布式 NewSQL 数据库。 • MySQL : MySQL 是一个关系型 数据库管理系统。 • Elasticsearch :是 一个分布式、可扩展、实时的 搜索引擎 • 全索引 三、核心概念 四、 行存储?列存储? 参考链接: https://blog.csdn.net/genghaihua/article/details/88946228 es 的底层存储使用 lucene ,主要包含行存储( storefiled ),列存储( docvalues )和倒排索引 ( invertindex ) 。 大多数使用场景中,没有必要同时存储这三个部分,可以通过下面的参数来做适当调整 1 mapping type index 设置 "_source": { "enabled": false } StoreFiled: 行存,其中占比最大的是_source字段,它控制doc原始数据的存储。在写入数据时

总结:HBase笔记

半腔热情 提交于 2019-11-30 11:56:49
参考链接: http://abloz.com/hbase/book.html#d613e75 最终使用的版本:https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/1.3.5/hbase-1.3.5-bin.tar.gz 一、安装 解压即可,然后修改hbase-site.xml,指定数据的存储路径; 二、进入HBase环境 ./bin/hbase shell 三、其它相关命令 输入 help 然后 <RETURN> 可以看到一列shell命令。这里的帮助很详细,要注意的是表名,行和列需要加引号。 hbase(main):003:0> create 'test', 'cf' 0 row(s) in 1.2200 seconds hbase(main):003:0> list 'table' test 1 row(s) in 0.0550 seconds hbase(main):004:0> put 'test', 'row1', 'cf:a', 'value1' 0 row(s) in 0.0560 seconds hbase(main):005:0> put 'test', 'row2', 'cf:b', 'value2' 0 row(s) in 0.0370 seconds hbase(main):006:0> put 'test',

HBase 优化

佐手、 提交于 2019-11-30 11:24:57
1 高可用 在 HBase 中 HMaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久,所以 HBase 支持对 HMaster 的高可用配置 1、关闭 HBase 集群 [djm@hadoop102 hbase]$ bin/stop-hbase.sh 2、在 conf 目录下创建 backup-maters 文件 [djm@hadoop102 hbase]$ touch conf/backup-masters 3、在 backup-masters 文件中配置高可用 HMaster 节点 [djm@hadoop102 hbase]$ echo hadoop103 > conf/backup-masters 4、分发 [djm@hadoop102 hbase]$ xsync conf/backup-masters 2 预分区 每一个 Region 维护着 startRow 与 endRowKey,如果加入的数据符合某个 Region 维护的 rowKey 范围,则该数据交给这个 Region 维护,那么依照这个原则,我们可以将数据所要投放的分区提前大致的规划好,以提高 HBase 性能 1、手动设定预分区 hbase>

一文读懂分布式数据库Hbase

孤者浪人 提交于 2019-11-30 10:07:59
一、 1、什么是Hbase。 是一个高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。 适合于存储非结构化数据,基于列的而不是基于行的模式 如图:Hadoop生态中HBase与其他部分的关系。 2、关系数据库已经流行很多年,并且Hadoop已经有了HDFS和MapReduce,为什么需要HBase? Hadoop可以很好地解决大规模数据的离线批量处理问题,但是,受限于HadoopMapReduce编程框架的高延迟数据处理机制,使得Hadoop无法满足大规模数据实时处理应用的需求 HDFS面向批量访问模式,不是随机访问模式 传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题(分库分表也不能很好解决) 传统关系数据库在数据结构变化时一般需要停机维护;空列浪费存储空间 因此,业界出现了一类面向半结构化数据存储和处理的高可扩展、低写入/查询延迟的系统,例如,键值数据库、文档数据库和列族数据库(如BigTable和HBase等) HBase已经成功应用于互联网服务领域和传统行业的众多在线式数据分析处理系统中 3、HBase与传统的关系数据库的区别 (1)数据类型:关系数据库采用关系模型,具有丰富的数据类型和存储方式,HBase则采用了更加简单的数据模型,它把数据存储为未经解释的字符串 (2)数据操作:关系数据库中包含了丰富的操作,其中会涉及复杂的多表连接

HBase基础知识

生来就可爱ヽ(ⅴ<●) 提交于 2019-11-30 09:37:17
Hbase是什么 HBase是一种构建在HDFS之上的 分布式、面向列 的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。 尽管已经有许多数据存储和访问的策略和实现方法,但事实上大多数解决方案,特别是一些关系类型的,在构建时并没有考虑超大规模和分布式的特点。许多商家通过复制和分区的方法来扩充数据库使其突破单个节点的界限,但这些功能通常都是事后增加的,安装和维护都和复杂。同时,也会影响RDBMS的特定功能,例如联接、复杂的查询、触发器、视图和外键约束这些操作在大型的RDBMS上的代价相当高,甚至根本无法实现。 HBase从另一个角度处理伸缩性问题。它通过线性方式从下到上增加节点来进行扩展。HBase不是关系型数据库,也不支持SQL,但是它有自己的特长,这是RDBMS不能处理的,HBase巧妙地将大而稀疏的表放在商用的服务器集群上。 HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop HDFS 作为其文件存储系统;Google 运行MapReduce 来处理Bigtable中的海量数据, HBase 同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable 利用Chubby作为协同服务, HBase

大数据技术背景介绍(入门篇)

前提是你 提交于 2019-11-30 07:32:07
1、什么是大数据? 大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据的5V特点(IBM提出): Volume(大量)——数据的大小决定所考虑的数据的价值和潜在的信息; Velocity(高速)——指获得数据的速度; Variety(多样)——指数据类型的多样性; Value(价值)——合理运用大数据,以低成本创造高价值; Veracity(真实性)——数据的质量; 2、大数据的意义 现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。 有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。大数据的价值体现在以下几个方面: 对大量消费者提供产品或服务的企业可以利用大数据进行精准营

HBase四种部署模式和基本操作

醉酒当歌 提交于 2019-11-30 05:54:59
本文主要包括两部分的内容,第一部分主要包HBase的四种安装方法,分别是:① 单机版模式,② 伪集群模式,③ 使用HBase自带的zookeeper构建分布式集群,④ 使用独立安装的zookeeper构建分布式集群。第二部分通过HBase shell,展示HBase的基本操作,如创建表、插入记录、查询记录、删除记录等。 HBase的部署方式包括: 部署模式 说明 单机模式 单机版模式,常用于本地开发 伪集群模式 使用HBase自带的zookeeper 集群模式 使用HBase自带的zookeeper 集群模式 单独安装zookeeper Ⅰ HBase的安装 本文的HBase安装是在Hadoop已经安装好的基础上实现的,所以之前要导出JAVA_HOME、HADOOP_HOME( 单机模式不需要,伪分布式模式和分布式模式需要)等环境变量以及配置好SSH互信等。 0 公共配置 导出HBase的环境变量 export HBASE_HOME=/root/software/hbase-1.2.1 export PATH=$PATH:$HBASE_HOME/bin 查看hbase版本 : hbase version 1 单机模式 配置hbase-env.sh 在hbase-env.sh添加如下内容 export JAVA_HOME=/usr/lib/jvm/java-7-openjdk

在php的yii2框架中整合hbase库

耗尽温柔 提交于 2019-11-30 05:01:42
Hbase通过thrift这个跨语言的RPC框架提供多语言的调用。 Hbase有两套thrift接口(thrift1和thrift2),但是它们并不兼容。根据官方文档,thrift1很可能被抛弃,本文以thrift2整合为例。 1、访问官网http://thrift.apache.org/download,下载 thrift-0.11.0.exe (生成接口rpc工具,thrift-0.11.0.exe改名thrift.exe,保存在D:\project\thrift\thrift.exe) thrift-0.11.0.tar.gz(thrift相关库,保存在D:\project\thrift\thrift-0.11.0) 2、访问hbase官网(http://archive.apache.org/dist/hbase/),下载hbase-1.2.6-src.tar.gz 解压保存在D:\project\thrift\hbase-1.2.6 3、生成php接口代码 解压hbase-1.2.6-src.tar.gz,hbase-1.2.6\hbase-thrift\src\main\resources\org\apache\hadoop\hbase文件夹同时存在thrift和thrift2接口描述文件,本文只使用thrift2 在D:\project\thrift目录中输入cmd命令

想进入大数据领域,该怎么入门?

风格不统一 提交于 2019-11-30 03:56:16
大数据已成为一个高速信息社会科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便的高科技时代产物。那么关于大数据的五大问题你是否了解?今日就跟着技术学派一起来看一看。 第一,大数据是什么? 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。 大数据不仅仅是大量的数据,还是来自不同来源,存在不同类型,代表不同含义的海量数据。大数据应该动态变化,不断增加,而且能够通过研究分析发现规律产生价值。 第二,大数据可以做什么? 物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。 大数据能用来收集分析人们的社会需求和生活状态;还可以用大数据的分析来改善城市交通管理;大数据还能分析人们的身体健康情况、保障市民的医疗和健康条件;还可以分析和防止犯罪行为等;可以帮助我们根据对历史情况的分析,发现事物的发展变化规律