Apache HBase

如何优雅的理解HBase和BigTable

最后都变了- 提交于 2020-10-06 02:32:14
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 学习 HBase 最难的地方在于要让你的脑子真正理解它是什么。 HBase:Google BigTable 的开源实现 我们经常会把关系型数据库(RDBMS,比如 MySQL)和 HBase 搞混,因为在这两个系统中都包含 table 和 base(HBase,Database)。 这篇文章的目标是从概念上来说清楚 HBase 这个分布式的数据存储系统。读完后,你应该可以很清楚的知道什么情况下 HBase 更好,什么情况下传统的关系型数据库更好。 关于一些术语 幸运的是,Google 的 BigTable论文清楚的解释了 BigTable 到底是什么。下面是论文中数据模型章节的第一句话: BigTable 是一个稀疏的、分布式的、可持久化的多维有序 map。 在这个节骨眼上,我想给读者一个机会,让他们在读到最后一行字时,能够收集到他们脑壳里的活动信息(这可能是个笑话,但我没懂^v^)。 论文中,继续解释如下: map 通过 rowKey,columnKey 和时间戳进行索引,map 中的每个值都是一个连续的字节数组。 注:rowKey 是记录的主键,唯一标识一行记录 在 Hadoop 的官方文档中,也对 HBase 的架构做了说明: HBase 使用了与 BigTable

AnalyticDB实现和特点浅析

北慕城南 提交于 2020-10-06 01:39:05
目录 AnalyticDB介绍与背景 AnalyticDB详细解析 架构设计 数据分区 读写分离和读写流程 其他特性介绍 混合(列-行)存储引擎 索引 小结 本篇主要是根据AnalyticDB的论文,来讨论AnalyticDB出现的背景,各个模块的设计,一些特性的解析。可能还会在一些点上还会穿插一些与当前业界开源实现的比对,希望能够有一个更加深入的探讨。OK,那我们开始吧。 AnalyticDB介绍与背景 要说AnalyticDB,那起码得知道它是干什么的。这里直接贴下百度百科的介绍: AnalyticDB是阿里云自主研发的一款实时分析数据库,可以毫秒级针对千亿级数据进行即时的多维分析透视。 简单地说,就是实时OLAP型数据库,它的对标产品是Apache Kylin,Apache Druid,Clickhouse这些。然后AnalyticDB的特点, 包括高并发实时摄入数据,兼容Mysql协议,无需预计算即可有的极快响应时间,多种数据源接入,大规模集群管理等 。好吧,这几个特点都很官方,不急,接下来会逐渐讨论各个点。 然后介绍下AnalyticDB的背景。 首先先说说传统的OLAP型数据仓库,以往构建OLAP型数据仓库通常都是采用离线模式, 即在晚上设置定时任务将前一天的数据同步到数据仓库中,第二天数据分析师或报表工具就可以根据数据产出分析结果 。但这样的问题是数据延迟太高了

比较全的大数据技术组件整理以及相关理论论文整理

梦想与她 提交于 2020-10-05 08:32:40
框架 Apache Hadoop:分布式处理架构,结合了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统); Tigon:高吞吐量实时流处理框架。 分布式编程 AddThis Hydra :最初在AddThis上开发的分布式数据处理和存储系统; AMPLab SIMR:用在Hadoop MapReduce v1上运行Spark; Apache Beam:为统一的模型以及一套用于定义和执行数据处理工作流的特定SDK语言; Apache Crunch:一个简单的Java API,用于执行在普通的MapReduce实现时比较单调的连接、数据聚合等任务; Apache DataFu:由LinkedIn开发的针对Hadoop and 和Pig的用户定义的函数集合; Apache Flink:具有高性能的执行时间和自动程序优化; Apache Gora:内存中的数据模型和持久性框架; Apache Hama:BSP(整体同步并行)计算框架; Apache MapReduce :在集群上使用并行、分布式算法处理大数据集的编程模型; Apache Pig :Hadoop中,用于处理数据分析程序的高级查询语言; Apache REEF :用来简化和统一低层大数据系统的保留性评估执行框架; Apache S4 :S4中流处理与实现的框架; Apache Spark

【阿里云】数据湖分析DLA 招聘-平台研发技术专家

自闭症网瘾萝莉.ら 提交于 2020-10-05 06:59:42
数据湖分析Data Lake Analytics是阿里云数据库自研的云原生数据湖分析系统,目前已有数千企业在使用,是阿里云 库、仓、湖战略高地之一 !!! 现紧急 招聘 【 数据湖平台工程师】 产品链接:https://www.aliyun.com/product/datalakeanalytics !!! 如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号: iteblog_hadoop 团队内部拥有多位Apache PMC&Committer,在国内外拥有良好的影响力,加入后您将与国内最顶尖的大数据、数据库领域专家一起工作,打造世界一流的数据湖分析服务能力!!! 业界趋势 :数据湖是比大数据关注更多的词汇,未来5年数据湖同比以50%在高速发展。在全球多家云厂商,阿里云 数据湖分析 Data Lake Analytics 处于领先地位 !!! 岗位职责 负责产品云化,打造Serverless弹性多租户平台能力 负责平台的资源调度、高并发连接、多租户管理、安全、计量、被集成 等研发 负责商业化输出研发,包括公有云、集团、专有云、混合云等多种形态 生产问题的定位解决,系统性能的调优改进,业务需求的分析落地。 工作地可以open to 杭州, 深圳,北京 职位要求 熟悉JAVA,较好的架构意识、性能意识、清晰的代码能力 有平台相关经验

环境篇:Kylin3.0.1集成CDH6.2.0

拟墨画扇 提交于 2020-10-05 06:24:49
环境篇:Kylin3.0.1集成CDH6.2.0 Kylin是什么? Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。 Apache Kylin™ 令使用者仅需三步,即可实现超大数据集上的亚秒级查询。 定义数据集上的一个星形或雪花形模型 在定义的数据表上构建cube 使用标准 SQL 通过 ODBC、JDBC 或 RESTFUL API 进行查询,仅需亚秒级响应时间即可获得查询结果 如果没有Kylin 大数据在数据积累后,需要计算,而数据越多,算力越差,内存需求也越高,询时间与数据量成线性增长,而这些对于Kylin影响不大,大数据中硬盘往往比内存要更便宜,Kylin通过与计算的形式,以空间换时间,亚秒级的响应让人们爱不释手。 注:所谓询时间与数据量成线性增长:假设查询 1 亿条记录耗时 1 分钟,那么查询 10 亿条记录就需 10分钟,100 亿条记录就至少需要 1 小时 40 分钟。 http://kylin.apache.org/cn/ 1 Kylin架构 Kylin 提供与多种数据可视化工具的整合能力,如 Tableau,PowerBI 等,令用户可以使用 BI 工具对 Hadoop 数据进行分析

TiKV正式从CNCF毕业,成为云原生时代构建分布式系统基石

感情迁移 提交于 2020-10-04 23:28:07
今日,云原生计算基金会 ( CNCF ) 宣布 TiKV 正式从 CNCF 毕业。TiKV 是继 Harbor 之后在 CNCF 毕业的第二个中国原创开源项目。从孵化项目晋升为毕业项目,标志着 TiKV 在产品成熟度、项目采用率以及社区持续性等方面取得一系列进展,可应用到各类行业、各种规模的生产环境。 TiKV 是一个开源的分布式事务 Key-Value 数据库,专注为下一代数据库提供可靠、高质量、实用的存储架构。最初由 PingCAP 团队在 2016 年 1 月作为 TiDB 的底层存储引擎设计并开发,第一版于 2016 年 4 月开源。2018 年 8 月被 CNCF 宣布接纳为沙箱云原生项目,在 2019 年 5 月从沙箱晋级至孵化项目。目前,TiKV 已经在知乎、一点资讯、Shopee、美团、京东云、转转等多行业头部企业得到上线应用。 TiKV 通过 Raft 一致性算法来实现数据多副本之间的一致性,本地采用了 RocksDB 存储引擎存储数据,同时 TiKV 支持数据自动切分和迁移。TiKV 的跨行事务最初参考 Google Percolator 事务模型,并进行了一些优化,提供快照隔离与带锁快照隔离,支持分布式事务。TiKV 的核心特性如下: 跨区复制:采用 Raft 协议和 Placement Driver 支持跨区复制。 可扩展性:通过 Raft 复制数据以及

如何实现一个跨库连表SQL生成器?

守給你的承諾、 提交于 2020-10-04 15:04:20
用户只需在前端简单配置下指标,系统即可自动生成大宽表,让用户查询到他所需要的实时数据,数据源支持跨库并支持多种目标介质。这样的数据全局实时可视化如何实现?本文从需求分析开始,分享自动生成SQL功能开发中运用到的设计模式和数据结构算法设计。 一 概述 ADC(Alibaba DChain Data Converger)项目的主要目的是做一套工具,用户在前端简单配置下指标后,就能在系统自动生成的大宽表里面查询到他所需要的实时数据,数据源支持跨库并支持多种目标介质。说的更高层次一点, 数据的全局实时可视化这个事情本身就是解决供应链数据“神龙效应”的有效措施(参考施云老师的《供应链架构师》[1]一书)。做ADC也是为了这个目标,整个ADC系统架构如下图所示: 架构解析: 初始数据来自于元数据中心。 经过元数据适配层后转换为内部格式数据。 调度中心把内部格式的数据传到计划中心,计划中心分析数据需求并建模,通过SQL生成器生成资源和SQL,分别通过告警中心、对账中心设定监控标准和对账标准。 对账中心定时对账,查看数据的对齐情况。 告警中心可以针对任务错误、延迟高等情况发送报警。 资源的生命周期管控在资源管理中心下,view删除时资源管理中心负责回收资源。 基础资源适配层主要借助集团基础资源管理能力串联阿里各类数据服务, 比如阿里云MaxComputer、Flink、阿里云AnalyticDB等

计算压力倍增,携程度假起价引擎架构演变

三世轮回 提交于 2020-10-04 13:37:35
携程度假每个旅游线路在每期、每天的价格均有变化,而价格变化又受到多个因素影响。为尽快捕捉到价格变化,需要不断优化调整架构,使得价格调整灵敏度更高更准。这对被调服务及硬件产生了极大的压力,也带来了新的瓶颈。那么,携程是如何解决这一难题的呢?本文是携程高级研发经理陈少伟在「云加社区沙龙online」的分享整理,着重介绍了携程度假起价引擎架构不断演进的过程。 点击视频,查看完整直播回放 一、背景介绍 1. 什么是度假起价引擎? 首先,解释一下什么是度假起价引擎。度假每个旅游线路涉及到不同的出发地,不同的出发地下有不同可出发班期,每个班期都有对应的这一天的价格。旅游产品的价格由多个资源组成的,任何一个资源价格发生变化,都会影响到产品的价格。 为了尽快捕捉到价格变化,需要有一个专门的价格系统去监测不同资源的价格变化,这就是起价引擎。 2. 旅游电商和普通电商的区别是什么? 普通电商的商品基本都是标品,价格和库存都针对的是单个SKU(StockKeeping Unit 库存单元),而旅游打包类商品都是由多个SKU组成(静态和实时匹配),任意一个SKU的价格、库存发生变化,都会直接影响到它所关联的所有产品。正是由于变量太多,这也给定价带来了极大的挑战。 上图展示的是京东上一个商品截图,我们可以看到它涉及到两个SKU,基本上像这种情况,每个SKU的价格都是比较确定的。 3.

CDH6.3.2 启用Kerberos 集成使用phoenix

孤街浪徒 提交于 2020-10-03 12:34:52
CDH6.3.2 启用Kerberos 集成使用phoenix 标签(空格分隔):大数据平台构建 一、下载并安装Phoenix parcel 二、安装CSD文件 三、在Cloudera Manager中添加Phoenix服务(前提是已经安装了HBase服务) 四、配置HBase以用于Phoenix 五、验证Phoenix安装 与冒烟测试 六、导入数据验证测试 七、关于phoinex 的schema 与 hbase 的namespace 集成 一、下载并安装Phoenix parcel 下载地址 https://archive.cloudera.com/phoenix/6.2.0/parcels/ PHOENIX-5.0.0-cdh6.2.0.p0.1308267-el7.parcel PHOENIX-5.0.0-cdh6.2.0.p0.1308267-el7.parcel.sha https://archive.cloudera.com/phoenix/6.2.0/csd/ PHOENIX-1.0.jar 1. 登录Cloudera Manager,点“群集”->“Parcel”,进入Parcel页。 2. 点击“配置”,添加远程Phoenix Parcel URL,如图1所示,然后保存更改。 4. 完成下载后,点击“分配” 5. 分配完成后,点击“激活” 二、安装CSD文件 2

hbase2.1.9 centos7 完全分布式 搭建随记

荒凉一梦 提交于 2020-10-02 21:55:45
hbase2.1.9 centos7 完全分布式 搭建随记 这里是当初在三个ECS节点上搭建hadoop+zookeeper+hbase+solr的主要步骤,文章内容未经过润色,请参考的同学搭配其他博客一同使用,并记得根据实际情况调整相关参数 1. 指定位置解压 2. vi /etc/profile export HBASE_HOME=/opt/hbase/hbase-2.1.9 export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH source /etc/profile 3. vi /.../hbase-2.1.9/conf/hbase-env.sh export JAVA_HOME=/opt/jdk/jdk1.8.0_191 export HADOOP_HOME=/opt/hadoop/hadoop-2.7.7 export HBASE_HOME=/opt/hbase/hbase-2.1.9 export HBASE_CLASSPATH=ls /opt/hadoop/hadoop-2.7.7/etc/hadoop/ export HBASE_PID_DIR=/opt/DonotDelete/hbasepid export HBASE_MANAGES_ZK=false ### export