Apache HBase

Spark On MaxCompute如何访问Phonix数据

自古美人都是妖i 提交于 2020-10-14 14:52:33
简介: 如何使用Spark On MaxCompute连接Phonix,将Hbase的数据写入到MaxCompute的对应表中,目前没有对应的案例,为了满足用户的需求。本文主要讲解使用Spark连接Phonix访问Hbase的数据再写入到MaxCompute方案实践。该方案的验证是使用hbase1.1对应Phonix为4.12.0。本文从阿里云Hbase版本的选择、确认VPC、vswitchID、设置白名单和访问方式,Phonix4.12.0的客户端安装,在客户端实现Phonix表的创建和写入,Spark代码在本地IDEA的编写以及pom文件以及vpcList的配置,打包上传jar包并进行冒烟测试。 一、购买Hbase1.1并设置对应资源 1.1购买hbase hbase主要版本为2.0与1.1,这边选择对应hbase对应的版本为1.1 Hbase与Hbase2.0版本的区别 HBase1.1版本 1.1版本基于HBase社区1.1.2版本开发。 HBase2.0版本 2.0版本是基于社区2018年发布的HBase2.0.0版本开发的全新版本。同样,在此基础上,做了大量的改进和优化,吸收了众多阿里内部成功经验,比社区HBase版本具有更好的稳定性和性能。 1.2确认VPC,vsWitchID 确保测试联通性的可以方便可行,该hbase的VPCId

主流NoSQL及应用场景详解

南笙酒味 提交于 2020-10-14 13:33:24
点击上方“朱小厮的博客”,选择“设为星标” 后台回复"书",获取 来源:r6d.cn/r4P7 对比传统关系型数据库,NoSQL有着更为复杂的分类——键值、面向文档、列存储以及图数据库。这里就带你一览NoSQL各种类型的适用场景及一些知名公司的方案选择。 在过去几年,关系型数据库一直是数据持久化的唯一选择,数据工作者考虑的也只是在这些传统数据库中做筛选,比如SQL Server、Oracle或者是MySQL。甚至是做一些默认的选择,比如使用.NET的一般会选择SQL Server;使用Java的可能会偏向Oracle,Ruby是MySQL,Python则是PostgreSQL或MySQL等等。 原因很简单,过去很长一段时间内,关系数据库的健壮性已经在多数应用程序中得到证实。我们可以使用这些传统数据库良好的控制并发操作、事务等等。然而如果传统的关系型数据库一直这么可靠,那么还有NoSQL什么事?NoSQL之所以生存并得到发展,是因为它做到了传统关系型数据库做不到的事! 关系型数据库中存在的问题 Impedance Mismatch 我们使用Python、Ruby、Java、.Net等语言编写应用程序,这些语言有一个共同的特性——面向对象。但是我们使用MySQL、PostgreSQL、Oracle以及SQL Server,这些数据库同样有一个共同的特性——关系型数据库。这里就牵扯到了

大部分人都不知道!原来今天不只是中秋节,还是程序员节

…衆ロ難τιáo~ 提交于 2020-10-14 10:57:18
今天不但是大家熟知的中秋节,其实也是我们程序员的节日! 程序员节是一个国际上被众多科技公司和软件企业承认的业内人士节日。日期是在每年的第256( 十六进制 为0x100,或28)天,也就是 平年 的9月13日或 闰年 的9月12日。 它是 俄罗斯 的一个官方 节日 ,其他国家的程序员社群也庆祝这个节日。 之所以选择256(28),是因为它是一个被程序员们所熟知的8 比特 基数。用1个 字节 (等于8 比特 )最多能表示256个数值,而且在 平年 中,256是2的最大幂中小于365的值。与此同时,也有人提出象征2的10次方的10月24日才是程序员日。 也有人提出将10月10日作为程序员日,因为在计算机世界中,文件都是由1和0这两个二进制数字组成的。中国有人定10月24日为程序员节,因2的10次方 = 1024。 祝大家中秋节和程序员节快乐。 新福利: 从9月11日开始至10月15日截止,一共五周时间,每周二我会从公众号底部留言互动最多的读者中抽取一名读者,免费包邮送实体新书《HBase原理与实践》,留言互动起来吧~ 猜你喜欢 1、 七问Redis,才知道我与技术大牛的差距在哪里 2、 这可能是学习 Spark Delta Lake 最全的资料 3、 基于 MySQL Binlog 的 Elasticsearch 数据同步实践 4、 大数据面试知识图谱 扫码关注我们 过往记忆大数据

我顺藤摸瓜查到色情网站操控者的真实身份,劝他找份正经事干。

自作多情 提交于 2020-10-12 00:25:01
此篇文章献给基层公安同志,希望对你破案过程能起到一定思路。 今天要讲的事是在去年的9月份发生的。 有天夜里我无意发现这个色情网站,本不想多事去搭理,但我发现在里面有一些小孩儿的资源。 其实那段时间我还是个爱搞事的热血青年,二话没说就开始对这个色情网站进行调查。 如果是以网站作为起点查起,Whois查询是必经的第一步。 根据Whois查询到该色情网站的注册信息 注册人姓名:朱* 注册邮箱:124**@qq.com 域名注册商:西部数码 按照以往的经验来看,利用whois查询色情网站域名,其注册人姓名相关的信息,很有可能全是假的。 但是不管真真假假,在调查中应当不放过任何线索,有些线索可能就隐藏在不起眼的角落里。 保持严谨,是我一贯的作风。 随后在其反查该五位数的QQ邮箱时,发现了一个成都大保健上门服务的网站 但该网站中并没有留下任何的联系方式,且这个网站的头部LOGO位置没有改,是从AB模板网里下载的。 因此猜测得出结论——该网站为临时搭建,并没有投入到正常使用。 无奈之下只能放弃此条线索,尝试从该色情网站的域名注册商下手调查。 这个色情网站是从西部数码所注册的,我联系了该服务商的客服,以域名被人恶意解析,解析到一个色情网站上,我已经失去了对该域名的掌控权。 但客服让我提交工单,他们不能提供该域名的相关联系人信息。 社工,以失败告终。 突然想起,色情网站很有可能会存在漏洞一类

基于 Flink 的典型 ETL 场景实现

北慕城南 提交于 2020-10-10 14:07:36
简介: 本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手,综述数仓发展演进,然后分享基于 Flink 实现典型 ETL 场景的几个方案。 作者:买蓉 · 美团点评高级技术专家 整理:赵阳(Flink 社区志愿者) 校对:苗浩冲(Flink 社区志愿者) 本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手,综述数仓发展演进,然后分享基于 Flink 实现典型 ETL 场景的几个方案。 1.实时数仓的相关概述 1.1 实时数仓产生背景 我们先来回顾一下数据仓库的概念。 数据仓库的概念是于90年代由 Bill Inmon 提出, 当时的背景是传统的 OLTP 数据库无法很好的支持长周期分析决策场景,所以数据仓库概念的4个核心点,我们要结合着 OLTP 数据库当时的状态来对比理解。 面向主题的:数据仓库的数据组织方式与 OLTP 面向事务处理不同。因为数据仓库是面向分析决策的,所以数据经常按分析场景或者是分析对象等主题形式来组织。 集成的:对于数据仓库来说,经常需要去集合多个分散的、异构的数据源,做一些数据清洗等 ETL 处理,整合成一块数据仓库,OLTP 则不需要做类似的集成操作。 相对稳定的:OLTP 数据库一般都是面向业务的,它主要的作用是把当前的业务状态精准的反映出来,所以 OLTP 数据库需要支持大量的增、删、改的操作。但是对于数据仓库来说

基于 Flink 的典型 ETL 场景实现

余生颓废 提交于 2020-10-09 02:01:11
作者:买蓉 · 美团点评高级技术专家 整理:赵阳(Flink 社区志愿者) 校对:苗浩冲(Flink 社区志愿者) 本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手,综述数仓发展演进,然后分享基于 Flink 实现典型 ETL 场景的几个方案。 1.实时数仓的相关概述 1.1 实时数仓产生背景 我们先来回顾一下数据仓库的概念。 数据仓库的概念是于90年代由 Bill Inmon 提出, 当时的背景是传统的 OLTP 数据库无法很好的支持长周期分析决策场景,所以数据仓库概念的4个核心点,我们要结合着 OLTP 数据库当时的状态来对比理解。 面向主题的:数据仓库的数据组织方式与 OLTP 面向事务处理不同。因为数据仓库是面向分析决策的,所以数据经常按分析场景或者是分析对象等主题形式来组织。 集成的:对于数据仓库来说,经常需要去集合多个分散的、异构的数据源,做一些数据清洗等 ETL 处理,整合成一块数据仓库,OLTP 则不需要做类似的集成操作。 相对稳定的:OLTP 数据库一般都是面向业务的,它主要的作用是把当前的业务状态精准的反映出来,所以 OLTP 数据库需要支持大量的增、删、改的操作。但是对于数据仓库来说,只要是入仓存下来的数据,一般使用场景都是查询,因此数据是相对稳定的。 反映历史变化:数据仓库是反映历史变化的数据集合,可以理解成它会将历史的一些数据的快照存下来。而对于

学习大数据:Hive

微笑、不失礼 提交于 2020-10-09 00:47:45
Hive的功能 使用SQL的方式读取分布式存储系统上的大量数据。 数据库:在线事务处理,并发性、事务性和低延迟性。 数据仓库:在线分析处理,有高的延迟。 Hive与Hbase区别: 1.Hive是数据仓库工具,用于分析大数据;hbase是数据库工具,用于存储NoSQL的数据库。 2.Hive因为执行HQL语句,基于MR处理数据时间,耗时长;hbase可实时查询数据 Hive的数据存储于HDFS上,结构化信息存储在MySQL表里。(hive的数据库和表是HDFS的目录,数据是HDSF文件) 进入hive中可以通过dfs -XX 的命令直接访问hdfs •HiveServer2 使用hiveserver2服务器,实现客户端以jdbc协议远程访问hive。(客户端不需要安装hive) •常用命令 desc database XXX/ 某表; create table test01 as select from test; 复制表数据同时创建内部表 create external table ext_test like test; 复制test的表结构 insert into ext_test select from test; 复制表数据到外部表 alter table test add columns (id , int); 添加表中的列 desc formatted test;

奈学教育《大数据架构师》课程大纲

独自空忆成欢 提交于 2020-10-07 07:09:37
深度剖析了各个基础技术的源码(ZooKeeper、Hive、Spark、Flink、Hadoop等),对这些基础技 术知识动态的排列组合,形成大数据全局架构观,并深入讲述大数据全局架构设计的方方面面,打 造真正满足企业万亿级海量数据规模的数据中台,真正赋能前台业务。同时,在企业万亿级真实项 目落地环节,采用高性能、高可用、高扩展的架构设计原则,技术上更是融合了企业级主流的离线 架构和实时架构,带领大家构建PB级的大数据中台,真正落地“企业千亿级的数据仓库中台”,实现 “企业级数据中心平台”,搞定“企业千亿级广告统一数据流智能分析平台”,掌握“企业级Hadoop平 台全方位二次源码开发”,让学员面对企业各种海量复杂业务场景,给出优雅的大数据架构设计方 案,从而真正成为企业级大数据架构师! ​ 第一阶段:分布式协调组件 第一单元 掌握ZooKeeper的核心设计 ZooKeeper生态体系结构 ZooKeeper总体架构设计 ZooKeeper读写请求流程深度剖析 第二单元 掌握ZooKeeper服务端源码流程 ZooKeeper启动流程源码深度剖析 Master选举算法源码深度剖析 服务端通信模型源码深度剖析 第三单元 掌握ZooKeeper客户端源码流程 客户端启动流程源码剖析 客户端通信模型源码剖析 Session管理机制源码剖析 第四单元 掌握ZooKeeper企业应用

百亿级图数据JanusGraph迁移之旅

为君一笑 提交于 2020-10-06 21:33:37
1. 迁移背景介绍 目前我们的图数据库数据量为 顶点 20 亿,边 200 亿的规模。在迁移之前我们使用的 AgensGraph 数据库 一个主库四个备库,机器的配置都比较高,256G 内存 SSD 的磁盘,单机数据量为 3T左右。 在数据量比较小的情况下 AgensGraph 表现非常稳定优异,我们之前一主一备的情况下支撑了很长一段时间。 但随着公司业务的急速发展,图越来越大,占用的磁盘越来越多,对应的查询量也越来越大,随之这种方案的问题就暴露出来了 单机的磁盘空间不够,按理说可以一直添加磁盘,但现实情况有很多限制 AgensGraph 不是分布式结构,每次查询都需要单机处理,单台机器的处理能力总是有上限的,导致查询耗时增加 随着查询量的增加,机器磁盘,网络 IO 出现瓶颈。按理说可以通过增加备库来解决,但备库要求高导致成本增高,并且数据冗余严重 由于上面的原因导致 AgensGraph 没办法继续支撑业务高速发展带来的性能要求。AgensGraph 底层基于 PostgreSQL 数据库使它在小数据量的情况下非常的稳定并且查询响应非常的迅速,在此感谢 AgensGraph 陪我们度过业务快速成长阶段。 为了寻找新的图数据库我们把目光投向了接受度和知名度都比较高的 JanusGraph。当然还有收费的图数据库 TigerGraph,暂时不做考虑 在此贴一张我们图的应用场景