Apache HBase

Apache Kylin安装指南+入门案例(附图)

不打扰是莪最后的温柔 提交于 2020-10-24 08:33:40
Apache Kylin安装文档 Kylin安装 Kylin使用案例 1. Kylin安装 使用FTP工具上传apache-kylin-2.5.1-bin-hbase1x.tar.gz压缩包到node01的 opt/software 目录下 解压上一步上传的压缩包 opt/module 下 tar -zxvf apache-kylin-2.5.1-bin-hbase1x.tar.gz -C /opt/module 进入 opt/module 目录,更改apache-kylin-2.5.1-bin-hbase1x目录名字 mv pache-kylin-2.5.1-bin-hbase1x kylin-2.5.1 此时 opt/module 目录结构如下 进入到 kylin-2.5.1 目录,查看kylin的目录结构 进入 conf 目录,将 kylin.properties.template 改成 kylin.properties ,命令: mv kylin.properties.template kylin.properties 编辑 kylin.properties 文件,添加以下内容 # 下面的node01是你的主机名,我将kylin装在了第一个节点上,需要根据你的主机名更改 kylin.server.cluster-servers = node01:7070 kylin

MySQL,首先你要了解的。笔记-1

こ雲淡風輕ζ 提交于 2020-10-23 19:40:50
数据库是什么? 数据库(Database System) 数据库的分类 数据库(Database System) 数据库系统(Database System),是由数据库及其管理软件组成的系统。 数据库就是存储数据的地方,传统意义上不包括文件系统 数据库是由2部分组成 db 数据库本身 – 我们看不见的 数据库管理系统 数据库的分类 现在世界上数据库分为3类 关系型数据库 RDBMS 关系数据库管理系统(Relational Database Management System:RDBMS)是指包括相互联系的逻辑组织和存取这些数据的一套程序 (数据库管理系统软件)。 主流的数据库 最出名的3大关系型数据库:MySQL Oracle MSSQL(sql server) MySQL被Oracle收购了 非关系型数据库NOSQL 不是要取代传统关系型数据库 而是补充 NOSQL的意思就是Not Only SQL 产生的原因:关系型数据库太慢了! redis(基于内存的) mongodb(基于硬盘的) hbase(基于大数据集群的) NEWSQL 近几年才出现的 是RDBMS和NOSQL折中的数据库解决办法 来源: oschina 链接: https://my.oschina.net/u/4356138/blog/4281850

HBase原理 | HBase Region 运行状态学习

一个人想着一个人 提交于 2020-10-23 06:46:00
HBase为每个Region维护一个状态,并将该状态保留在hbase:meta中。hbase:meta 本身的Region状态保留在ZooKeeper中。可以在Master Web UI中查看Region的过渡状态。以下是可能的Region状态列表。 1. 状态机中包括下面几种状态: offline:region离线没有开启。 opening:region正在被打开。 open:region正在打开,并且region server通知了master。 failed_open:regionserver打开失败。 closing:region正在被关闭。 closed:regionserver正在关闭,并且已经通知了master。 failed_close:regionserver关闭失败了。 splitting:region server通知master,region正在被切分。 split:region server通知master,region已经被切分完了。 spliting_new:region是切分过程中新建的文件。 merging:regionserver通知master region正在合并。 merged:regionserver通知master region合并完了。 merging_new:region是合并新建出来的。 2. 不同的颜色是不同含义: 棕色

QQ音乐PB级ClickHouse实时数据平台架构演进之路

旧城冷巷雨未停 提交于 2020-10-22 08:26:13
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值。本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云EMR产品深度合作的案例解读,还原一个不一样的大数据云端解决方案。 文章目录 1 一、背景介绍 2 二、大数据分析的挑战 2.1 1. 时效性低 2.2 2. 易用性低 2.3 3. 流程效率低 3 三、QQ音乐大数据架构技术演进 3.1 1. ClickHouse介绍 3.2 2. ClickHouse架构系统技术攻克点 3.3 3. 基于Superset的自助数据分析可视化平台 4 四、QQ音乐与腾讯云EMR共建云端OLAP 5 结语 一、背景介绍 QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品,平台打造了“听、看、玩”的立体泛音乐娱乐生态圈,为累计注册数在8亿以上的用户提供多元化音乐生活体验,畅享平台上超过3000万首歌曲的海量曲库。优质服务的背后,是每天万亿级新增音乐内容和行为数据,PB数据量级的数据计算服务。 海量的数据意味着更高标准的数据分析业务,对于离线分析的时效、实时与近实时的即席实时交互分析,提出了更高的要求。如何通过用户行为以及音乐内容标签数据,深入洞察用户需求,来优化泛音乐内容创作分享生态,为亿万用户带来更优质的音乐体验

廖雪峰大数据团队研发的"开车宝典"再次曝光,手慢删!

心不动则不痛 提交于 2020-10-18 15:30:43
想什么呢!是廖雪峰老师送福利! 众所周知,大数据改变了我们的生产生活,目前已被广泛应用于电商、交通、工业、金融、政务、医疗等行业,而大数据工程师也成为各行业炙手可热的岗位 。 但同样地大数据工程师技能要求也不低,不仅要熟练 Hadoop、Presto 及 Spark、Storm 等核心框架,还要会搭建系统架构,解决实际业务问题等。但不少初入大数据的人往往摸不着头脑,对 Spark、Flume、Hbase、Kafka 等框架底层源码更是一知半解,更不要说提升系统性开发能力,成为精通的高手了。 因此,今天给大家推荐一个 免费 福利—— 廖雪峰 最新研磨的 实战宝典 《 如何将大数据开发做到优秀 》 首次开放! 内容出自开课吧 vip 课程 “大数据高级开发实战班” ,为帮助大家特殊时期职场走得更加顺畅,现决定将这套价值 788元 的体系化学习宝典免费送给粉丝朋友。 如果你是刚转行大数据不久的 Java、PHP 等程序员或 入行新人 ,这套学习宝典能帮你迅速摆脱工作困扰,巩固掌握优秀工程师的必会技能: 缺乏工作经验,想短时期内接触学习大数据开发项目; 接触不到核心技术,不懂底层源码,不会搭建系统架构,提升太难; 业务逻辑欠缺,想丰富实战经验,进大厂冲击高薪。 一、高薪大数据工程师必备——实战项目经验 本部分选取 当下各企业应用最广的 项目 ,基于 大厂脱敏数据 ,以 Spark

面试官问,你在开发中有用过什么设计模式吗?我懵了

人盡茶涼 提交于 2020-10-17 23:39:46
设计模式不应该停留于理论,跟具体业务结合,它才会变得更香~ 1.前言 设计模式我们多少都有些了解,但是往往也只是知道是什么。 在真实的业务场景中,你有用过什么设计模式来编写更优雅的代码吗? 我们更多的是每天从产品经理那里接受到新需求后,就开始MVC一把梭,面向sql编程了。 我们习惯采用MVC架构,实时上是非常容易创建很多贫血对象模型,然后写出过程式代码。我们使用的对象,往往只是数据的载体,没有任何逻辑行为。我们的设计过程,也是从ER图开始,以数据为中心进行驱动设计。一个需求一个接口,从controller到service到dao,这样日复一日的CRUD。 什么设计模式?根本不存在的! 今天,我们尝试从常用设计模式(工厂模式、代理模式、模版模式)在CRUD中的可落地场景,希望能给大家带来一些启发。 2.理解设计模式 设计模式(Design pattern),不是前人凭空想象的,而是在长期的软件设计实践过程中,经过总结得到的。 使用设计模式是为了让代码具有可扩展性,实现高聚合、低耦合的特性。 世上本来没有设计模式,写代码的人多了,便有了设计模式。 面向对象的设计模式有七大基本原则: 开闭原则(Open Closed Principle,OCP) 单一职责原则(Single Responsibility Principle, SRP) 里氏代换原则(Liskov

大白话彻底搞懂 HBase RowKey 详细设计

不打扰是莪最后的温柔 提交于 2020-10-17 03:08:17
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 前言 RowKey作为HBase的核心知识点,RowKey设计会影响到数据在HBase中的分布,还会影响我们查询效率,所以RowKey的设计质量决定了HBase的质量。是咱们大数据从业者必知必会的,自然也是面试必问的考察点。 那么rowkey到底是什么呢?原理是什么呢?怎么设计RowKey呢?使用场景是怎样的呢?有哪些设计原则呢?又如何进行优化呢? 下面就让我们带着这些问题,一起探索RowKey的世界! RowKey的概念 RowKey从字面意思来看是行键的意思,咱们知道HBase可以理解为一个nosql(not only sql)数据库,既然是数据库,那么咱们日常使用最多的就是增删改查(curd)。其实在增删改查的过程中RowKey就充当了主键的作用,它和众多的nosql数据库一样,可以唯一的标识一行记录。 RowKey行键 (RowKey)可以是任意字符串,在HBase内部,RowKey保存为字节数组。存储时,数据按照RowKey的字典序(byte order)排序存储。设计RowKey时,要充分利用排序存储这个特性,将经常一起读取的行存储放到一起。 RowKey的特点小结如下: RowKey类似于主键,可以唯一的标识一行记录; 由于数据按照RowKey的字典序(byte

奈学教育《大数据开发工程师》课程大纲

时光毁灭记忆、已成空白 提交于 2020-10-16 05:09:09
本课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术;用真实的企业级实时数仓项目、离线数仓项目、PB级实时用户行为分析系统、千亿级实时广告系统等多个大型项目,把大数据生态技术知识串连起来,让学员形成自己的技术栈,真正成为企业级的大数据开发工程师! 阶段一:小规模数据处理篇 第一单元 掌握Python基础语法 集合类型 条件,循环 文件操作 函数和函数式编程 面向对象 第二单元 掌握NumPy进行数据分析 NumPy基本使用 Numpy进阶知识 第三单元 掌握Pandas进行数据分析 Pandas基础知识 Series数据结构 DataFrame数据结构 综合案例演示 阶段二:中等规模数据处理篇 第四单元 掌握Elastichsearch核心设计 Elastichsearch总体架构设计 Elastichsearch核心流程分析 Elastichsearch核心概念详解 第五单元 掌握Elastichsearch API使用与调优 Elastichsearch语法详解 Elastichsearch容错原理剖析

大数据简介,技术体系分类整理

独自空忆成欢 提交于 2020-10-15 00:44:48
本文源码: GitHub·点这里 || GitEE·点这里 一、大数据简介 1、基础概念 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则主要用来解决海量数据的存储和分析。 2、特点分析 大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 3、发展过程 Google在2004年前后发表的三篇论文,分别是文件系统GFS、计算框架MapReduce、NoSQL数据库系统BigTable。海量数据文件,分析计算,并存储,确立了大数据的基本原理和思路。 天才程序员DougCutting,也是Lucene、Nutch项目发起人。根据Google论文原理初步实现类似GFS和MapReduce的功能,后来发展成为大名鼎鼎的Hadoop。 再后来,Hadoop经过高速的发展,已经形成一个生态体系,基于Hadoop之上,有实时计算,离线计算,NoSQL存储,数据分析,机器学习等一系列内容。 从这一系列事情发展看技术规律:Google业务实践中创造性的提出论文作为基础,业务的成长和需求,迫使技术不断更新换代。所以业务是技术不断发展的关键。 二、Hadoop框架

有赞数据库服务设计与实践-3306π南京站

大憨熊 提交于 2020-10-14 16:35:33
主题 : 「3306π」南京站活动专访 杨奇龙《有赞数据库服务设计与实践》 大纲 : 1、杨老师,一直持续在各个技术方面,为大家输出精彩文章,请问您是如何在工作之余进行的技术总结呢?您的学习方法可否分享给大家? 2、各个企业都在引用开源或者自研数据库服务或平台来进行工作提效,请问杨老师如何量化数据库服务带来的成果呢? 3、请问杨老师,有赞数据库服务的开发团队非常高效,但一般中小企业都会希望DBA本身负责研发相关工作,杨老师可否谈谈您对DBA的定位和发展建议呢? 4、 请问杨老师,一般企业在规划数据库服务平台从0到1过程,您比较推荐哪种模块依次开发的顺序来,实现平台的有效设计和有效推广呢? 分享时间 : 2020年10月17日 13:00-18:00 扫一扫左边二维码, 立刻报名本次活动。 嘉宾自我介绍 杨奇龙 杭州有赞 DBA ,运营公众号yangyidba 。负责有赞数据库架构设计,数据库服务治理,故障诊断等等 01 杨老师,一直持续在各个技术方面,为大家输出精彩文章,请问您是如何在工作之余进行的技术总结呢?您的学习方法可否分享给大家? 关于写文章这件事上可以看出我记得我从2009年5月份在itpub的博客写了第一篇文章,基本一路写到现在,算是兴趣和对技术的坚持吧。平时利用工作的机会收集案例,素材,查看官方文档,网络其他牛人的博客等,利用空余时间 做技术试验测试,然后汇总写写文章