Apache HBase

微服务和大数据性能指标参考和相关组件

穿精又带淫゛_ 提交于 2021-01-13 10:15:12
发布时间:19-07-1720:12 一、引言 本文题为微服务和大数据性能指标参考,但实际上,无论是单体架构还是分布式架构、数据规模如何,在设计和开发各种功能性模块时,都需要提前考虑高性能需求水平并按需设计,对各种性能指标进行合理评估,从而尽量减少代码重构的可能性。 在完成功能模块的开发以后,还需要使用各种压力测试工具进行性能测试,从而判断代码是否能够满足性能要求,并找出性能瓶颈所在。 为了作出更加合理的性能评估值,我们需要先大概的了解一些常用的计算机操作所消耗的时间,从而心中有数的设计出一个符合需求、且易于实现的系统,减小线上系统失败的风险,并能够做到心中有数。 二、常用应用层性能指标参考标准 以下标准是使用PC X86 桌面机器的经验值,并不代表使用线上生产机器的经验值,仅供参考,评审时应该根据机器的不同进行调整。 2.1 通用标准 容量按照峰值的5倍冗余计算。分库分表后的容量一般可存储N年的数据(根据不同机器调整)。第三方查询接口吞吐量为5000/s。单条数据库记录占用大约1KB的空间。 2.2 MySQL 单端口读:1000/s。单端口写:700/s。单表容量:5000万条。 2.3 Redis 单端口读:40000/s。单端口写:40000/s。单端口内存容量:32GB。 2.4 Kafka 单机读:30000/s。单机写:5000/s。2.5 Flume HDFS

大数据学习 HBase

耗尽温柔 提交于 2021-01-13 10:02:10
hbase列式分布式数据库: 结构化数据和非结构化数据 支持实时数据处理 列存储 水平扩展优秀 HBASE接口:java api ,shell,hive HBASE数据模型: 列式存储在数据分析中效率很高,同一列数据类型相同可以达到更高的压缩率; 事务性操作比较多使用传统 行式存储; 分析型应用为主 列式储存; master服务器: 分区信息维护和管理、维护region服务器列表、监控region、负责对region进行分配、负载均衡 region服务器: 客户端存取数据、维护redion hbase三级寻址: zookeeper -> -ROOT表-> .META->用户数据表 hbase安装: 伪分布式: hbase-site.xml文件 <property> <name>hbase.cluster.distributed</name> #是否为分布式 <value>true</value> </property> <property> <name>hbase.rootdir</name> <value>hdfs://weide:8020/hbase</value> #hbase共享目录,持久化hbase数据 </property> <property> <name>hbase.master.port</name> #hbasemaster的主机和端口 <value>weide

大数据时代的结构化存储--HBase

冷暖自知 提交于 2021-01-13 08:54:06
迄今,相信大家肯定听说过 HBase,但是对于 HBase 的了解可能仅仅是它是 Hadoop 生态圈重要的一员,是一个大数据相关的数据库技术。 今天我带你们一起领略一下 HBase 体系架构,看看它是如何大规模处理海量数据。 一、什么是 HBase? 关于 HBase 的实现,是基本遵循 Bigtable 的论文。HBase 是一个面向列的分布式数据库,也是个非关系型数据库系统(NoSQL),它建立在 Hadoop 文件系统之上。面向列的数据库是将数据表存储为数据列的一部分而不是数据行的数据库。 HBase 是一个分布式,持久,严格一致的存储系统,具有接近最佳的写入 I / O 通道饱和度和出色的读取性能。而且 HBase 只考虑单个索引,类似于 RDBMS 中的主键,提供服务器端实现灵活的二级索引解决方案。 二、为什么使用 HBase? HBase 是 Hadoop 生态圈中重要的一环,用于存储,管理和处理数据。我们知道 Hadoop HDFS 是无法处理高速随机写入和读取,也无法在不重写文件的情况下对文件进行修改。HBase 正好解决了 HDFS 的缺点,因为它使用优化的方式快速随机写入和读取。此外,随着数据呈指数增长,关系数据库无法提供更好性能去处理海量的数据。HBase提供可扩展性和分区,以实现高效的存储和检索。 三、HBase 体系架构 我们先来看看 HBase

Hadoop入门基础知识总结

谁说我不能喝 提交于 2021-01-13 08:46:27
  大数据时代的浪潮袭来,Hadoop作为一种用来处理海量数据分析的工具,是每一个大数据开发者必须要学习和掌握的利器。本文总结了Hadoop入门基础知识,主要包括了Hadoop概述、Hadoop的发展历程和Hadoop的特性。下面一起来看看吧!   1、Hadoop概述   Hadoop 是 Apache 旗下的一个用 Java 语言实现开源软件框架,它还是一个开发和运行处理大规模数据的软件平台。Hadoop允许使用简单的编程模型,在大量计算机集群上,对大型数据集进行分布式处理。   狭义上说,Hadoop 指 Apache 这款开源框架,它的核心组件有:HDFS(分布式文件系统):解决海量数据存储 ;YARN(作业调度和集群资源管理的框架):解决资源任务调度;MAPREDUCE(分布式运算编程框架):解决海量数据计算。   广义上来说,Hadoop 通常是指一个更广泛的概念——Hadoop 生态圈。当下的 Hadoop 已经成长为一个庞大的体系,随着生态系统的成长,新出现的项目越来越多,其中不乏一些非 Apache 主管的项目,这些项目对 HADOOP 是很好的补充或者更高层的抽象。比如,HDFS: 分 布 式 文 件 系 统;MAPREDUCE:分布式运算程序开发框架;HIVE:基于 HADOOP 的分布式数据仓库,提供基于 SQL 的查询数据操作;HBASE

全链路压测探索实践之路

℡╲_俬逩灬. 提交于 2021-01-12 18:05:31
去年双十一,为了应对零点的峰值流量冲击,我们在八月下旬启动了全链路压测第一次实践。由于从零开始,因此单独搭建了一套和生产1:1的环境,2个月的时间,光环境成本就高达几百万。 经过双十一,压测团队从中汲取了不少的经验和教训。双十一之后,在CTO的指导下和支持下,由基架和性能测试团队快速的投入了全链路压测平台的研发当中。 并且趁着核心系统重构,快速的接入落地,对后续的系统稳定性保障工作,迈出了坚定地一步。 流程导图 梳理阶段 1、系统服务梳理 全链路压测是一个很复杂的工程,其中涉及到多个服务。对整个业务系统进行梳理,确认流量传递的上下游和范围,是首先要做的事情。 2、核心链路梳理 什么是核心链路?现在来看,依然是一个艰难的选择。压测团队在梳理核心链路时,主要从如下几方面来评估: 1)是否是高频访问业务; 2)是否是强依赖的核心环节; 3)是否直接影响生产的交易业务; 4)参考生产实际的QPS指标为维度; 3、外部依赖梳理 确定核心链路后,要对其外部依赖进行进行梳理(比如第三方支付)。由于全链路压测在生产环境进行,因此需要对外部依赖进行mock处理,避免对生产服务造成影响。 4、中间件梳理 为了避免压测流量对生产造成影响,产生脏数据,需要对整个流量传递过程中涉及的中间件进行梳理,让压测流量透传落影子库。 压测流量模拟在请求网关接口时候在header中带上:x-infr-flowtype

hadoop实战视频教程 Hadoop深入浅出实战经典视频教程

﹥>﹥吖頭↗ 提交于 2021-01-12 03:22:47
最新在学习hadoop 、storm大数据相关技术,发现网上hadoop 、storm 相关学习视频少之又少,更可恶的是不少机构使用段海涛老师Hadoop视频进行商业买卖,气愤至急,我这里整理了传智播客段海涛老师的hadoop学习视频,分享出来给大家学习交流。 ps:传智播客是个不错的学习地方,段海涛老师视频中的表达也很有趣,中间还有内涵段子哈哈,希望大家多支持传智播客;此次分享只是供喜欢技术钻研新技术的同学学习交流,全新hadoop培训大纲,比之前七天的培训更加完善,非常适合想从事Hadoop开发学习的朋友们,另外整理java架构师的一些资料 教程下载地址: http://demo.liuy88.cn/jp0468.html 第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和伪分布式安装.avi 06-hadoop版本选择和伪分布式安装2.avi 07-hdfs&mapreduce测试.avi 08-hdfs的实现机制初始.avi 09-hdfs的shell操作.avi 10-hadoop集群搭建的无密登陆配置.avi 第二天

How to fix corrupt HDFS FIles

我是研究僧i 提交于 2021-01-11 09:57:18
1 问题描述 HDFS在机器断电或意外崩溃的情况下,有可能出现正在写的数据(例如保存在DataNode内存的数据等)丢失的问题。再次重启HDFS后,发现hdfs无法启动,查看日志后发现,一直处于安全模式。 2 原因分析 出现前面提到的问题主要原因是客户端写入的数据没有及时保存到磁盘中,从而导致数据丢失;又因为数据块丢失达到一定的比率,导致hdfs启动进入安全模式。 为了弄清楚导致安全模式的原因,下面主要对hdfs安全模式和如何退出安全模式进行分析。 2.1 安全模式 当 hdfs的NameNode节点启动时,会进入安全模式阶段。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。 在此阶段,NameNode加载fsimage(Filesystem image:文件meta信息的持久化的检查点)文件到内存中,然后在editlog中执行相应的操作。加载fsimage文件包含文件metadata信息,但是不包含文件块位置的信息。 DataNode启动的时候扫描本地磁盘,保存的block信息,然后将这些信息汇报给NameNode,让 NameNode得到块的位置信息,并对每个文件对应的数据块副本进行统计。 如果hdfs数据量很大时,进入至退出安全模式时间较长。 2.2 安全模式退出条件 当最小副本条件满足时,即一定比例(dfs

实战phoenix

守給你的承諾、 提交于 2021-01-11 03:41:49
一 安装部署 1, 下载 http://archive.apache.org/dist/phoenix/ 本文下载的是 apache-phoenix-4.12.0-HBase-1.2-bin.tar.gz 2, 安装 解压之后将phoenix-4.12.0-HBase-1.2-server.jar复制到hbase/lib目录下。 在hbase-site.xml中,添加如下配置 <property> <name>hbase.regionserver.wal.codec</name> <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value> </property> <property> <name>hbase.coprocessor.master.classes</name> <value>org.apache.phoenix.hbase.index.master.IndexMasterObserver</value> </property> <property> <name>hbase.rpc.timeout</name> <value>300000</value> </property> <property> <name>hbase.region.server.rpc.scheduler

「Kafka」Kafka中offset偏移量提交

十年热恋 提交于 2021-01-10 21:24:51
在消费Kafka中分区的数据时,我们需要跟踪哪些消息是读取过的、哪些是没有读取过的。这是读取消息不丢失的关键所在。 Kafka是通过offset顺序读取事件的。如果一个消费者退出,再重启的时候,它知道从哪儿继续读取消息进行处理。所以,消费者需要 「提交」属于它们自己的偏移量。 如果消费者已经提交了偏移量,但消息没有得到有效处理,此时就会造成消费者消息丢失。所以,我们应该重视偏移量提交的时间点以及提交的方式。 Kafka消费者的可靠性配置 1、group.id 如果两个消费者有相同的 group.id,并且定义同一个主题,那么每个消费者都会消费一个分区的数据 2、auto.offset.reset 这个参数的作用是:当没有偏移量提交(例如:消费者第一次启动、或者请求的偏移量在broker上不存在时),消费者会如何处理 earliest:消费者从分区的开始位置读取大量的重复数据,可以保证个最少的数据丢失 latest:消费者会从分区的末尾开始读取数据,可以减少重复读,但很有可能会错过一些消息 3、enable.auto.commit 可以设置自动提交偏移量,可以在代码中手动提交偏移量 自动提交,可以让消费者逻辑更简单 但它无法控制重复处理消息、或者如果消息交给另外一个后台线程去处理,自动提交机制可能会在消息还没有处理完就提交了偏移量 4、auto.commit.interval.ms

运维人员需要掌握的

杀马特。学长 韩版系。学妹 提交于 2021-01-10 09:24:50
<---------------------摘自老男孩博客-------------------> 操作系统:Centos,Ubuntu,Redhat,suse,Freebsd 网站服务:nginx,apache,lighttpd,php,tomcat,resin 数据 库:MySQL,MariaDB,PostgreSQL DB中间件:maxscale ,MyCat ,atlas,cobar,amoeba,MySQL-proxy 代理相关:lvs,keepalived,haproxy,nginx,heartbeat 网站缓存:squid,nginx,varnish NOSQL库:Redis,Memcached,MongoDB,HBase,Cassandra,CouchDB 存储相关:Nfs,FastDFS,Moosefs(mfs),Hadoop,glusterfs,lustre 版本管理:svn,git 监控报警:nagios,cacti,zabbix,munin,hyperic,mrtg,graphite 域名解析:bind,powerdns,dnsmasq 同步软件:scp,rsync,inotify,sersync,drbd 批量管理:SSH,Ansible,Saltstack,expect,puppet 虚拟 化:kvm,xen 云计 算:openstack,docker